2024-07

使用生成式预训练 Transformer 模型进行自动化软件漏洞静态代码分析

分类: 密码学和安全, 人工智能, 计算和语言, 机器学习

作者: Elijah Pelofske, Vincent Urias, Lorie M. Liebrock

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00197v1

摘要: 生成式预训练 Transformer 模型已被证明在各种自然语言处理任务(包括生成计算机代码)方面出奇地有效。我们评估开源 GPT 模型在自动识别存在漏洞的代码语法(特别针对 C 和 C++ 源代码)的任务中的有效性。此任务根据 NIST SARD 数据集中精选的 36 个源代码示例进行评估,这些示例经过专门设计,不包含表明特定漏洞存在或不存在的自然英语。 NIST SARD 源代码数据集包含已识别的易受攻击的源代码行,这些代码行是 839 个不同的常见弱点枚举 (CWE) 之一的示例,允许精确量化 GPT 输出分类错误率。总共评估了 5 个 GPT 模型,每个设置使用 10 个不同的推理温度和 100 次重复,从而对每个分析的易受攻击的源代码进行 5,000 个 GPT 查询。最终,我们发现我们评估的 GPT 模型不适合全自动漏洞扫描,因为误报率和漏报率太高,在实践中可能没有用处。然而,我们确实发现 GPT 模型在某些测试用例的自动漏洞检测方面表现出奇的好,特别是超越了随机采样,并且能够识别出易受攻击的确切代码行,尽管成功率较低。发现的性能最佳的 GPT 模型结果是 Llama-2-70b-chat-hf,其推理温度为 0.1,应用于 NIST SARD 测试用例 149165(这是缓冲区溢出漏洞的一个示例),其二进制分类召回分数为 1.0精度为 1.0,用于正确且唯一地识别易受攻击的代码行和正确的 CWE 编号。

深度神经网络抵御有意和无意扰动的弹性和安全性:调查和研究挑战

分类: 密码学和安全, 人工智能

作者: Sazzad Sayyed, Milin Zhang, Shahriar Rifat, Ananthram Swami, Michael De Lucia, Francesco Restuccia

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00193v1

摘要: 为了在高风险场景中部署深度神经网络 (DNN),DNN 必须提供对外部扰动(有意和无意的扰动)稳健的推理。尽管 DNN 对有意和无意扰动的恢复能力已得到广泛研究,但统一的对这些本质上相互交织的问题领域的愿景仍然缺失。在这项工作中,我们通过提供对现有技术的调查并强调所提出的方法的相似性来填补这一空白。我们还分析了需要解决的研究挑战部署有弹性且安全的 DNN。由于还没有任何此类调查将 DNN 的弹性与有意和无意的扰动联系起来,我们相信这项工作可以通过促进两个社区之间的思想交流来帮助推进这两个领域的前沿。

S-SYNTH:基于知识的皮肤图像合成生成

分类: 计算机视觉和模式识别, 人工智能

作者: Andrea Kim, Niloufar Saharkhiz, Elena Sizikova, Miguel Lago, Berkman Sahiner, Jana Delfino, Aldo Badano

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00191v1

摘要: 医学成像领域人工智能(AI)技术的发展需要访问大规模且多样化的数据集进行训练和评估。在皮肤病学中,由于患者群体、照明条件和采集系统特性的显着变化,获取此类数据集仍然具有挑战性。在这项工作中,我们提出了 S-SYNTH,这是第一个基于知识的、适应性强的开源皮肤模拟框架,可使用受解剖学启发的多层、多成分皮肤和不断生长的皮肤,快速生成合成皮肤、3D 模型和数字渲染图像。病变模型。皮肤模型允许控制皮肤外观的变化,例如皮肤颜色、毛发的存在、病变形状和血液分数等参数。我们使用这个框架来研究可能的变化对皮肤病变分割人工智能模型的开发和评估的影响,并表明使用合成数据获得的结果遵循与真实皮肤病学图像类似的比较趋势,同时减轻现有数据集的偏差和限制,包括数据集规模小、缺乏多样性、代表性不足。

CREW:促进人类-人工智能团队研究

分类: 人机交互, 人工智能, 机器学习

作者: Lingyu Zhang, Zhengran Ji, Boyuan Chen

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00170v1

摘要: 随着人工智能(AI)技术的不断部署,人类与人工智能代理合作的潜力正在飞速增长。人类-人工智能团队是研究人类和人工智能代理协同工作时各个方面的重要范例。人机-人工智能团队研究的独特之处在于需要共同研究人类和人工智能体,需要从机器学习到人机交互、机器人、认知科学、神经科学、心理学、社会科学和复杂系统的多学科研究工作。然而,现有的人类-人工智能团队研究平台有限,通常支持过于简单的场景和单一任务,或者专门关注人类团队研究或多智能体人工智能算法。我们推出了 CREW,这是一个促进人类与人工智能团队研究并参与多个科学学科合作的平台,特别强调人类的参与。它包括用于认知研究和人类人工智能团队的预构建任务,并且具有我们模块化设计的可扩展潜力。继传统的认知神经科学研究之后,CREW 还支持多模式人类生理信号记录以进行行为分析。此外,CREW 使用最先进的算法和精心调整的基线对实时人类引导的强化学习代理进行基准测试。借助 CREW,我们能够在一周内进行 50 项人体研究,以验证我们基准的有效性。

Finch:提示引导的键值缓存压缩

分类: 人工智能

作者: Giulio Corallo, Paolo Papotti

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00167v1

摘要: 最近的大型语言模型应用程序,例如检索增强生成和聊天机器人,导致处理更长输入上下文的需求增加。然而,这一要求受到固有限制的阻碍。从架构上来说,模型受到训练期间定义的上下文窗口的约束。此外,处理大量文本需要大量 GPU 内存。我们提出了一种新颖的方法 Finch,通过利用预训练的自注意力模型权重来压缩输入上下文。给定提示和长文本,Finch 迭代地在以提示为条件的文本块上识别最相关的键 (K) 和值 (V) 对。只有这样的对才会存储在 KV 缓存中,在上下文窗口约束的空间内,KV 缓存最终包含长文本的压缩版本。我们的建议使模型即使在高压缩(高达 93 倍)的情况下也能消耗大量输入,同时保持语义完整性,而无需进行微调。

可解释的基于图的推荐系统回顾

分类: 信息检索, 人工智能, 机器学习

作者: Thanet Markchom, Huizhi Liang, James Ferryman

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00166v1

摘要: 推荐系统的可解释性对于确保用户的信任和满意度至关重要。已经提出了各种类型的可解释推荐系统,包括可解释的基于图的推荐系统。本文讨论了这些系统的最先进方法,并根据三个方面对它们进行了分类:学习方法、解释方法和解释类型。它还探讨了该研究领域的常用数据集、可解释性评估方法和未来方向。与现有的评论论文相比,本文侧重于基于图的可解释性,并涵盖了开发新颖的可解释的基于图的推荐系统所需的主题。

非卷积图神经网络

分类: 机器学习, 人工智能

作者: Yuanqing Wang, Kyunghyun Cho

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00165v1

摘要: 重新思考基于卷积的图神经网络(GNN)——它们的特点是表达能力有限、过度平滑和过度挤压,并且需要专门的稀疏内核来进行高效计算。在这里,我们设计了一个完全没有卷积运算符的简单图学习模块,创造了 \textit{具有统一内存的随机游走} (RUM) 神经网络,其中 RNN 沿着终止于每个节点的随机游走合并拓扑和语义图特征。结合有关 RNN 行为和图拓扑的丰富文献,我们从理论上证明并通过实验验证了 RUM 减弱了上述症状,并且比 Weisfeiler-Lehman (WL) 同构测试更具表现力。在各种节点级和图级分类和回归任务上,RUM 不仅实现了有竞争力的性能,而且比最简单的卷积 GNN 更稳健、内存效率高、可扩展且速度更快。

大型语言模型中刻板印象内容的分类

分类: 计算机与社会, 人工智能, 计算和语言, 机器学习

作者: Gandalf Nicolas, Aylin Caliskan

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00162v1

摘要: 本研究介绍了当代大语言模型(LLM)中刻板印象内容的分类。我们推荐 ChatGPT 3.5、Llama 3 和 Mixtral 8x7B,这三个强大且广泛使用的大语言模型,用于与 87 个社会类别(例如性别、种族、职业)相关的特征。我们确定了 14 个刻板印象维度(例如道德、能力、健康、信仰、情感),约占 LLM 刻板印象关联的 90%。温暖和能力方面是最常见的内容,但所有其他维度都非常普遍。大语言模型(相对于人类)的刻板印象更为积极,但不同类别和维度之间存在显着差异。最后,分类法预测了大语言模型对社会类别的内部评估(例如,这些类别的表现如何积极/消极),支持多维分类法与表征大语言模型刻板印象的相关性。我们的研究结果表明,高维度的人类刻板印象反映在大语言模型中,必须在人工智能审计和消除偏见中予以考虑,以最大限度地减少大语言模型中依赖低维偏见观点带来的未识别的危害。

使用聚类和提示自动生成自然语言处理的行为测试用例

分类: 计算和语言, 人工智能, 新兴技术, 机器学习

作者: Ying Li, Rahul Singh, Tarun Joshi, Agus Sudjianto

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00161v1

摘要: 自然语言处理 (NLP) 模型的行为测试(例如 Checklist)的最新工作受到软件工程测试中相关范例的启发。它们允许评估一般语言能力和领域理解,因此可以帮助评估概念的合理性并识别模型的弱点。然而,一个主要挑战是测试用例的创建。当前的软件包依赖于使用手动开发的半自动化方法,这需要领域专业知识并且可能非常耗时。本文介绍了一种利用大型语言模型和统计技术的力量来开发测试用例的自动化方法。它将文本表示聚类以仔细构建有意义的组,然后应用提示技术自动生成最小功能测试 (MFT)。著名的亚马逊评论语料库用于演示我们的方法。我们分析了四种不同分类算法的行为测试概况,并讨论了这些模型的局限性和优点。

使用社交机器人调节群体对话动态

分类: 机器人技术, 人工智能

作者: Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00151v1

摘要: 这项研究调查了社交机器人参与群组对话的影响,并评估了各种寻址策略的有效性。该研究涉及 300 名参与者,分成四组,与充当主持人的人形机器人进行互动。机器人利用对话数据来确定最合适的讲话者。研究结果表明,机器人的寻址策略显着影响对话动态,从而使每个参与者的注意力更加平衡,并减少小组形成。

StyleRF-VolVis:用于表达体积可视化的神经辐射场的风格转移

分类: 图形, 人工智能, 计算机视觉和模式识别

作者: Kaiyuan Tang, Chaoli Wang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00150v1

摘要: 在体积可视化中,可视化合成因其能够在不遵循传统渲染管道的情况下生成新颖的可视化效果而备受关注。然而,基于生成对抗网络的现有解决方案通常需要许多训练图像并且需要大量的训练时间。尽管如此,低质量、一致性和灵活性等问题仍然存在。本文介绍了 StyleRF-VolVis,这是一种通过神经辐射场 (NeRF) 实现表达体积可视化 (VolVis) 的创新风格转换框架。 StyleRF-VolVis 的表现力得益于其能够准确分离底层场景几何(即内容)和颜色外观(即样式),方便地修改原始渲染的颜色、不透明度和照明,同时保持视觉内容一致性的能力。视图,并有效地将任意样式从参考图像转移到重建的 3D 场景。为了实现这些,我们设计了一个用于场景几何提取的基本 NeRF 模型,一个调色板颜色网络来对辐射场区域进行分类以进行照片级真实感编辑,以及一个无限制的颜色网络来通过知识蒸馏来解除调色板约束以进行非照片级真实感编辑。我们通过试验各种体积渲染场景和参考图像,并将 StyleRF-VolVis 与其他基于图像 (AdaIN)、基于视频 (ReReVST) 和基于 NeRF ( ARF 和 SNeRF) 风格的渲染解决方案。

强化学习代理中的正式道德义务:验证和政策更新

分类: 人工智能, 计算机科学中的逻辑

作者: Colin Shea-Blymyer, Houssam Abbas

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00147v1

摘要: 当设计在不确定环境中运行的代理时,设计人员需要工具来自动推理代理应该做什么、这与实际发生的事情有何冲突,以及如何修改策略以消除冲突。这些义务包括道德和社会义务、许可和禁止,它们限制了代理人如何实现其使命和执行其政策。我们提出了一种新的道义逻辑,即预期行为功利主义道义逻辑,用于在设计时实现这种推理:指定和验证代理的战略义务,然后从参考策略修改其策略以满足这些义务。与在奖励层面发挥作用的方法不同,在逻辑层面发挥作用会增加权衡的透明度。我们引入两种算法:一种用于模型检查 RL 代理是否具有正确的战略义务,另一种用于修改参考决策策略以使其满足我们逻辑中表达的义务。我们在准确抽象神经决策策略的 DAC-MDP 和玩具网格世界环境上说明了我们的算法。

客户端之间非独立同分布下的分布式情境学习

分类: 计算和语言, 人工智能, I.2.7

作者: Siqi Liang, Sumyeong Ahn, Jiayu Zhou

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00144v1

摘要: 大型语言模型(LLM)的进步已经证明了它们在多种复杂的自然语言推理任务中的有效性。一个关键的挑战仍然是如何使这些模型有效地适应新的或不熟悉的任务。上下文学习(ICL)通过从训练数据集中检索一组与查询相关的数据点(称为上下文示例(ICE))并在推理过程中将它们作为上下文提供,为小样本适应提供了一种有前途的解决方案。大多数现有研究都利用集中式训练数据集,但许多现实世界的数据集可能分布在多个客户端之间,并且远程数据检索可能与成本相关。特别是当客户端数据是不相同的独立分布(非 IID)时,从客户端检索测试查询所需的一组适当的 ICE 会带来严峻的挑战。在本文中,我们首先表明,在这种具有挑战性的环境中,由于非独立同分布性,测试查询在客户端之间会有不同的偏好,并且相同的贡献通常会导致性能不佳。然后,我们引入了一种新颖的方法来解决存在数据使用预算时的分布式非 IID ICL 问题。原则是应根据该客户的每个查询的偏好来设计每个客户的适当贡献(预算)。我们的方法使用数据驱动的方式为每个客户分配预算,并根据每个测试查询量身定制。通过对不同数据集的广泛实证研究,我们的框架表现出相对于竞争基线的优越性能。

通过负注意力分数对齐来纠正大型语言模型中的负偏差

分类: 计算和语言, 人工智能

作者: Sangwon Yu, Jongyoon Song, Bongkyu Hwang, Hoyoung Kang, Sooah Cho, Junhwa Choi, Seongho Joe, Taehee Lee, Youngjune L. Gwon, Sungroh Yoon

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00137v1

摘要: 二元决策任务(例如是非问题或答案验证)反映了重要的现实场景,例如用户寻求确认其对特定问题的决策的正确性。在这项工作中,我们观察到语言模型在复杂推理任务的二元决策中表现出负偏差。根据我们的观察和基于注意力的模型动态的基本原理,我们提出了负注意力评分(NAS)来系统地、定量地制定负偏差。基于 NAS,我们识别出关注指令中提供的负面标记的注意力头作为二元决策的候选答案,无论提示中的问题如何,并验证它们与负面偏见的关联。此外,我们提出了负注意力分数对齐(NASA)方法,这是一种参数有效的微调技术,用于解决提取的负偏差注意力头问题。来自推理任务和大型模型搜索空间的各个领域的实验结果表明,NASA 显着减少了由负偏差引起的精确度和召回率之间的差距,同时保留了泛化能力。我们的代码可在 \url{https://github.com/ysw1021/NASA} 获取。

分布鲁棒优化作为表征极值分布的可扩展框架

分类: 机器学习, 人工智能, 机器学习, 风险管理

作者: Patrick Kuiper, Ali Hasan, Wenhao Yang, Yuting Ng, Hoda Bidkhori, Jose Blanchet, Vahid Tarokh

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00131v1

摘要: 本文的目标是开发分布鲁棒优化(DRO)估计器,特别是多维极值理论(EVT)统计。 EVT 支持使用从空间泊松点过程构建的称为最大稳定分布的半参数模型。虽然功能强大,但这些模型仅对大样本渐近有效。然而,由于极端数据根据定义是稀缺的,因此这些应用程序固有地存在模型错误指定错误的可能性,因此 DRO 估计器是自然的。为了减轻过度保守的估计,同时增强样本外性能,我们研究了由点过程空间中的半参数最大稳定约束通知的 DRO 估计器。我们研究一些感兴趣的问题(例如 CVaR)的易于处理的凸公式和更通用的基于神经网络的估计器。这两种方法都使用综合生成的数据进行验证,恢复规定的特征,并验证所提出技术的有效性。此外,所提出的方法还应用于财务回报的真实数据集,以便与之前的分析进行比较。我们将所提出的模型建立为多变量 EVT 领域的新颖公式,与相关替代方案相比,在性能方面具有创新性。

动态推荐模型的语义码本学习

分类: 信息检索, 人工智能, 多媒体, 社交和信息网络

作者: Zheqi Lv, Shaoxuan He, Tianyu Zhan, Shengyu Zhang, Wenqiao Zhang, Jingyuan Chen, Zhou Zhao, Fei Wu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00123v1

摘要: 动态顺序推荐(DSR)可以根据用户行为生成模型参数,以提高各种用户偏好下顺序推荐的个性化程度。然而,它面临着大参数搜索空间和稀疏且嘈杂的用户-项目交互的挑战,这降低了生成的模型参数的适用性。动态推荐模型语义码本学习 (SOLID) 框架通过有效应对这些挑战,在 DSR 方面取得了重大进展。通过将项目序列转换为语义序列并采用双参数模型,SOLID 压缩参数生成搜索空间并利用推荐系统内的同质性。语义元码和语义码本的引入存储了解开的项目表示,确保了稳健且准确的参数生成。大量实验表明,SOLID 始终优于现有 DSR,提供更准确、稳定和稳健的建议。

Gemma 2:以实用的规模改进开放语言模型

分类: 计算和语言, 人工智能

作者: Gemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00118v1

摘要: 在这项工作中,我们介绍了 Gemma 2,它是 Gemma 系列轻量级、最先进的开放模型的新成员,参数规模从 20 亿到 270 亿不等。在这个新版本中,我们对 Transformer 架构应用了一些已知的技术修改,例如交错局部全局注意力(Beltagy 等人,2020a)和组查询注意力(Ainslie 等人,2023)。我们还通过知识蒸馏(Hinton et al., 2015)而不是下一个令牌预测来训练 2B 和 9B 模型。由此产生的模型提供了与其尺寸相匹配的最佳性能,甚至为 2-3 倍大的模型提供了有竞争力的替代品。我们向社区发布了所有模型。

归纳法还是演绎法?重新思考大语言模型的基本推理能力

分类: 人工智能

作者: Kewei Cheng, Jingfeng Yang, Haoming Jiang, Zhengyang Wang, Binxuan Huang, Ruirui Li, Shiyang Li, Zheng Li, Yifan Gao, Xian Li, Bing Yin, Yizhou Sun

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00114v1

摘要: 推理包括两种典型类型:演绎推理和归纳推理。尽管对大型语言模型(LLM)的推理能力进行了广泛的研究,但大多数研究未能严格区分归纳推理和演绎推理,导致两者的混合。这就提出了一个基本问题:在LLM推理中,哪一个提出了更大的挑战——演绎推理还是归纳推理?虽然大语言模型的演绎推理能力(即他们在推理任务中遵循指令的能力)受到了相当多的关注,但他们真正的归纳推理能力在很大程度上仍未得到探索。为了深入研究大语言模型真正的归纳推理能力,我们提出了一个新颖的框架:SolverLearner。该框架使大语言模型能够学习底层函数(即 $y = f_w(x)$),该函数仅使用上下文示例将输入数据点 $(x)$ 映射到其相应的输出值 $(y)$。通过专注于归纳推理并将其与基于大语言模型的演绎推理分开,我们可以通过 SolverLearner 分离并研究纯粹形式的大语言模型的归纳推理。我们的观察表明,大语言模型通过 SolverLearner 表现出了卓越的归纳推理能力,在大多数情况下 ACC 为 1,实现了近乎完美的表现。令人惊讶的是,尽管大语言模型具有很强的归纳推理能力,但他们往往相对缺乏演绎推理能力,特别是在涉及“反事实”推理的任务中。

使用棋盘游戏模型衡量语言模型可解释性的字典学习进展

分类: 机器学习, 人工智能, 计算和语言

作者: Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00113v1

摘要: 语言模型 (LM) 表示中编码了哪些潜在特征?最近关于训练稀疏自动编码器 (SAE) 以解开 LM 表示中的可解释特征的工作已经显示出巨大的前景。然而,评估这些 SAE 的质量很困难,因为我们缺乏可解释特征的真实集合,我们期望良好的 SAE 能够恢复这些特征。因此,我们建议通过在国际象棋和黑白棋成绩单上训练的 LM 环境中进行工作来衡量可解释字典学习的进展。这些设置带有可解释特征的自然集合——例如,“F3 上有一个骑士”——我们将其纳入 SAE 质量的 $\textit{supervised}$ 指标中。为了指导可解释字典学习的进展,我们引入了一种新的 SAE 训练技术 $\textit{p-annealing}$,它提高了先前无监督指标以及新指标的性能。

基于偏好的基于案例推理的抽象论证(带附录)

分类: 人工智能

作者: Adam Gould, Guilherme Paulino-Passos, Seema Dadhania, Matthew Williams, Francesca Toni

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00108v1

摘要: 为了提高可解释的数据驱动分类模型的有效性和灵活性,这项工作引入了用户定义的偏好与抽象论证和基于案例的推理 (CBR) 的新颖结合。具体来说,我们为基于案例的推理引入了基于偏好的抽象论证(我们称之为 AA-CBR-P),允许用户定义多种方法来比较案例,并按顺序指定他们对这些比较方法的偏好。我们证明该模型在进行预测时本质上遵循这些偏好,并表明先前基于案例的推理方法的抽象论证不足以表达对论证成分的偏好。然后,我们演示如何将其应用于现实世界的医疗数据集,该数据集来自评估原发性脑肿瘤患者的不同评估方法的临床试验。我们凭经验表明,我们的方法在此数据集上优于其他可解释的机器学习模型。

WAS:艺术文本分割数据集和方法

分类: 计算机视觉和模式识别, 人工智能

作者: Xudong Xie, Yuzhe Li, Yang Liu, Zhifei Zhang, Zhaowen Wang, Wei Xiong, Xiang Bai

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00106v1

摘要: 准确的文本分割结果对于文本相关的生成任务至关重要,例如文本图像生成、文本编辑、文本删除和文本样式转换。最近,一些场景文本分割方法在分割常规文本方面取得了重大进展。然而,这些方法在包含艺术文本的场景中表现不佳。因此,本文重点关注更具挑战性的艺术文本分割任务,并构建真实的艺术文本分割数据集。该任务的挑战之一是艺术文本的局部笔画形状是多变的,具有多样性和复杂性。我们提出了一种具有分层动量查询的解码器,以防止模型忽略特殊形状的笔画区域。另一个挑战是全局拓扑结构的复杂性。我们进一步设计了一个骨骼辅助头部来引导模型关注全局结构。此外,为了增强文本分割模型的泛化性能,我们提出了一种基于大型多模态模型和扩散模型的训练数据合成策略。实验结果表明,我们提出的方法和合成数据集可以显着提高艺术文本分割的性能,并在其他公共数据集上取得最先进的结果。

ReLiK:检索和链接,在学术预算上快速准确的实体链接和关系提取

分类: 计算和语言, 人工智能

作者: Riccardo Orlando, Pere-Lluis Huguet-Cabot, Edoardo Barba, Roberto Navigli

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00103v1

摘要: 实体链接 (EL) 和关系提取 (RE) 是自然语言处理中的基本任务,是各种应用程序中的关键组件。在本文中,我们提出了 ReLiK,一种适用于 EL 和 RE 的检索器-阅读器架构,其中,给定输入文本,检索器模块负责识别可能出现在文本中的候选实体或关系。随后,阅读器模块的任务是识别相关的检索实体或关系,并建立它们与相应文本范围的对齐。值得注意的是,我们提出了一种创新的输入表示,它将候选实体或关系与文本结合起来,使得可以在单个前向传递中链接实体或提取关系,并充分利用预先训练的语言模型上下文化功能,与之前的方法相比基于 Retriever-Reader 的方法,需要对每个候选者进行前向传递。我们的 EL 和 RE 配方在使用学术预算培训的同时,在域内和域外基准测试中均实现了最先进的性能,并且与竞争对手相比,推理速度高达 40 倍。最后,我们展示了我们的架构如何无缝地用于信息提取(cIE),即 EL + RE,并通过采用同时提取实体和关系的共享读取器来设置新的技术水平。

从属性到自然语言:基于文本的人物重识别的调查与展望

分类: 计算机视觉和模式识别, 人工智能

作者: Fanzhi Jiang, Su Yang, Mark W. Jones, Liumei Zhang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00096v1

摘要: 基于文本的行人重新识别(Re-ID)是复杂多模态分析领域的一个具有挑战性的课题,其最终目标是通过仔细检查属性/自然语言描述来识别特定的行人。尽管应用领域广泛,例如安全监控、视频检索、行人跟踪和社交媒体分析,但明显缺乏专门从技术角度总结基于文本的行人重识别的全面评论。为了解决这一差距,我们建议引入一个涵盖评估、策略、架构和优化维度的分类法,对基于文本的行人重新识别任务进行全面调查。我们首先为基于文本的行人重新识别奠定基础,阐明与基于属性/自然语言的识别相关的基本概念。然后对现有基准数据集和指标进行彻底检查。随后,我们进一步深入研究基于文本的行人重新识别研究中采用的流行特征提取策略,然后对该领域内的常见网络架构进行简明总结。还仔细审查了基于文本的行人重新识别中用于模型优化和模态对齐的流行损失函数。最后,我们对我们的研究结果进行了简明总结,指出了基于文本的行人重新识别中的挑战。为了应对这些挑战,我们概述了未来基于开放集文本的行人重新识别的潜在途径,并提出了基于文本的行人图像生成引导重新识别(TBPGR)的基线架构。

机器人应用中行为树的执行语义

分类: 机器人技术, 人工智能, 68T30, I.2.4

作者: Enrico Ghiorzi, Armando Tacchella

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2408.00090v1

摘要: 本文档旨在以适当精确且明确但非正式的方式描述机器人应用程序中使用的行为树的执行语义,特别关注停止语义。

视觉语言模型时代的广义分布外检测及其他:一项调查

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Atsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21794v1

摘要: 检测分布外 (OOD) 样本对于确保机器学习系统的安全至关重要,并塑造了 OOD 检测领域。同时,其他几个问题与OOD检测密切相关,包括异常检测(AD)、新颖性检测(ND)、开放集识别(OSR)和异常值检测(OD)。为了统一这些问题,提出了一个通用的 OOD 检测框架,对这五个问题进行了分类。然而,诸如 CLIP 之类的视觉语言模型 (VLM) 显着改变了范式,模糊了这些领域之间的界限,再次让研究人员感到困惑。在本次调查中,我们首先提出了广义的 OOD 检测 v2,封装了 AD、ND、OSR、OOD 检测和 VLM 时代 OD 的演变。我们的框架表明,由于某些领域不活跃和集成,严峻的挑战已成为 OOD 检测和 AD。此外,我们还强调了定义、问题设置和基准方面的重大转变;因此,我们对 OOD 检测的方法进行了全面回顾,包括对其他相关任务的讨论,以阐明它们与 OOD 检测的关系。最后,我们探讨了新兴的大视觉语言模型 (LVLM) 时代的进步,例如 GPT-4V。我们以开放的挑战和未来的方向来结束本次调查。

安全清洗:人工智能安全基准能否真正衡量安全进展?

分类: 机器学习, 人工智能, 计算和语言, 计算机与社会

作者: Richard Ren, Steven Basart, Adam Khoja, Alice Gatti, Long Phan, Xuwang Yin, Mantas Mazeika, Alexander Pan, Gabriel Mukobi, Ryan H. Kim, Stephen Fitz, Dan Hendrycks

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21792v1

摘要: 随着人工智能系统变得越来越强大,人们对“人工智能安全”研究以解决新出现的和未来的风险越来越感兴趣。然而,人工智能安全领域的定义仍然不明确,衡量标准也不一致,导致研究人员对如何做出贡献感到困惑。人工智能安全基准与上游通用能力(例如常识和推理)之间的关系不明确,加剧了这种清晰度的缺乏。为了解决这些问题,我们对人工智能安全基准进行了全面的元分析,实证分析了它们与数十个模型的一般能力的相关性,并对人工智能安全的现有方向进行了调查。我们的研究结果表明,许多安全基准与上游模型能力高度相关,可能会导致“安全清洗”——其中能力改进被误认为是安全进步。基于这些发现,我们提出了开发更有意义的安全指标的实证基础,并将机器学习研究背景下的人工智能安全定义为一组明确描述的研究目标,这些目标在经验上与通用能力的进步是分开的。在此过程中,我们的目标是为人工智能安全研究提供更严格的框架,推进安全评估科学并明确实现可衡量进展的道路。

基于视觉语言模型的笔迹验证

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Mihir Chauhan, Abhishek Satbhai, Mohammad Abuzar Hashemi, Mir Basheer Ali, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21788v1

摘要: 手写验证对于文档取证至关重要。基于深度学习的方法经常面临取证文件审查员的怀疑,因为它们缺乏可解释性并且依赖于广泛的训练数据和手工制作的特征。本文探讨了使用视觉语言模型 (VLM)(例如 OpenAI 的 GPT-4o 和 Google 的 PaliGemma)来应对这些挑战。通过利用他们的视觉问答功能和零次思维链 (CoT) 推理,我们的目标是为模型决策提供清晰、人类可理解的解释。我们在 CEDAR 手写数据集上的实验表明,VLM 提供了增强的可解释性,减少了对大型训练数据集的需求,并更好地适应不同的手写风格。然而,结果表明,基于 CNN 的 ResNet-18 架构优于使用 GPT-4o(准确率:70%)和监督微调 PaliGemma(准确率:71%)的 0-shot CoT 提示工程方法,实现了 84 的准确率CEDAR AND 数据集的%。这些发现凸显了 VLM 在生成人类可解释决策方面的潜力,同时强调需要进一步改进以匹配专业深度学习模型的性能。

大语言猴子:通过重复采样扩展推理计算

分类: 机器学习, 人工智能

作者: Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher Ré, Azalia Mirhoseini

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21787v1

摘要: 扩展用于训练语言模型的计算量极大地提高了它们的能力。然而,当涉及到推理时,我们通常将计算量限制为每个问题仅尝试一次。在这里,我们通过增加生成的样本数量来探索推理计算作为缩放的另一个轴。在多个任务和模型中,我们观察到覆盖率(任何尝试解决的问题的比例)随着样本数量的增加而增加了四个数量级。在编码和形式证明等领域,所有答案都可以自动验证,覆盖范围的增加直接转化为性能的提高。当我们将重复采样应用于 SWE-bench Lite 时,使用 DeepSeek-V2-Coder-Instruct 解决的问题比例从一个样本的 15.9% 增加到 250 个样本的 56%,优于单次尝试的最先进水平43% 使用功能更强大的前沿模型。此外,使用当前的 API 定价,用 5 个样本放大更便宜的 DeepSeek 模型比为 GPT-4o 或 Claude 3.5 Sonnet 的一个样本支付额外费用更具成本效益,并且可以解决更多问题。有趣的是,覆盖率和样本数量之间的关系通常是对数线性的,并且可以用指数幂律建模,这表明推理时间缩放定律的存在。最后,我们发现在没有自动验证器的领域中识别多代中的正确样本仍然是未来研究的重要方向。当解决 GSM8K 和 MATH 的数学应用题时,Llama-3 模型的覆盖率在 10,000 个样本下增长到 95% 以上。然而,从样本集合中选择正确解决方案的常用方法(例如多数投票或奖励模型)在超过数百个样本时就会趋于稳定,并且无法完全适应样本预算。

Llama 3 模型群

分类: 人工智能, 计算和语言, 计算机视觉和模式识别

作者: Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Amy Yang, Angela Fan, Anirudh Goyal, Anthony Hartshorn, Aobo Yang, Archi Mitra, Archie Sravankumar, Artem Korenev, Arthur Hinsvark, Arun Rao, Aston Zhang, Aurelien Rodriguez, Austen Gregerson, Ava Spataru, Baptiste Roziere, Bethany Biron, Binh Tang, Bobbie Chern, Charlotte Caucheteux, Chaya Nayak, Chloe Bi, Chris Marra, Chris McConnell, Christian Keller, Christophe Touret, Chunyang Wu, Corinne Wong, Cristian Canton Ferrer, Cyrus Nikolaidis, Damien Allonsius, Daniel Song, Danielle Pintz, Danny Livshits, David Esiobu, Dhruv Choudhary, Dhruv Mahajan, Diego Garcia-Olano, Diego Perino, Dieuwke Hupkes, Egor Lakomkin, Ehab AlBadawy, Elina Lobanova, Emily Dinan, Eric Michael Smith, Filip Radenovic, Frank Zhang, Gabriel Synnaeve, Gabrielle Lee, Georgia Lewis Anderson, Graeme Nail, Gregoire Mialon, Guan Pang, Guillem Cucurell, Hailey Nguyen, Hannah Korevaar, Hu Xu, Hugo Touvron, Iliyan Zarov, Imanol Arrieta Ibarra, Isabel Kloumann, Ishan Misra, Ivan Evtimov, Jade Copet, Jaewon Lee, Jan Geffert, Jana Vranes, Jason Park, Jay Mahadeokar, Jeet Shah, Jelmer van der Linde, Jennifer Billock, Jenny Hong, Jenya Lee, Jeremy Fu, Jianfeng Chi, Jianyu Huang, Jiawen Liu, Jie Wang, Jiecao Yu, Joanna Bitton, Joe Spisak, Jongsoo Park, Joseph Rocca, Joshua Johnstun, Joshua Saxe, Junteng Jia, Kalyan Vasuden Alwala, Kartikeya Upasani, Kate Plawiak, Ke Li, Kenneth Heafield, Kevin Stone, Khalid El-Arini, Krithika Iyer, Kshitiz Malik, Kuenley Chiu, Kunal Bhalla, Lauren Rantala-Yeary, Laurens van der Maaten, Lawrence Chen, Liang Tan, Liz Jenkins, Louis Martin, Lovish Madaan, Lubo Malo, Lukas Blecher, Lukas Landzaat, Luke de Oliveira, Madeline Muzzi, Mahesh Pasupuleti, Mannat Singh, Manohar Paluri, Marcin Kardas, Mathew Oldham, Mathieu Rita, Maya Pavlova, Melanie Kambadur, Mike Lewis, Min Si, Mitesh Kumar Singh, Mona Hassan, Naman Goyal, Narjes Torabi, Nikolay Bashlykov, Nikolay Bogoychev, Niladri Chatterji, Olivier Duchenne, Onur Çelebi, Patrick Alrassy, Pengchuan Zhang, Pengwei Li, Petar Vasic, Peter Weng, Prajjwal Bhargava, Pratik Dubal, Praveen Krishnan, Punit Singh Koura, Puxin Xu, Qing He, Qingxiao Dong, Ragavan Srinivasan, Raj Ganapathy, Ramon Calderer, Ricardo Silveira Cabral, Robert Stojnic, Roberta Raileanu, Rohit Girdhar, Rohit Patel, Romain Sauvestre, Ronnie Polidoro, Roshan Sumbaly, Ross Taylor, Ruan Silva, Rui Hou, Rui Wang, Saghar Hosseini, Sahana Chennabasappa, Sanjay Singh, Sean Bell, Seohyun Sonia Kim, Sergey Edunov, Shaoliang Nie, Sharan Narang, Sharath Raparthy, Sheng Shen, Shengye Wan, Shruti Bhosale, Shun Zhang, Simon Vandenhende, Soumya Batra, Spencer Whitman, Sten Sootla, Stephane Collot, Suchin Gururangan, Sydney Borodinsky, Tamar Herman, Tara Fowler, Tarek Sheasha, Thomas Georgiou, Thomas Scialom, Tobias Speckbacher, Todor Mihaylov, Tong Xiao, Ujjwal Karn, Vedanuj Goswami, Vibhor Gupta, Vignesh Ramanathan, Viktor Kerkez, Vincent Gonguet, Virginie Do, Vish Vogeti, Vladan Petrovic, Weiwei Chu, Wenhan Xiong, Wenyin Fu, Whitney Meers, Xavier Martinet, Xiaodong Wang, Xiaoqing Ellen Tan, Xinfeng Xie, Xuchao Jia, Xuewei Wang, Yaelle Goldschlag, Yashesh Gaur, Yasmine Babaei, Yi Wen, Yiwen Song, Yuchen Zhang, Yue Li, Yuning Mao, Zacharie Delpierre Coudert, Zheng Yan, Zhengxing Chen, Zoe Papakipos, Aaditya Singh, Aaron Grattafiori, Abha Jain, Adam Kelsey, Adam Shajnfeld, Adithya Gangidi, Adolfo Victoria, Ahuva Goldstand, Ajay Menon, Ajay Sharma, Alex Boesenberg, Alex Vaughan, Alexei Baevski, Allie Feinstein, Amanda Kallet, Amit Sangani, Anam Yunus, Andrei Lupu, Andres Alvarado, Andrew Caples, Andrew Gu, Andrew Ho, Andrew Poulton, Andrew Ryan, Ankit Ramchandani, Annie Franco, Aparajita Saraf, Arkabandhu Chowdhury, Ashley Gabriel, Ashwin Bharambe, Assaf Eisenman, Azadeh Yazdan, Beau James, Ben Maurer, Benjamin Leonhardi, Bernie Huang, Beth Loyd, Beto De Paola, Bhargavi Paranjape, Bing Liu, Bo Wu, Boyu Ni, Braden Hancock, Bram Wasti, Brandon Spence, Brani Stojkovic, Brian Gamido, Britt Montalvo, Carl Parker, Carly Burton, Catalina Mejia, Changhan Wang, Changkyu Kim, Chao Zhou, Chester Hu, Ching-Hsiang Chu, Chris Cai, Chris Tindal, Christoph Feichtenhofer, Damon Civin, Dana Beaty, Daniel Kreymer, Daniel Li, Danny Wyatt, David Adkins, David Xu, Davide Testuggine, Delia David, Devi Parikh, Diana Liskovich, Didem Foss, Dingkang Wang, Duc Le, Dustin Holland, Edward Dowling, Eissa Jamil, Elaine Montgomery, Eleonora Presani, Emily Hahn, Emily Wood, Erik Brinkman, Esteban Arcaute, Evan Dunbar, Evan Smothers, Fei Sun, Felix Kreuk, Feng Tian, Firat Ozgenel, Francesco Caggioni, Francisco Guzmán, Frank Kanayet, Frank Seide, Gabriela Medina Florez, Gabriella Schwarz, Gada Badeer, Georgia Swee, Gil Halpern, Govind Thattai, Grant Herman, Grigory Sizov, Guangyi, Zhang, Guna Lakshminarayanan, Hamid Shojanazeri, Han Zou, Hannah Wang, Hanwen Zha, Haroun Habeeb, Harrison Rudolph, Helen Suk, Henry Aspegren, Hunter Goldman, Igor Molybog, Igor Tufanov, Irina-Elena Veliche, Itai Gat, Jake Weissman, James Geboski, James Kohli, Japhet Asher, Jean-Baptiste Gaya, Jeff Marcus, Jeff Tang, Jennifer Chan, Jenny Zhen, Jeremy Reizenstein, Jeremy Teboul, Jessica Zhong, Jian Jin, Jingyi Yang, Joe Cummings, Jon Carvill, Jon Shepard, Jonathan McPhie, Jonathan Torres, Josh Ginsburg, Junjie Wang, Kai Wu, Kam Hou U, Karan Saxena, Karthik Prasad, Kartikay Khandelwal, Katayoun Zand, Kathy Matosich, Kaushik Veeraraghavan, Kelly Michelena, Keqian Li, Kun Huang, Kunal Chawla, Kushal Lakhotia, Kyle Huang, Lailin Chen, Lakshya Garg, Lavender A, Leandro Silva, Lee Bell, Lei Zhang, Liangpeng Guo, Licheng Yu, Liron Moshkovich, Luca Wehrstedt, Madian Khabsa, Manav Avalani, Manish Bhatt, Maria Tsimpoukelli, Martynas Mankus, Matan Hasson, Matthew Lennie, Matthias Reso, Maxim Groshev, Maxim Naumov, Maya Lathi, Meghan Keneally, Michael L. Seltzer, Michal Valko, Michelle Restrepo, Mihir Patel, Mik Vyatskov, Mikayel Samvelyan, Mike Clark, Mike Macey, Mike Wang, Miquel Jubert Hermoso, Mo Metanat, Mohammad Rastegari, Munish Bansal, Nandhini Santhanam, Natascha Parks, Natasha White, Navyata Bawa, Nayan Singhal, Nick Egebo, Nicolas Usunier, Nikolay Pavlovich Laptev, Ning Dong, Ning Zhang, Norman Cheng, Oleg Chernoguz, Olivia Hart, Omkar Salpekar, Ozlem Kalinli, Parkin Kent, Parth Parekh, Paul Saab, Pavan Balaji, Pedro Rittner, Philip Bontrager, Pierre Roux, Piotr Dollar, Polina Zvyagina, Prashant Ratanchandani, Pritish Yuvraj, Qian Liang, Rachad Alao, Rachel Rodriguez, Rafi Ayub, Raghotham Murthy, Raghu Nayani, Rahul Mitra, Raymond Li, Rebekkah Hogan, Robin Battey, Rocky Wang, Rohan Maheswari, Russ Howes, Ruty Rinott, Sai Jayesh Bondu, Samyak Datta, Sara Chugh, Sara Hunt, Sargun Dhillon, Sasha Sidorov, Satadru Pan, Saurabh Verma, Seiji Yamamoto, Sharadh Ramaswamy, Shaun Lindsay, Shaun Lindsay, Sheng Feng, Shenghao Lin, Shengxin Cindy Zha, Shiva Shankar, Shuqiang Zhang, Shuqiang Zhang, Sinong Wang, Sneha Agarwal, Soji Sajuyigbe, Soumith Chintala, Stephanie Max, Stephen Chen, Steve Kehoe, Steve Satterfield, Sudarshan Govindaprasad, Sumit Gupta, Sungmin Cho, Sunny Virk, Suraj Subramanian, Sy Choudhury, Sydney Goldman, Tal Remez, Tamar Glaser, Tamara Best, Thilo Kohler, Thomas Robinson, Tianhe Li, Tianjun Zhang, Tim Matthews, Timothy Chou, Tzook Shaked, Varun Vontimitta, Victoria Ajayi, Victoria Montanez, Vijai Mohan, Vinay Satish Kumar, Vishal Mangla, Vlad Ionescu, Vlad Poenaru, Vlad Tiberiu Mihailescu, Vladimir Ivanov, Wei Li, Wenchen Wang, Wenwen Jiang, Wes Bouaziz, Will Constable, Xiaocheng Tang, Xiaofang Wang, Xiaojian Wu, Xiaolan Wang, Xide Xia, Xilun Wu, Xinbo Gao, Yanjun Chen, Ye Hu, Ye Jia, Ye Qi, Yenda Li, Yilin Zhang, Ying Zhang, Yossi Adi, Youngjin Nam, Yu, Wang, Yuchen Hao, Yundi Qian, Yuzi He, Zach Rait, Zachary DeVito, Zef Rosnbrick, Zhaoduo Wen, Zhenyu Yang, Zhiwei Zhao

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21783v1

摘要: 现代人工智能 (AI) 系统由基础模型提供支持。本文提出了一组新的基础模型,称为 Llama 3。它是一组原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个密集的 Transformer,具有 405B 个参数和最多 128K 个令牌的上下文窗口。本文对 Llama 3 进行了广泛的实证评估。我们发现 Llama 3 在大量任务上的质量与 GPT-4 等领先语言模型相当。我们公开发布了 Llama 3,包括 405B 参数语言模型的预训练和后训练版本以及用于输入和输出安全的 Llama Guard 3 模型。本文还介绍了我们通过组合方法将图像、视频和语音功能集成到 Llama 3 中的实验结果。我们观察到这种方法在图像、视频和语音识别任务上的表现与最先进的方法具有竞争力。由此产生的模型尚未广泛发布,因为它们仍在开发中。

Tulip Agent——使基于 LLM 的代理能够使用大型工具库解决任务

分类: 人工智能, 机器人技术, H.3.3; I.2.6; I.2.8; I.2.9

作者: Felix Ocker, Daniel Tanneberg, Julian Eggert, Michael Gienger

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21778v1

摘要: 我们引入了郁金香代理,这是一种基于 LLM 的自主代理架构,具有对包含大量工具的工具库的创建、读取、更新和删除访问权限。与最先进的实现相比,郁金香代理不会对系统提示中所有可用工具的描述进行编码(这会根据模型的上下文窗口进行计算),也不会嵌入整个提示以检索合适的工具。相反,郁金香代理可以在其可扩展工具库中递归地搜索合适的工具,示例性地实现为向量存储。郁金香代理架构显着降低了推理成本,允许使用大型工具库,并使代理能够适应和扩展其工具集。我们在数学背景下通过多项消融研究来评估该架构,并证明其在机器人技术应用中的普遍性。参考实现和基准可在 github.com/HRI-EU/tulip_agent 上找到。

MoMa:结合模态感知专家的高效早期融合预训练

分类: 人工智能, 机器学习

作者: Xi Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Gosh, Luke Zettlemoyer, Armen Aghajanyan

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21770v1

摘要: 我们介绍了 MoMa,一种新颖的模态感知专家混合 (MoE) 架构,专为预训练混合模态、早期融合语言模型而设计。 MoMa 通过将专家模块划分为特定模式组来处理任意序列的图像和文本。这些组专门处理指定的令牌,同时在每个组内使用学习的路由来保持语义上的自适应性。我们的实证结果表明,通过这种特定于模态的参数分配,可以显着提高预训练效率。在 1 万亿代币的训练预算下,由 4 名文本专家和 4 名图像专家组成的 MoMa 1.4B 模型实现了令人印象深刻的 FLOP 节省:与计算模型相比,总体节省了 3.7 倍,其中文本处理节省了 2.6 倍,图像处理节省了 5.2 倍。等效密集基线,通过预训练损失来测量。这优于具有 8 名混合模式专家的标准专家选择 MoE,整体 FLOPs 节省了 3 倍(文本为 3 倍,图像为 2.8 倍)。将 MoMa 与深度混合 (MoD) 相结合可将预训练 FLOP 节省总体提高到 4.2 倍(文本:3.4 倍,图像:5.3 倍),尽管这种组合由于对路由器精度的敏感性增加而损害了因果推理的性能。这些结果表明,MoMa 有潜力显着提高混合模式、早期融合语言模型预训练的效率,为资源效率更高、能力更强的多模式人工智能系统铺平道路。

HGOE:混合外部和内部图形异常值暴露,用于图形分布外检测

分类: 机器学习, 人工智能

作者: Junwei He, Qianqian Xu, Yangbangyan Jiang, Zitai Wang, Yuchen Sun, Qingming Huang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21742v1

摘要: 随着深度图学习的不断进步,图数据的分布外(OOD)检测已成为一项关键挑战。虽然辅助数据集在增强 OOD 检测方面的功效已针对图像和文本数据进行了广泛研究,但尚未针对图形数据探索此类方法。与欧几里德数据不同,图数据表现出更大的多样性,但对扰动的鲁棒性较低,使得异常值的整合变得复杂。为了应对这些挑战,我们建议引入 \textbf{H}ybrid 外部和内部 \textbf{G}raph \textbf{O}utlier \textbf{E}xposure (HGOE) 来提高图 OOD 检测性能。我们的框架涉及使用来自各个领域的真实外部图数据并合成 ID 子组内的内部异常值,以解决 ID 类中 OOD 样本的鲁棒性差和存在问题。此外,我们开发了一种边界感知 OE 损失,可以自适应地为异常值分配权重,最大限度地利用高质量 OOD 样本,同时最大限度地减少低质量样本的影响。我们提出的 HGOE 框架与模型无关,旨在增强现有图 OOD 检测模型的有效性。实验结果表明,我们的 HGOE 框架可以显着提高现有 OOD 检测模型在所有 8 个真实数据集上的性能。

因素对比分析

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Zhibin Duan, Tiansheng Wen, Yifei Wang, Chen Zhu, Bo Chen, Mingyuan Zhou

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21740v2

摘要: 因子分析通常被视为矩阵分解的贝叶斯变体,在捕获不确定性、建模复杂依赖性和确保鲁棒性方面提供了卓越的功能。随着深度学习时代的到来,因子分析由于其表达能力有限而越来越不受关注。相反,对比学习已成为一种有效的技术,在无监督表征学习中已被证明有效。虽然这两种方法是不同的范式,但最近的理论分析揭示了对比学习和矩阵分解之间的数学等价性,为因子分析与对比学习相结合提供了潜在的可能性。在对比学习、矩阵分解和因子分析的相互关联性的推动下,本文引入了一种新颖的对比因子分析框架,旨在利用因子分析在对比学习领域的优势特性。为了进一步利用非负因子分析的可解释性特性(可以学习解缠结的表示),对比因子分析被扩展到非负版本。最后,广泛的实验验证展示了所提出的对比(非负)因子分析方法在多个关键属性上的有效性,包括表达性、鲁棒性、可解释性和准确的不确定性估计。

用于 3D 分割中 SAM 参数高效微调的联合学习友好方法

分类: 计算机视觉和模式识别, 人工智能, 机器学习, 图像和视频处理

作者: Mothilal Asokan, Joseph Geo Benjamin, Mohammad Yaqub, Karthik Nandakumar

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21739v1

摘要: 由于用于预训练的自然(源)数据和医学(目标)数据之间存在极端的分布变化,因此适应医学图像分析的基础模型需要对大量数据进行微调。然而,在中心位置收集特定于任务的医疗数据以进行此类微调会引起许多隐私问题。尽管联邦学习(FL)提供了一种有效的方法来训练私有分散数据,但联合大型基础模型的通信成本可能很快成为一个重大瓶颈,影响解决方案的可扩展性。在这项工作中,我们通过将参数高效微调(PEFT)与 FL 的优势相结合,解决了高效通信的问题,同时确保了 FL 的有效学习。具体来说,我们以联合方式研究即插即用低阶适配器 (LoRA),以适应分段任意模型 (SAM) 进行 3D 医学图像分割。与之前利用 LoRA 并对整个解码器进行微调的工作不同,我们批判性地分析了 SAM 的每个粒度组件对微调性能的贡献。因此,我们确定了要联合的特定层,这些层在通信成本方面非常有效,同时产生了同等的准确性。我们的实验表明,在适应过程中将 SAM 模型(包括大多数解码器)的参数保留在其原始状态是有益的,因为对小数据集的微调往往会扭曲底层基础模型的固有功能。在 Fed-KiTS 上,与完全微调相比,我们的方法降低了通信成本(约 48 倍),同时提高了 3D 分割任务的性能(约 6% Dice 分数)。我们的方法的性能与 SAMed 类似,同时减少了约 2.8 倍的通信和需要微调的参数。我们通过 Fed-IXI 和前列腺 MRI 数据集的实验进一步验证了我们的方法。

利用超声扫描视频进行胎儿心脏平面分类的自我监督学习

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

作者: Joseph Geo Benjamin, Mothilal Asokan, Amna Alhosani, Hussain Alasmawi, Werner Gerhard Diehl, Leanne Bricker, Karthik Nandakumar, Mohammad Yaqub

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21738v1

摘要: 自监督学习(SSL)方法很受欢迎,因为它们可以通过直接利用底层数据分布来解决注释数据有限的情况。然而,在超声(US)成像中,尤其是胎儿评估中,这种方法的采用还没有得到足够的探索。我们研究了双编码器 SSL 在利用未标记的 US 视频数据来提高使用有限标记的 2D US 图像挑战下游标准胎儿心平面 (SFCP) 分类的性能方面的潜力。我们研究了基于重建、对比损失、蒸馏和信息论的 7 种 SSL 方法,并在美国大型私人数据集上对它们进行了广泛的评估。我们的观察和发现是从不同设置下的 500 多个下游训练实验中得到的。我们的主要观察结果表明,对于 SSL 训练,数据集的方差比其大小更重要,因为它允许模型学习通用表示,从而提高下游任务的性能。总体而言,当用作下游任务的初始化时,BarlowTwins 方法显示出稳健的性能,无论训练设置和数据变化如何。值得注意的是,使用 1% 的标记数据进行全面微调,在 F1 分数中比 ImageNet 初始化高 12%,在 F1 分数中比其他 SSL 初始化高至少 4%,因此使其成为从美国视频到迁移学习的有前途的候选者。图像数据。

ParLS-PBO:用于伪布尔优化的并行局部搜索求解器

分类: 人工智能

作者: Zhihan Chen, Peng Lin, Hao Hu, Shaowei Cai

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21729v1

摘要: 作为众多优化问题中广泛应用的技术,局部搜索最近被用来解决伪布尔优化(PBO)问题。 PBO 的代表性局部搜索求解器是 LSPBO。在本文中,首先,我们通过动态评分机制改进了LSPBO,该机制动态地在硬约束评分和目标函数评分之间取得平衡。此外,在改进的 LSPBO 之上,我们开发了第一个并行局部搜索 PBO 求解器。主要思想是通过维护可行解决方案池,在不同线程之间共享好的解决方案来指导搜索。为了在更新池时评估解决方案,我们提出了一个既考虑解决方案质量又考虑池多样性的函数。此外,我们计算池中的极性密度以增强局部搜索的评分功能。我们的实证实验显示了所提出的并行方法的明显优势,使其与著名商业求解器 Gurobi 的并行版本具有竞争力。

提高能源效率的人工智能方法:综述

分类: 人工智能

作者: Alberto Pasqualetto, Lorenzo Serafini, Michele Sprocatti

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21726v1

摘要: 联合国制定了可持续发展目标,本文重点关注第 7 个目标(负担得起的清洁能源)、第 9 个目标(工业、创新和基础设施)和第 13 个目标(气候行动)。气候变化是我们社会关注的一个主要问题;因此,当前的全球目标是减少能源浪费。这项工作总结了使用人工智能实现能源效率的所有主要方法,特别关注创建智能建筑的多代理系统。它提到了人工智能(尤其是物联网)与大数据之间的紧密关系。它解释了人工智能在智能建筑异常检测中的应用以及智能能源管理系统的可能分类:直接和间接。最后,提出了人工智能方法的一些缺点和一些未来可能的研究重点。

开放词汇视听语义分割

分类: 多媒体, 人工智能

作者: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21721v1

摘要: 视听语义分割(AVSS)旨在利用声音线索对视频中的发声对象进行分割和分类。然而,大多数方法都基于闭集假设,仅从训练数据中识别预定义的类别,缺乏在实际应用中检测新类别的泛化能力。在本文中,我们引入了一个新任务:开放词汇视听语义分割,将 AVSS 任务扩展到带注释的标签空间之外的开放世界场景。这是一项更具挑战性的任务,需要识别所有类别,甚至是那些在训练期间从未见过或听到过的类别。此外,我们提出了第一个开放词汇AVSS框架OV-AVSS,它主要由两部分组成:1)通用声源定位模块,用于执行视听融合并定位所有潜在的发声对象;2)开放词汇分类模块借助大规模预训练视觉语言模型的先验知识来预测类别。为了正确评估开放词汇 AVSS,我们根据 AVSBench-语义基准(即 AVSBench-OV)分割零样本训练和测试子集。大量的实验证明了我们的模型在所有类别上的强大分割和零样本泛化能力。在 AVSBench-OV 数据集上,OV-AVSS 在基本类别上实现了 55.43% mIoU,在新类别上实现了 29.14% mIoU,超过了最先进的零样本方法 41.88%/20.61%,超过了开放词汇方法10.2%/11.6%。代码可在 https://github.com/ruohaoguo/ovavss 获取。

评估人工智能政策状况

分类: 人工智能, 计算机与社会

作者: Joanna F. DeFranco, Luke Biersmith

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21717v1

摘要: 人工智能(AI)应用部署加速。人工智能技术以多种方式面向公众,包括基础设施、消费产品和家庭应用。由于许多这些技术都存在身体伤害或偏见形式的风险,可能会产生不公平的结果,因此政策制定者必须考虑监督的必要性。然而,大多数政策制定者缺乏判断新兴人工智能技术是否安全、有效、是否需要监督的技术知识,因此政策制定者必须依赖专家的意见。但是,除了专家意见之外,如果政策制定者对现有指导方针和法规有一些总体了解,他们会得到更好的服务。这项工作概述了国际、美国州、市和联邦层面的人工智能立法和指令。它还审查相关的业务标准和技术协会倡议。然后进行重叠和差距分析,得出参考指南,其中包括对未来政策制定的建议和指导。

UMMAN:基于肠道菌群的无监督多图合并对抗网络用于疾病预测

分类: 人工智能, 定量方法

作者: Dingkun Liu, Hongjie Zhou, Yilu Qu, Huimei Zhang, Yongdong Xu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21714v1

摘要: 肠道菌群丰富与人类疾病密切相关,但疾病并不是由单一肠道微生物引起的。相反,它们是众多微生物实体复杂相互作用的结果。肠道微生物之间这种复杂而隐含的联系对利用 OTU 数据的丰富信息进行疾病预测提出了重大挑战。最近,几种方法显示出预测相应疾病的潜力。然而,这些方法无法了解不同宿主肠道微生物之间的内在关联,导致性能不理想。在本文中,我们提出了一种新颖的架构:无监督多图合并对抗网络(UMMAN)。 UMMAN可以在无监督的场景下获取Multi-Graph中节点的嵌入,从而有助于学习多重关联。我们的方法是第一个将图神经网络与肠道菌群疾病预测任务相结合的方法。我们使用复杂的关系类型来构造原始图并破坏节点之间的关系以生成相应的洗牌图。我们引入节点特征全局集成(NFGI)模块来表示图的全局特征。此外,我们设计了一个由对抗性损失和混合注意力损失组成的联合损失,以确保真实图嵌入与原始图紧密对齐并与洗牌图不同。对五个经典 OTU 肠道微生物组数据集的综合实验证明了我们方法的有效性和稳定性。 (我们将很快发布我们的代码。)

通过与其他主体互动进行社交学习:一项调查

分类: 机器学习, 人工智能, I.2.7; I.2.0

作者: Dylan hillier, Cheston Tan, Jing Jiang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21713v1

摘要: 社会学习在人类智力的发展中发挥着重要作用。当我们还是孩子的时候,我们会模仿父母的说话方式,直到我们能够发出声音;我们向他们学习,他们赞扬我们,批评我们;作为成年人,我们通过与他人合作来学习。在这项工作中,我们调查了这种范式(社会学习)在机器学习中的反映程度。特别是,由于社交学习需要与他人互动,因此我们对实体主体如何能够并且已经利用这些技术感兴趣。尤其是考虑到自然语言处理(NLP)的最新进展使我们能够进行新形式的社会学习。我们研究行为克隆和下一个令牌预测如何反映人类的模仿,从人类反馈中学习如何反映人类教育,以及我们如何进一步实现相互学习的完全沟通代理。我们发现,虽然个体社会学习技术已被成功使用,但很少有统一的工作来展示如何将它们组合成社会化的主体。

CEAR:从科学文献中自动构建化学实体和角色的知识图

分类: 人工智能

作者: Stefan Langer, Fabian Neuhaus, Andreas Nürnberger

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21708v1

摘要: 本体是特定领域知识的正式表示,为组织和理解复杂信息提供了结构化框架。然而,创建本体是一项复杂且耗时的工作。 ChEBI 是化学领域著名的本体论,它为定义化学实体及其属性提供了全面的资源。然而,它只涵盖了快速增长的化学知识的一小部分,并且没有提供科学文献的参考。为了解决这个问题,我们提出了一种方法,该方法涉及利用来自 Chebi 的知识扩充现有的带注释文本语料库,并微调大型语言模型 (LLM) 以识别化学实体及其在科学文本中的作用。我们的实验证明了我们方法的有效性。通过结合本体论知识和大语言模型的语言理解能力,我们在识别科学文献中的化学实体和角色方面实现了高精度和召回率。此外,我们从一组 8,000 篇 ChemRxiv 文章中提取它们,并应用第二个大语言模型来创建化学实体和角色 (CEAR) 的知识图 (KG),这为 ChEBI 提供了补充信息,并有助于扩展它。

TransferTOD:具有迁移能力的通用中文多领域任务导向对话系统

分类: 人工智能

作者: Ming Zhang, Caishuang Huang, Yilong Wu, Shichun Liu, Huiyuan Zheng, Yurui Dong, Yujiong Shen, Shihan Dou, Jun Zhao, Junjie Ye, Qi Zhang, Tao Gui, Xuanjing Huang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21693v1

摘要: 面向任务的对话(TOD)系统旨在有效地处理面向任务的对话,包括信息收集。如何准确、高效、有效地利用ToD进行信息采集一直是一项关键而富有挑战性的任务。最近的研究表明,大型语言模型(LLM)在对话、指令生成和推理方面表现出色,并且可以通过微调显着提高 TOD 的性能。然而,当前的数据集主要迎合用户主导的系统,并且仅限于预定义的特定场景和槽位,因此需要改进TOD的主动性、多样性和能力。在本研究中,我们提出了详细的面向多领域任务的对话数据构建过程,以及基于该过程生成的中文对话数据集\textbf{TransferTOD},它真实地模拟了30种流行生活服务场景中的人机对话。利用该数据集,我们使用全参数微调训练了 \textbf{TransferTOD-7B} 模型,展示了槽填充和提问方面的显着能力。我们的工作在各种下游场景中展示了其强大的泛化能力,显着提高了数据利用效率和系统性能。数据发布于https://github.com/KongLongGeFDU/TransferTOD。

基于 Transformer 的增量对象检测的动态对象查询

分类: 计算机视觉和模式识别, 人工智能

作者: Jichuan Zhang, Wei Li, Shuang Cheng, Ya-Li Li, Shengjin Wang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21687v1

摘要: 增量对象检测(IOD)旨在顺序学习新类,同时保持定位和识别旧类的能力。由于训练数据仅带有新类的注释,因此 IOD 会遭受灾难性的遗忘。现有方法主要通过知识蒸馏和样本重放来解决遗忘问题,忽略了有限模型容量和增加知识之间的冲突。在本文中,我们探索了基于 Transformer 架构构建的增量对象检测的 \textit{动态对象查询}。我们提出了 \textbf{Dy}namic object \textbf{Q}uery-based \textbf{DE}tection \textbf{TR}ansformer (DyQ-DETR),它逐步扩展模型表示能力以实现稳定性-可塑性权衡。首先,一组新的可学习对象查询被输入到解码器中以表示新的类。这些新的对象查询与之前阶段的对象查询相聚合,以很好地适应新旧知识。其次,我们基于解开的自注意力,提出了不同阶段的对象查询的孤立二部匹配。消除了不同阶段对象查询之间的交互,以减少类间混乱。由于对对象查询的单独监督和计算,我们进一步提出了有效示例重放的风险平衡部分校准。大量实验表明,DyQ-DETR 显着超越了最先进的方法,且参数开销有限。代码将公开。

综合简单性:揭示医疗数据增强中的偏差

分类: 计算机视觉和模式识别, 人工智能

作者: Krishan Agyakari Raja Babu, Rachana Sathish, Mrunal Pattanaik, Rahul Venkataramani

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21674v1

摘要: 合成数据在医学成像等数据稀缺领域变得越来越不可或缺,作为真实数据的替代品。然而,其固有的统计特性可能会显着影响下游任务,可能会影响部署性能。在本研究中,我们根据经验研究了这个问题并发现了一个关键现象:当数据源和任务标签之间存在很强的相关性时,下游神经网络经常利用真实数据和合成数据之间的虚假区别。这种利用表现为 \textit{简单性偏差},其中模型过度依赖于表面特征而不是真正的与任务相关的复杂性。通过原则性实验,我们证明数据源(真实数据与合成数据)可能会引入虚假的相关因素,导致在不存在相关性的情况下部署期间性能不佳。我们首先在数字分类任务中演示此漏洞,其中模型虚假地利用数据源而不是数字来提供推理。我们在与超声心动图心脏视图分类相关的医学成像问题中提供了这种现象的进一步证据,特别是区分 2 腔和 4 腔视图。鉴于利用合成数据集的作用越来越大,我们希望我们的实验能够成为在模型训练中利用合成数据集的有效指南。

通用逼近理论:神经网络并行性的基础

分类: 机器学习, 人工智能

作者: Wei Wang, Qing Li

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21670v1

摘要: 神经网络正日益向利用大数据训练大型模型的方向发展,这种方法在许多任务中都表现出了卓越的性能。然而,这种方法引入了一个紧迫的问题:当前的深度学习模型主要是串行的,这意味着随着网络层数的增加,训练和推理时间也会增加。如果深度学习要继续发展,这是不可接受的。因此,本文提出一种基于通用逼近定理(UAT)的深度学习并行化策略。在此基础上,我们设计了一个名为 Para-Former 的并行网络来测试我们的理论。与传统串行模型不同,Para-Former 的推理时间不会随着层数的增加而增加,显着加快了多层网络的推理速度。实验结果验证了该网络的有效性。

具有迁移学习与基于支持向量机的高效干旱胁迫识别相结合的可解释视觉变换器

分类: 计算机视觉和模式识别, 人工智能, 新兴技术, 机器学习

作者: Aswini Kumar Patra, Ankit Varshney, Lingaraj Sahoo

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21666v1

摘要: 及早发现干旱胁迫对于在干旱影响变得不可逆转之前及时采取措施减少作物损失至关重要。通过非侵入性成像技术捕获响应干旱胁迫的微妙表型和生理变化,这些成像数据为机器学习方法识别干旱胁迫提供了宝贵的资源。虽然卷积神经网络(CNN)得到广泛使用,但视觉变换器(ViT)在捕获长距离依赖性和复杂的空间关系方面提供了一种有前途的替代方案,从而增强了对干旱胁迫的微妙指标的检测。我们提出了一种可解释的深度学习管道,利用 ViT 的力量,使用航空图像检测马铃薯作物的干旱胁迫。我们应用了两种不同的方法:ViT 和支持向量机 (SVM) 的协同组合,其中 ViT 从航空图像中提取复杂的空间特征,SVM 将作物分类为有压力或健康的作物,以及使用专用分类的端到端方法ViT 内的层可直接检测干旱胁迫。我们的主要发现通过可视化注意力图来解释 ViT 模型的决策过程。这些地图突出显示了 ViT 模型将其作为干旱胁迫特征的航拍图像中的特定空间特征。我们的研究结果表明,所提出的方法不仅在干旱胁迫识别方面实现了高精度,而且还揭示了与干旱胁迫相关的多种微妙植物特征。这为干旱胁迫监测提供了一个强大且可解释的解决方案,使农民能够做出明智的决策以改善作物管理。

用于农业目标检测的空间变换网络 YOLO 模型

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Yash Zambre, Ekdev Rajkitkul, Akshatha Mohan, Joshua Peeples

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21652v1

摘要: 物体检测通过自主识别和定位感兴趣的物体,在计算机视觉领域发挥着至关重要的作用。 You Only Look Once (YOLO) 模型是一种有效的单次检测器。然而,YOLO 在杂乱或部分遮挡的场景中面临挑战,并且可能会难以处理小型、低对比度的物体。我们提出了一种将空间变换网络(STN)集成到 YOLO 中以提高性能的新方法。所提出的 STN-YOLO 旨在通过关注图像的重要区域并在检测过程之前提高模型的空间不变性来增强模型的有效性。我们提出的方法在定性和定量上提高了目标检测性能。我们探讨了 STN 模块内不同定位网络的影响以及模型在不同空间变换中的鲁棒性。我们将 STN-YOLO 应用于农业目标检测的基准数据集以及来自最先进的植物表型分析温室设施的新数据集。我们的代码和数据集是公开的。

基于 LLM 的聊天机器人的人机交互分类器

分类: 人工智能

作者: Diego Martín, Jordi Sanchez, Xavier Vizcaíno

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21647v1

摘要: 本研究研究了在基于人工智能的环境中对人类交互进行分类的不同方法,特别是针对 Applus+ IDIADA 的智能代理 AIDA。主要目标是开发一个分类器,准确识别收到的交互类型(对话、服务或文档翻译),以将请求引导至适当的渠道并提供更专业、更高效的服务。比较了各种模型,包括基于 LLM 的分类器、使用 Titan 和 Cohere 嵌入的 KNN、SVM 和人工神经网络。结果表明,与基于 LLM 的方法相比,具有 Cohere 嵌入的 SVM 和 ANN 模型实现了最佳的整体性能,具有优异的 F1 分数和更快的执行时间。研究得出的结论是,具有 Cohere 嵌入的 SVM 模型是 AIDA 环境中对人类交互进行分类的最合适选择,可在准确性和计算效率之间提供最佳平衡。

李亚普诺夫权重在物理信息神经网络中传达时间的含义

分类: 机器学习, 人工智能, 数值分析, 数值分析

作者: Gabriel Turinici

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21642v1

摘要: 时间与其他维度不同。在物理信息神经网络(PINN)中,一些提案试图调整时间采样或时间加权,以考虑到这个特殊维度的具体情况。但这些建议并不具有原则性,需要指导才能使用。我们在这里从理论上解释了为什么李雅普诺夫指数给出了可行的见解,并提出了一种加权方案来自动适应混沌、周期性或稳定的动态。我们在理论上将计算约束下的最佳加权方案描述为局部李亚普诺夫指数估计量的累积指数积分,并表明它在上述制度下实际上表现良好。

通过辅助审核组件对放射学报告生成模型进行质量控制

分类: 人工智能, 计算机视觉和模式识别

作者: Hermione Warr, Yasin Ibrahim, Daniel R. McGowan, Konstantinos Kamnitsas

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21638v1

摘要: 医学图像判读的自动化可以缓解诊断工作流程中的瓶颈,并且近年来由于自然语言处理的进步而受到特别关注。通过人工智能自动生成放射学报告已经取得了长足的进步,但确保生成的报告的临床准确性是一个重大挑战,阻碍了此类方法在临床实践中的部署。在这项工作中,我们提出了一个质量控制框架,用于使用模块化辅助审核组件(AC)评估人工智能生成的放射学报告在诊断重要性语义方面的可靠性。通过在 MIMIC-CXR 数据集上评估我们的流程,我们的研究结果表明,以疾病分类器的形式合并 AC 可以进行审计,识别更可靠的报告,从而与未经过滤的生成报告相比获得更高的 F1 分数。此外,利用 AC 标签的可信度进一步提高了审核的有效性。

在人工智能和我之间:分析听众对人工智能和人类创作的前卫金属音乐的看法

分类: 声音, 人工智能, 人机交互, 音频和语音处理

作者: Pedro Sarmento, Jackson Loth, Mathieu Barthet

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21615v1

摘要: 生成式人工智能模型最近蓬勃发展,极大地影响了艺术和音乐传统。因此,研究人类如何与这些模型互动以及如何看待这些模型至关重要。通过聆听和反思研究,我们以摇滚音乐作为对照组,以象征性的形式探讨了参与者对人工智能与人类生成的前卫金属的看法。 AI 生成的示例由基于 Transformer 的模型 ProgGP 生成。我们提出了一种混合方法来评估生成类型(人类与人工智能)、流派(前卫金属与摇滚)和策展过程(随机与精选)的影响。这结合了对流派一致性、偏好、创造力、一致性、可玩性、人性和可重复性的定量反馈和定性反馈,以提供对听众体验的洞察。共有 32 名前卫金属迷完成了这项研究。我们的研究结果验证了使用微调来实现人工智能音乐生成中特定流派的专业化,因为听众可以区分人工智能生成的摇滚和前卫金属。尽管一些人工智能生成的摘录获得了与人类音乐相似的评级,但听众表现出对人类作品的偏好。主题分析确定了流派以及人工智能与人类区别的关键特征。最后,我们通过关注尚未充分探索的流派来考虑我们在 MIR 研究中促进音乐数据多样性的工作的伦理影响。

使用边界感知注意机制增强部分欺骗音频本地化

分类: 声音, 人工智能, 音频和语音处理

作者: Jiafeng Zhong, Bin Li, Jiangyan Yi

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21611v1

摘要: 部分欺骗音频定位的任务旨在准确确定帧级别的音频真实性。尽管一些工作取得了令人鼓舞的成果,但在单个模型中利用边界信息仍然是一个尚未探索的研究课题。在这项工作中,我们提出了一种称为边界感知注意机制(BAM)的新方法。具体来说,它由两个核心模块组成:边界增强和边界帧注意。前者组装帧内和帧间信息来提取有判别性的边界特征,随后用于边界位置检测和真实性判定,而后者利用边界预测结果来显式控制帧之间的特征交互,从而实现帧之间的有效区分真帧和假帧。 PartialSpoof 数据库上的实验结果表明我们提出的方法取得了最佳性能。该代码可从 https://github.com/media-sec-lab/BAM 获取。

使用深度生成先验进行稳健的同步多层 MRI 重建

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 信号处理, 医学物理

作者: Shoujin Huang, Guanxiong Luo, Yuwan Wang, Kexin Yang, Lingyan Zhang, Jingzhe Liu, Hua Guo, Min Wang, Mengye Lyu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21600v1

摘要: 同步多层 (SMS) 成像是一种加速磁共振成像 (MRI) 采集的强大技术。然而,由于激发切片之间和内部的复杂信号相互作用,SMS 重建仍然具有挑战性。本研究提出了一种使用深度生成先验的稳健 SMS MRI 重建方法。从高斯噪声开始,我们利用去噪扩散概率模型(DDPM)通过反向扩散迭代逐渐恢复各个切片,同时在读出串联框架下从测量的 k 空间中施加数据一致性。后采样过程的设计使得 DDPM 训练可以在单切片图像上执行,而无需针对 SMS 任务进行特殊调整。此外,我们的方法集成了低频增强(LFE)模块,以解决短信加速的快速自旋回波(FSE)和回波平面成像(EPI)序列无法轻松嵌入自动校准信号的实际问题。大量的实验表明,我们的方法始终优于现有方法,并且可以很好地推广到未见过的数据集。经过审核后,代码可在 https://github.com/Solor-pikachu/ROGER 上获取。

衡量重要因素:内在距离保持作为嵌入质量的稳健指标

分类: 机器学习, 人工智能

作者: Steven N. Hart, Thomas E. Tavolara

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21590v1

摘要: 无监督嵌入是许多机器学习应用的基础,但它们的评估仍然是一项具有挑战性的任务。传统的评估方法通常依赖于外部变量,例如下游任务的性能,这可能会引入混杂因素并掩盖嵌入的真实质量。本文介绍了固有距离保留评估(IDPE)方法,这是一种基于保留原始空间和嵌入空间中数据点之间的马哈拉诺比斯距离来评估嵌入质量的新方法。我们通过一个简单的例子证明了外部评估方法的局限性,强调了它们如何导致有关嵌入质量的误导性结论。 IDPE 通过提供一种与任务无关的方法来衡量嵌入如何很好地保留原始数据的内在结构,从而解决了这些问题。我们的方法利用有效的相似性搜索技术使其适用于大规模数据集。我们将 IDPE 与可信度和连续性等既定内在指标以及平均排名和平均倒数排名等外在指标进行比较。我们的结果表明,IDPE 可以对各种场景中的嵌入质量提供更全面、更可靠的评估。我们使用 IDPE 评估 PCA 和 t-SNE 嵌入,揭示传统指标无法捕获的性能洞察。这项工作通过提供一种稳健、高效且可解释的嵌入评估方法对该领域做出了贡献。 IDPE 对内在属性的关注为寻求开发和评估各种机器学习应用的高质量嵌入的研究人员和从业者提供了宝贵的工具。

颅内出血的体素场景图

分类: 计算机视觉和模式识别, 人工智能, 68T07, I.2.10

作者: Antoine P. Sanner, Nils F. Grauhan, Marc A. Brockmann, Ahmed E. Othman, Anirban Mukhopadhyay

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21580v1

摘要: 颅内出血(ICH)患者面临着潜在的危及生命的情况,由于可能出现临床并发症,以患者为中心的个体化治疗仍然具有挑战性。基于深度学习的方法可以有效地分析常规采集的头部 CT,以支持临床决策。大多数早期工作侧重于 ICH 的检测和分割,但没有对 ICH 与相邻大脑结构之间的复杂关系进行建模。在这项工作中,我们为 ICH 设计了一种量身定制的对象检测方法,将其与基于分割的场景图生成 (SGG) 方法结合起来,以学习临床大脑场景的整体表示。据我们所知,这是 SGG 在 3D 体素图像中的首次应用。我们在两个头部 CT 数据集上评估我们的方法,并证明我们的模型可以召回高达 74% 的临床相关关系。这项工作为 3D 体素数据的 SGG 奠定了基础。生成的场景图已经可以为临床医生提供见解,但作为紧凑且可解释的表示,对于所有下游任务也很有价值。

Leetcode 上 LLM 生成代码的性能研究

分类: 软件工程, 人工智能

作者: Tristan Coignion, Clément Quinton, Romain Rouvoy

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21579v1

摘要: 本研究评估大型语言模型 (LLM) 的代码生成效率,并使用 Leetcode 的数据集对照人工设计的解决方案衡量其性能。我们比较了 18 个大语言模型,考虑了模型温度和成功率等因素及其对代码性能的影响。这项研究引入了一种测量和比较 LLM 生成代码速度的新方法,表明无论采用哪种 LLM,LLM 都会生成具有可比较性能的代码。我们还发现,大语言模型能够生成平均比人类编写的代码更高效的代码。本文进一步讨论了 Leetcode 作为基准数据集的使用、潜在数据污染带来的限制以及该平台的测量可靠性。我们相信,我们的研究结果有助于更好地理解 LLM 在代码生成方面的能力,并为该领域的未来优化奠定基础。

多站点课堂-与超声心动图加权专家一起进行增量学习

分类: 计算机视觉和模式识别, 人工智能

作者: Kit M. Bransby, Woo-jin Cho Kim, Jorge Oliveira, Alex Thorley, Arian Beqiri, Alberto Gomez, Agisilaos Chartsias

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21577v1

摘要: 构建在现实案例中保持性能的超声心动图视图分类器需要多样化的多站点数据,并使用新的可用数据进行频繁更新以减轻模型漂移。简单地对新数据集进行微调会导致“灾难性遗忘”,并且无法适应站点之间视图标签的变化。或者,在单个服务器上收集所有数据并重新训练可能不可行,因为数据共享协议可能会限制图像传输,或者数据集可能仅在不同时间可用。此外,与重新训练相关的时间和成本随着每个新数据集的增加而增加。我们提出了一种类增量学习方法,该方法为每个数据集学习专家网络,并将所有专家网络与分数融合模型相结合。通过用学习到的分布内得分对每个贡献进行加权,可以最大限度地减少“不合格专家”的影响。这些权重提高了透明度,因为在推理过程中每个专家的贡献都是已知的。我们不使用原始图像,而是使用从每个数据集中学习到的特征,这些特征更容易共享,并减少许可和隐私问题。我们在来自多个站点的六个数据集上验证了我们的工作,证明训练时间显着减少,同时提高了视图分类性能。

PMoE:专家与非对称变压器的渐进混合,用于持续学习

分类: 计算和语言, 人工智能

作者: Min Jae Jung, JooHee Kim

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21571v1

摘要: 由于灾难性遗忘,大型语言模型 (LLM) 在持续学习中遇到重大挑战,其中新信息会覆盖以前获得的知识。这种限制导致大量的环境和经济浪费。在这项研究中,我们介绍了 PMoE,即渐进式专家与非对称变压器的混合,其目的是通过利用非对称设计来最大限度地减少遗忘,浅层专门用于一般知识,深层用于新知识。 PMoE 结合了逐渐增加的深层专家和路由器,可以有效地将新知识分配给适当的专家。路由器位于深层附近,利用深层特征来聚合综合信息。这使得路由器能够高效地执行,将新知识分配给适当的专家,并在深层中逐渐增加。对 TRACE 数据集和通用语言理解数据集的大量实验表明,所提出的 PMoE 优于以前最先进的方法。

TRGR:透射式 RIS 辅助穿墙步态识别

分类: 人工智能

作者: Yunlong Huang, Junshuo Liu, Jianan Zhang, Tiebin Mi, Xin Shi, Robert Caiming Qiu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21566v1

摘要: 利用射频 (RF) 信号进行步态识别可实现许多需要准确识别的潜在应用。然而,当前的系统要求个人处于视距 (LOS) 环境内,并且当信号穿过混凝土和厚墙时,会遇到低信噪比 (SNR) 的问题。为了应对这些挑战,我们提出了 TRGR,一种新型透射式可重构智能表面 (RIS) 辅助步态识别系统。 TRGR 可以仅使用一对收发器的信道状态信息 (CSI) 的幅度测量来识别穿墙的人员身份。具体来说,通过利用透射 RIS 和配置交替优化算法,TRGR 增强了墙壁穿透性和信号质量,从而实现准确的步态识别。此外,提出了残差卷积网络(RCNN)作为骨干网络来学习鲁棒的人类信息。实验结果证实了透射式 RIS 的功效,凸显了透射式 RIS 在增强基于射频的步态识别系统方面的巨大潜力。大量实验结果表明,当信号穿过混凝土墙时,TRGR 的人员识别平均准确率达到 97.88%,证明了 TRGR 的有效性和鲁棒性。

通过潜在类别分布和约束解码进行生成情感分析

分类: 计算和语言, 人工智能

作者: Jun Zhou, Dongyang Yu, Kamran Aziz, Fangfang Su, Qing Zhang, Fei Li, Donghong Ji

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21560v1

摘要: 细粒度情感分析涉及从文本数据中提取和组织情感元素。然而,现有的方法常常忽视类别语义包含和重叠的问题,以及目标序列内固有的结构模式。本研究引入了生成情感分析模型。为了解决与类别语义包含和重叠相关的挑战,引入了潜在类别分布变量。通过重构变分自动编码器的输入,该模型可以学习类别和文本之间的关系强度,从而改进序列生成。此外,利用特里数据结构和约束解码策略来开发结构模式,从而减少搜索空间并规范生成过程。 Restaurant-ACOS 和 Laptop-ACOS 数据集的实验结果表明,与基线模型相比,性能显着提高。消融实验进一步证实了潜在类别分布和约束解码策略的有效性。

选择程序基于运算符的语义:选择会失败吗? (完整版本)

分类: 人工智能, 计算机科学中的逻辑

作者: Jesse Heyninck

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21556v1

摘要: 选择结构是逻辑编程语言的重要组成部分,但对其语义的研究一直是一项具有挑战性的任务。到目前为止,仅研究了二值语义,并且尚未以原则性的方式比较此类语义的不同建议。在本文中,提出了一种基于运算符的框架,允许以原则性的方式定义和比较不同的语义。

具有空间结构图卷积的基于骨架的动作识别

分类: 计算机视觉和模式识别, 人工智能

作者: Jingyao Wang, Emmanuel Bergeret, Issam Falih

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21525v1

摘要: 人类活动识别(HAR)是一个专注于识别和分类人类活动的研究领域。基于骨骼的人体活动识别近年来备受关注,其中基于图卷积网络(GCN)的方法得到广泛应用并取得了显着的效果。然而,骨架数据的表示以及GCN中的过度平滑问题仍然需要研究。 1)。与中心节点相比,边缘节点只能聚合有限的邻居信息,并且人体的不同边缘节点总是在结构上相关。然而,来自边缘节点的信息对于细粒度活动识别至关重要。 2)。图卷积网络存在严重的过度平滑问题,导致节点随着网络层数的增加而变得越来越相似。基于这两个想法,我们提出了一种称为空间结构GCN(SpSt-GCN)的双流图卷积方法。空间GCN根据人体的拓扑结构进行信息聚合,结构GCN根据边缘节点序列的相似性进行区分。空间连接是固定的,无论人类执行什么动作,人体骨骼都会自然地保持这种拓扑结构。然而,结构连接是动态的,取决于人体正在进行的运动类型。基于这个想法,我们还提出了完全数据驱动的结构连接,这大大增加了灵活性。我们在两个大型数据集(NTU RGB+D 和 NTU RGB+D 120)上评估我们的方法。所提出的方法在高效的同时取得了良好的结果。

机器学习的表格数据增强:拥抱生成式人工智能的进展和前景

分类: 机器学习, 人工智能, 数据库

作者: Lingxi Cui, Huan Li, Ke Chen, Lidan Shou, Gang Chen

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21523v1

摘要: 表格数据上的机器学习(ML)无处不在,但获得丰富的高质量表格数据用于模型训练仍然是一个重大障碍。许多工作都集中在表格数据增强(TDA)上,以使用附加数据增强原始表,从而改进下游的机器学习任务。最近,人们对利用 TDA 生成式人工智能的功能越来越感兴趣。因此,我们认为是时候对 TDA 的进展和未来前景进行全面回顾,特别关注趋势生成人工智能。具体来说,我们提出了 TDA 管道的架构视图,包括三个主要过程:预增强、增强和后增强。预增强包括促进后续 TDA 的准备任务,包括错误处理、表注释、表简化、表表示、表索引、表导航、模式匹配和实体匹配。 Augmentation 系统地分析了当前的 TDA 方法,分为基于检索的方法(检索外部数据)和基于生成的方法(生成合成数据)。我们根据行、列、单元格和表级别的增强过程的粒度进一步细分这些方法。后增强侧重于 TDA 的数据集、评估和优化方面。我们还总结了 TDA 的当前趋势和未来方向,强调了生成式 AI 时代的广阔机遇。此外,随附的论文和相关资源在 GitHub 存储库(https://github.com/SuDIS-ZJU/awesome-tabular-data-augmentation)中不断更新和维护,以反映该领域的持续进展。

AI 头像外观和信息披露对用户动机的影响

分类: 人机交互, 人工智能, 计算机与社会

作者: Boele Visser, Peter van der Putten, Amirhossein Zohrehvand

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21521v1

摘要: 本研究探讨了感知的人工智能特征对虚拟交互中用户动机的影响。被披露为人工智能或体现特定性别的人工智能化身可以用于用户与人工智能的交互。利用人工智能和头像研究的见解,我们探索人工智能披露和性别如何影响用户动机。我们进行了一项基于游戏的实验,涉及超过 72,500 名参与者,他们单独或与人工智能同伴一起解决搜索问题。不同群体经历了不同的人工智能外观和披露。我们测量了游戏强度。结果显示,与单人游戏相比,另一个化身的存在导致游戏的强度降低。与未公开的人工智能同伴相比,公开化身作为人工智能提高了努力强度。此外,男性化的人工智能外观降低了工作强度。

扩展医学十项全能数据集:从计算机断层扫描图像中分割结肠癌和结直肠癌

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者: I. M. Chernenkiy, Y. A. Drach, S. R. Mustakimova, V. V. Kazantseva, N. A. Ushakov, S. K. Efetov, M. V. Feldsherov

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21516v1

摘要: 结直肠癌是西半球第三大常见癌症。通过计算机断层扫描对结直肠和结直肠癌进行分割是医学上的一个紧迫问题。事实上,能够解决这一问题的系统将能够在疾病的早期阶段检测结直肠癌,方便放射科医生寻找病理,并显着加快疾病的诊断过程。然而,有关医学图像处理的科学出版物大多使用封闭的非公开数据。本文提出了带有结直肠标记的医学十项全能数据集的扩展,以提高分割算法的质量。经验丰富的放射科医生验证了数据,按质量将其分类为子集,并将其发布在公共领域。基于获得的结果,我们通过 5 部分交叉验证训练了 UNet 架构的神经网络模型,并实现了 $0.6988 \pm 0.3$ 的 Dice 度量质量。发布的标记将提高结直肠癌检测的质量并简化放射科医生的研究描述工作。

FSSC:用于语义图像通信的 Transformer 神经网络联合学习

分类: 人工智能, 机器学习, 图像和视频处理

作者: Yuna Yan, Xin Zhang, Lixin Li, Wensheng Lin, Rui Li, Wenchi Cheng, Zhu Han

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21507v1

摘要: 在本文中,我们解决了多用户部署场景中的图像语义通信问题,并为基于 Swin Transformer 的语义通信系统(FSSC)提出了联邦学习(FL)策略。首先,我们证明采用 Swin Transformer 进行联合源信道编码(JSCC)可以有效地提取通信系统中的语义信息。接下来,引入 FL 框架,通过聚合本地模型参数来协作学习全局模型,而不是直接共享客户端数据。这种方法增强了用户隐私保护并减少了服务器或移动边缘的工作负载。仿真评估表明,我们的方法优于典型的 JSCC 算法和传统的基于分离的通信算法。特别是在集成局部语义之后,全局聚合模型进一步将峰值信噪比(PSNR)提高了2dB以上,彻底证明了我们算法的有效性。

MaskUno:用于增强实例分割的开关分割块

分类: 计算机视觉和模式识别, 人工智能

作者: Jawad Haidar, Marc Mouawad, Imad Elhajj, Daniel Asmar

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21498v1

摘要: 实例分割是图像分割的一种高级形式,超越传统分割,它需要识别场景中重复对象的单个实例。 Mask R-CNN 是最常见的实例分割架构,对该架构的改进包括受益于边界框细化、添加语义或主干增强等步骤。在迄今为止提出的所有变体中,当模型尝试同步学习多个类时,竞争内核的问题(每个类都旨在最大化其自身的准确性)仍然存在。在本文中,我们建议通过用 Switch-Split 块替换掩模预测来缓解这个问题,该块处理细化的 ROI,对它们进行分类,并将它们分配给专门的掩模预测器。我们将该方法命名为 MaskUno 并在文献中的各种模型上进行测试,然后使用基准 COCO 数据集在多个类上进行训练。在 80 个类别的训练中,高性能 DetectoRS 的平均精度 (mAP) 提高了 2.03%。 MaskUno 被证明可以增强实例分割模型的 mAP,无论数量和类型如何

可解释且可控的运动曲线引导心脏超声视频生成

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

作者: Junxuan Yu, Rusi Chen, Yongsong Zhou, Yanlin Chen, Yaofei Duan, Yuhao Huang, Han Zhou, Tan Tao, Xin Yang, Dong Ni

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21490v1

摘要: 超声心动图视频是诊断心脏病的主要方式,但有限的数据给临床教学和机器学习培训带来了挑战。最近,视频生成模型已成为缓解这一问题的一种有前途的策略。然而,以前的方法往往依赖于生成过程中的整体条件,阻碍了对特定心脏结构的灵活运动控制。在这种背景下,我们提出了一种可解释且可控的超声心动图视频生成方法,以初始帧和运动曲线为指导。我们的贡献有三方面。首先,我们从每个心脏子结构中提取运动信息以构建运动曲线,使扩散模型能够通过修改这些曲线来合成定制的超声心动图视频。其次,我们提出了结构到运动对齐模块,它可以将语义特征映射到跨心脏结构的运动曲线上。第三,位置感知注意机制旨在利用具有结构位置信息的高斯掩模来增强视频一致性。对三个超声心动图数据集的广泛实验表明,我们的方法在保真度和一致性方面优于其他方法。完整代码将在 https://github.com/mlmi-2024-72/ECM 发布。

Maverick:高效、准确的共指解析,挑战最新趋势

分类: 计算和语言, 人工智能

作者: Giuliano Martinelli, Edoardo Barba, Roberto Navigli

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21489v1

摘要: 大型自回归生成模型已成为在多个自然语言处理任务中实现最高性能的基石。然而,对获得卓越结果的渴望有时会导致在没有进行详尽实验的情况下过早更换精心设计的特定任务方法。共指解析任务也不例外;所有最新的最先进的解决方案都采用大型生成自回归模型,其性能优于基于编码器的判别系统。在这项工作中,我们通过引入 Maverick 来挑战这一最新趋势,这是一个精心设计但简单的管道,它能够在学术预算的限制内运行最先进的共指解析系统,其性能优于最多 13 个的模型十亿个参数,而参数少至 5 亿个。 Maverick 在 CoNLL-2012 基准测试中实现了最先进的性能,与之前最先进的系统相比,使用高达 0.006 倍的内存资源进行训练,并获得了 170 倍的推理速度。我们通过一系列不同的实验广泛验证了 Maverick 框架的稳健性,报告了在数据稀缺、长文档和域外设置中相对于现有系统的改进。我们在 https://github.com/SapienzaNLP/maverick-coref 发布了用于研究目的的代码和模型。

打破残差量化的沙漏现象:增强生成检索的上限

分类: 信息检索, 人工智能

作者: Zhirui Kuai, Zuxu Chen, Huimu Wang, Mingming Li, Dadong Miao, Binbin Wang, Xusong Chen, Li Kuang, Yuxing Han, Jiaxing Wang, Guoyu Tang, Lin Liu, Songlin Wang, Jingwei Zhuo

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21488v1

摘要: 生成检索(GR)已成为搜索和推荐系统中的变革范例,利用基于数字的标识符表示来提高效率和泛化能力。值得注意的是,像 TIGER 这样采用基于剩余量化的语义标识符 (RQ-SID) 的方法,通过有效管理商品 ID,在电子商务场景中显示出了巨大的前景。然而,RQ-SID 中出现了一个被称为“\textbf{Hourglass}”现象的关键问题,其中中间码本标记变得过于集中,阻碍了生成检索方法的充分利用。本文通过将数据稀疏和长尾分布确定为主要原因来分析和解决该问题。通过全面的实验和详细的消融研究,我们分析了这些因素对码本利用率和数据分布的影响。我们的研究结果表明,“沙漏”现象极大地影响了 RQ-SID 在生成检索中的性能。我们提出了有效的解决方案来缓解这个问题,从而显着提高现实世界电子商务应用中生成检索的有效性。

最佳优先广义规划的并行策略

分类: 人工智能, I.2.8; D.1.3

作者: Alejandro Fernández-Alburquerque, Javier Segovia-Aguas

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21485v1

摘要: 近年来,人们对缩小最先进的规划求解器和广义规划(GP)之间的性能差距重新产生了兴趣,广义规划(GP)是人工智能的一个研究领域,研究能够解决多个问题的类算法解决方案的自动合成。经典规划实例。当前的进步之一是引入了最佳优先广义规划 (BFGP),这是一种基于新颖解空间的 GP 算法,可以通过启发式搜索进行探索,这是现代规划器的基础之一。本文评估了并行搜索技术在 BFGP 中的应用,这是缩小性能差距的另一个关键组成部分。我们首先讨论为什么 BFGP 非常适合并行化以及它与经典规划器的一些区别特征。然后,我们提出了两种简单的共享内存并行策略,可以随着核心数量进行良好的扩展。

eSPARQL:在 RDF 星知识图中表示和调和不可知论和无神论信仰

分类: 人工智能, 数据库

作者: Xiny Pan, Daniel Hernández, Philipp Seifer, Ralf Lämmel, Steffen Staab

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21483v2

摘要: 在过去的几年里,我们看到了结合多个来源信息的大型知识图谱的出现。有时,此信息以有关其他断言的断言的形式提供,定义断言有效的上下文。最近对 RDF 的一个扩展(即“RDF-star”)承认多个语句,该扩展正在修订中,将成为 W3C 标准。然而,没有提出这些 RDF 星语句的语义,也没有对它们进行操作的内置工具。在本文中,我们提出了一种基于四值逻辑的认知 RDF 星元数据查询语言,称为 eSPARQL。我们提出的查询语言使用新型 FROM 子句扩展了 SPARQL-star(RDF-star 的查询语言),以方便使用多个有时甚至是冲突的信念进行操作。我们表明,所提出的查询语言可以表达四种用例查询,包括以下功能:(i)查询个人的信念,(ii)信念的聚合,(iii)查询谁与某人发生冲突,以及(iv) )关于信念的信念(即信念的嵌套)。

精细增益零样本视频采样

分类: 计算机视觉和模式识别, 人工智能

作者: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21475v1

摘要: 将时间维度纳入用于视频生成的预训练图像扩散模型中是一种流行的方法。然而,这种方法的计算要求很高,并且需要大规模的视频数据集。更重要的是,图像和视频数据集之间的异构性通常会导致图像专业知识的灾难性遗忘。最近从图像扩散模型中直接提取视频片段的尝试在一定程度上缓解了这些问题。然而,这些方法只能生成具有简单运动的简短视频片段,无法捕获细粒度运动或非网格变形。在本文中,我们提出了一种新颖的零样本视频采样算法,表示为$\mathcal{ZS}^2$,能够直接从现有图像合成方法(例如稳定扩散)中采样高质量视频片段,无需任何训练或优化。具体来说,$\mathcal{ZS}^2$利用依赖噪声模型和时间动量注意力来分别确保内容一致性和动画连贯性。这种能力使其能够在相关任务中表现出色,例如条件和上下文专门的视频生成以及指令引导的视频编辑。实验结果表明,$\mathcal{ZS}^2$ 在零镜头视频生成中实现了最先进的性能,有时优于最近的监督方法。主页:\url{https://densechen.github.io/zss/}。

进程树的可逆状态空间

分类: 数据结构和算法, 人工智能

作者: Gero Kolhof, Sebastiaan J. van Zelst

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21468v1

摘要: 与事件数据一样,流程模型在大多数流程挖掘方法中都是一等公民。已经提出并使用了几种流程建模形式,例如 Petri 网、BPMN 和流程树。尽管它们被频繁使用,但很少有研究涉及进程树的形式属性以及提高解决常见计算问题的效率的相应潜力。因此,在本文中,我们提出了过程树的可逆状态空间定义,并证明了相应的状态空间图与树的逆状态空间图同构。我们的结果支持为流程树应用程序开发新颖、省时的分解策略。我们的实验证实,我们的状态空间定义允许采用双向状态空间搜索,这显着提高了状态空间搜索的整体性能。

使用眼底图像序列和基线屈光数据基于深度学习的儿童近视进展纵向预测

分类: 计算机视觉和模式识别, 人工智能

作者: Mengtian Kang, Yansong Hu, Shuo Gao, Yuanyuan Liu, Hongbei Meng, Xuemeng Li, Xuhang Chen, Hubin Zhao, Jing Fu, Guohua Hu, Wei Wang, Yanning Dai, Arokia Nathan, Peter Smielewski, Ningli Wang, Shiming Li

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21467v1

摘要: 儿童近视是一个重大的全球健康问题。它的患病率不断上升,并有可能演变成严重的、不可逆转的状况,对家庭福祉产生不利影响并造成巨大的经济成本。当代研究强调了精确预测近视进展的重要性,以便及时有效地进行干预,从而避免儿童出现严重的视力障碍。此类预测主要依赖于主观临床评估,这些评估本质上是有偏见的且需要大量资源,从而阻碍了其广泛应用。在这项研究中,我们引入了一种新颖的高精度方法,仅使用眼底图像和基线屈光数据来定量预测儿童的近视轨迹和近视风险。该方法通过对河南省 3,408 名儿童进行的为期六年的纵向研究得到了验证,该研究利用了 16,211 张眼底图像和相应的屈光数据。我们基于深度学习的方法证明了预测准确性,每年的误差范围为 0.311D,AUC 分数分别为 0.944 和 0.995,用于预测发生近视和高度近视的风险。这些发现证实了我们的模型在支持早期干预策略和显着降低医疗成本方面的效用,特别是通过消除对额外元数据和重复咨询的需要。此外,我们的方法被设计为仅依赖眼底图像和屈光不正数据,无需元数据或多次询问医生,大大降低了相关的医疗成本并促进大规模筛查。我们的模型甚至可以仅基于一次时间测量来提供良好的预测。因此,所提出的方法是减少经济差距造成的医疗不平等的重要手段。

车载网络中高清地图更新的具有 QoS 增强的多智能体评估

分类: 人工智能, 机器学习

作者: Jeffrey Redondo, Nauman Aslam, Juan Zhang, Zhenhui Yuan

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21460v1

摘要: 强化学习(RL)算法已被用来解决车载自组织网络(VANET)卸载过程中的挑战性问题。最近,它们已被用来改善高清 (HD) 地图的传播。然而,在自动驾驶汽车(AV)上实施深度Q学习(DQN)和Actor-critic等解决方案可能会导致计算负载增加,给计算设备带来沉重负担并导致更高的成本。此外,由于需要对标准进行修改,它们的实施可能会引发技术之间的兼容性问题。因此,在本文中,我们评估了在分布式多代理环境中使用 Q-learning 单代理解决方案的应用程序的可扩展性。该应用程序通过利用更小的状态和动作空间,同时使用多代理方法来提高网络性能。所提出的解决方案通过涉及奖励函数的不同测试用例进行了广泛评估,考虑了个体或整体网络性能、代理数量以及集中式和分布式学习比较。实验结果表明,我们提出的解决方案在语音、视频、高精地图和尽力而为的情况下进行的时间延迟有了显着的改善,与单代理方法。

KemenkeuGPT:利用印度尼西亚政府财务数据和法规的大型语言模型来增强决策

分类: 人工智能, I.2.7

作者: Gilang Fajar Febrian, Grazziela Figueredo

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21459v1

摘要: 数据对于循证决策和加强公共服务至关重要,包括印度尼西亚共和国财政部的公共服务。然而,政府财务数据和法规的复杂性和动态性可能会阻碍决策。本研究调查了大型语言模型 (LLM) 应对这些挑战的潜力,重点关注印度尼西亚的金融数据和法规。虽然大语言模型在金融领域很有效,但其在印度尼西亚公共部门的应用尚未探索。本研究采用迭代过程,使用 LangChain 和检索增强生成 (RAG)、快速工程和微调来开发 KemenkeuGPT。 2003年至2023年的数据集来自财政部、印度尼西亚统计局和国际货币基金组织(IMF)。对部委官员的调查和采访为该模型提供了信息、增强和微调。我们使用人类反馈、基于大语言模型的评估和基准测试来评估该模型。该模型的准确率从 35% 提高到 61%,正确率从 48% 提高到 64%。检索增强生成评估 (RAGAS) 框架显示,KemenkeuGPT 的正确率达到 44%,忠实度达到 73%,精确度达到 40%,召回率达到 60%,优于其他几个基础模型。财政部专家的采访表明,KemenkeuGPT有潜力成为决策的重要工具。这些结果预计将通过持续的人类反馈而得到改善。

TinyChirp:在低功耗无线声学传感器上使用 TinyML 模型进行鸟鸣识别

分类: 机器学习, 人工智能, 声音, 音频和语音处理, 信号处理

作者: Zhaolan Huang, Adrien Tousnakhoff, Polina Kozyr, Roman Rehausen, Felix Bießmann, Robert Lachlan, Cedric Adjih, Emmanuel Baccelli

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21453v1

摘要: 大规模监测生物多样性具有挑战性。检测和识别细粒度分类中的物种需要高度准确的机器学习 (ML) 方法。训练此类模型需要大量高质量数据集。将这些模型部署到低功耗设备需要新颖的压缩技术和模型架构。虽然物种分类方法受益于新颖的数据集和机器学习方法的进步,特别是神经网络,但将这些最先进的模型部署到低功耗设备仍然很困难。在这里,我们对用于物种分类的各种tinyML神经网络架构和压缩技术进行了全面的实证比较。我们重点关注鸟鸣检测的示例,更具体地说,是为研究玉米彩旗鸟类物种而策划的数据集。该数据集与本研究的所有代码和实验一起发布。在我们的实验中,我们比较了基于经典频谱图的方法和对原始音频信号进行操作的最新方法的预测性能、内存和时间复杂度。我们的结果表明,可以使用相对简单的架构来可靠地检测单个鸟类物种,并且可以轻松部署到低功耗设备。

通过滑动生成和自洽提高大型语言模型摘要的可信度

分类: 计算和语言, 人工智能

作者: Taiji Li, Zhi Li, Yin Zhang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21443v1

摘要: 尽管大型语言模型(LLM)在各种任务中表现出了令人印象深刻的性能,但它们仍然受到称为幻觉的事实不一致问题的困扰。例如,大语言模型有时会生成与源文章不同的内容,并且更喜欢提取出现在上下文开头和结尾的信息,尤其是在长文档摘要中。受这些发现的启发,我们建议通过促使大语言模型更加公平和忠实地处理整篇文章来提高他们在总结中的忠实度。我们提出了一种新颖的摘要生成策略,即 SliSum,它利用了滑动窗口和自洽的思想。具体来说,SliSum将源文章划分为重叠的窗口,并利用LLM为窗口中的内容生成本地摘要。最后,SliSum 使用聚类和多数投票算法聚合所有局部摘要,以生成整篇文章更忠实的摘要。大量实验表明,SliSum 显着提高了各种 LLM(包括 LLaMA-2、Claude-2 和 GPT-3.5)在短文本和长文本摘要中的忠实度,同时保持其流畅性和信息量,且无需额外的微调和资源。我们进一步进行定性和定量研究,以调查 SliSum 为何有效以及 SliSum 中的超参数对性能的影响。

MLLM 是一个强大的重排序器:通过知识增强重排序和噪声注入训练推进多模式检索增强生成

分类: 人工智能, 计算和语言, 机器学习

作者: Zhanpeng Chen, Chengjin Xu, Yiyan Qi, Jian Guo

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21439v1

摘要: 多模态大型语言模型 (MLLM) 在跨多种数据模态(包括文本、图像、音频和视频)处理和生成内容方面表现出了卓越的能力。然而,MLLM 的一个显着缺点是它们依赖静态训练数据,导致信息过时和上下文感知有限。这种静态性质阻碍了他们提供准确、最新响应的能力,特别是在动态或快速发展的环境中。集成多模态检索增强生成(Multimodal RAG)提供了一种有前景的解决方案,但系统不可避免地会遇到多粒度噪声对应(MNC)问题,其中涉及两种类型的噪声:粗粒度(查询-标题)和细粒度(查询-标题)。粒度(查询图像)。这种噪音阻碍了准确的检索和生成。在这项工作中,我们提出了 \textbf{RagLLaVA},这是一种具有知识增强重排序和噪声注入训练的新颖框架,以解决这些限制。我们使用简单而有效的指令模板对 MLLM 进行指令调整,以诱导其排名能力,并将其用作重新排名器以精确过滤前 k 个检索到的图像。对于生成,我们在数据和令牌级别的训练期间注入视觉噪声,以增强生成器的鲁棒性。对两个数据集的子集进行了广泛的实验,这些数据集需要对图像进行检索和推理来回答给定的查询。我们的结果证明了 RagLLaVA 在准确检索和稳健生成方面的优越性。代码和模型可在 https://github.com/IDEA-FinAI/RagLLaVA 获取。

可变形 3D 形状扩散模型

分类: 图形, 人工智能

作者: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21428v1

摘要: 高斯扩散模型最初设计用于图像生成,最近已适用于 3D 点云生成。然而,这些调整并未充分考虑 3D 形状的内在几何特征,从而限制了扩散模型进行 3D 形状操纵的潜力。为了解决这个限制,我们引入了一种新颖的可变形 3D 形状扩散模型,该模型有助于全面的 3D 形状操作,包括点云生成、网格变形和面部动画。我们的方法创新地结合了微分变形内核,它将几何结构的生成解构为连续的非刚性变形阶段。通过利用概率扩散模型来模拟这个逐步过程,我们的方法为从图形渲染到面部表情动画的广泛应用提供了多功能且高效的解决方案。经验证据强调了我们方法的有效性,展示了点云生成方面最先进的性能和网格变形方面的竞争结果。此外,广泛的视觉演示揭示了我们的方法在实际应用中的巨大潜力。我们的方法为推进 3D 形状操纵和释放虚拟现实领域的新机遇提供了独特的途径。

大语言模型经济高效的幻觉检测

分类: 计算和语言, 人工智能, 机器学习, 机器学习

作者: Simon Valentin, Jinmiao Fu, Gianluca Detommaso, Shaoyuan Xu, Giovanni Zappella, Bryan Wang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21424v1

摘要: 大型语言模型 (LLM) 很容易产生幻觉 - 生成不可靠的输出,这些输出不忠实于输入、外部事实或内部不一致。在这项工作中,我们解决了生产环境中事后幻觉检测的几个挑战。我们的幻觉检测流程包括:首先,产生一个置信度分数,表示生成的答案是幻觉的可能性;其次,根据输入的属性和候选人的响应来校准分数;最后,通过对校准分数进行阈值处理来执行检测。我们在不同的数据集上对各种最先进的评分方法进行基准测试,包括问答、事实检查和摘要任务。我们聘请不同的大语言模型来确保对绩效进行全面评估。我们表明,校准个人评分方法对于确保下游决策具有风险意识至关重要。基于没有哪个单独分数在所有情况下都表现最佳的发现,我们提出了一个多重评分框架,该框架结合了不同的分数并在所有数据集上实现了最佳性能。我们进一步引入了具有成本效益的多重评分,它可以匹配甚至超越更昂贵的检测方法,同时显着减少计算开销。

SmileyNet——通过人工智能阅读茶叶来预测彩票

分类: 人工智能, 计算机视觉和模式识别, 计算机与社会, 机器学习, 机器人技术, I.2; I.4; I.5; I.6; K.3.2

作者: Andreas Birk

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21385v1

摘要: 我们介绍 SmileyNet,一种具有通灵能力的新型神经网络。它的灵感来自于这样一个事实:积极的情绪可以提高认知能力,包括分类任务。因此,该网络在第一阶段出现了表情符号,并定义了一个令人鼓舞的损失函数来使其偏向好心情。然后,SmileyNet 根据已建立的 Tasseology 方法(即通过读取茶叶)来预测硬币的翻转。第二阶段的训练和测试是通过基于从专业茶杯采样的真实世界像素的高保真模拟来完成的。 SmileyNet 能够以 72% 的惊人准确率正确预测硬币的翻转。 Resnet-34、YOLOv5分别实现只有49%、分别53%。然后展示了如何组合多个 SmileyNet 来赢得彩票。

GEGA:图卷积网络和证据检索引导注意力增强文档级关系提取

分类: 计算和语言, 人工智能

作者: Yanxu Mao, Peipei Liu, Tiehan Cui

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21384v1

摘要: 文档级关系提取(DocRE)旨在从非结构化文档文本中提取实体之间的关系。与句子级关系提取相比,它需要从更广泛的文本上下文中进行更复杂的语义理解。目前,一些研究正在利用证据句子中的逻辑规则来提高 DocRE 的性能。然而,在没有提供证据句子的数据中,研究人员常常通过证据检索(ER)获得整个文档的证据句子列表。因此,DocRE面临两个挑战:首先,证据与实体对之间的相关性较弱;其次,对远距离多实体之间复杂交叉关系的提取不足。为了克服这些挑战,我们提出了 GEGA,这是一种新颖的 DocRE 模型。该模型利用图神经网络构建多个权重矩阵,指导对证据句子的注意力分配。它还采用多尺度表示聚合来增强 ER。随后,我们整合最有效的证据信息来实施模型的完全监督和弱监督训练过程。我们在三个广泛使用的基准数据集上评估 GEGA 模型:DocRED、Re-DocRED 和 Revisit-DocRED。实验结果表明,与现有的SOTA模型相比,我们的模型取得了全面的改进。

动态加权有向图上的扩展卡尔曼滤波器集成潜在特征模型

分类: 人工智能

作者: Hongxun Zhou, Xiangyu Chen, Ye Yuan

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21376v1

摘要: 动态加权有向图(DWDG)在各种应用场景中都很常见。它涉及众多节点之间广泛的动态交互。大多数现有方法从纯粹数据驱动的角度探索 DWDG 中隐藏的复杂时间模式,当 DWDG 随着时间的推移表现出强烈波动时,这种方法会遭受准确性损失。为了解决这个问题,本研究提出了一种新颖的扩展卡尔曼滤波器合并潜在特征(EKLF)模型,从模型驱动的角度来表示 DWDG。其主要思想分为以下两个方面:a)采用控制模型,即扩展卡尔曼滤波器(EKF),利用其非线性状态转移和观测函数来精确跟踪复杂的时间模式; b) 引入交替最小二乘 (ALS) 算法来交替训练潜在特征 (LF),以精确表示 DWDG。对 DWDG 数据集的实证研究表明,所提出的 EKLF 模型在 DWDG 缺失边权重的预测精度和计算效率方面优于最先进的模型。它揭示了通过合并控制模型来精确表示 DWDG 的潜力。

促使医学大视觉语言模型通过视觉问答来诊断病理

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Danfeng Guo, Demetri Terzopoulos

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21368v1

摘要: 近年来,大视觉语言模型(LVLM)取得了巨大的成功,并已扩展到医学领域。尽管医学视觉问答 (VQA) 任务表现令人满意,但医学 LVLM (MLVLM) 存在幻觉问题,这使得它们无法诊断复杂的病理。此外,由于训练数据不平衡,他们很容易无法了解少数人的病症。我们为 MLVLM 提出了两种提示策略,可以减少幻觉并提高 VQA 性能。在第一个策略中,我们对所询问的病理学提供了详细的解释。在第二种策略中,我们微调一个廉价的弱学习器,以在特定指标上实现高性能,并以文本形式向 MLVLM 提供其判断。在 MIMIC-CXR-JPG 和 Chexpert 数据集上进行测试,我们的方法显着提高了诊断 F1 分数,最高提升为 0.27。我们还证明我们的提示策略可以扩展到一般的 LVLM 领域。基于 POPE 指标,它有效地抑制了现有 LVLM 的假阴性预测,并将 Recall 提高了大约 0.07。

ProSpec RL:提前计划,然后执行

分类: 机器学习, 人工智能, 信息检索

作者: Liangliang Liu, Yi Guan, BoRan Wang, Rujia Shen, Yi Lin, Chaoran Kong, Lian Yan, Jingchi Jiang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21359v1

摘要: 在执行之前想象行动的潜在结果有助于代理人做出更明智的决策,这是人类认知的基础前瞻性思维能力。然而,主流的无模型强化学习(RL)方法缺乏主动设想未来场景、规划和指导策略的能力。这些方法通常依靠反复试验来调整政策功能,旨在最大化累积奖励或长期价值,即使这种高奖励决策将环境置于极其危险的状态。为了解决这个问题,我们提出了 Prospective (ProSpec) RL 方法,该方法通过想象未来的 n 流轨迹来做出更高价值、更低风险的最优决策。具体来说,ProSpec 采用动态模型根据当前状态和一系列采样动作来预测未来状态(称为“想象状态”)。此外,我们整合了模型预测控制的概念,并引入了循环一致性约束,允许智能体从这些轨迹中评估和选择最佳动作。此外,ProSpec 采用循环一致性来缓解 RL 中的两个基本问题:增强状态可逆性以避免不可逆事件(低风险)和增强动作以生成大量虚拟轨迹,从而提高数据效率。我们在 DMControl 基准测试中验证了我们方法的有效性,我们的方法实现了显着的性能改进。代码将在接受后开源。

遍历树:一种用知识图增强黑盒语言模型的零样本推理算法

分类: 人工智能

作者: Elan Markowitz, Anil Ramakrishna, Jwala Dhamala, Ninareh Mehrabi, Charith Peris, Rahul Gupta, Kai-Wei Chang, Aram Galstyan

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21358v1

摘要: 知识图 (KG) 通过提供可靠、结构化、特定领域和最新的外部知识来补充大型语言模型 (LLM)。然而,KG和LLM通常是分开开发的,必须在培训后整合。我们引入了遍历树,这是一种新颖的零样本推理算法,可以使用一个或多个 KG 来增强黑盒 LLM。该算法为 LLM 配备了用于连接 KG 的操作,并使 LLM 能够对可能的想法和操作执行树搜索,以找到高置信度推理路径。我们对两个流行的基准数据集进行评估。我们的结果表明,遍历树显着提高了问答和知识图谱问答任务的性能。代码可在 \url{https://github.com/amazon-science/tree-of-traversals} 获取

用于基于视觉的工业检测的小物体少镜头分割

分类: 计算机视觉和模式识别, 人工智能

作者: Zilong Zhang, Chang Niu, Zhibin Zhao, Xingwu Zhang, Xuefeng Chen

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21351v1

摘要: 基于视觉的工业检测(七)旨在快速、准确地定位缺陷。闭集环境下的监督学习和工业异常检测作为VII中的两种常见范式,在实际应用中面临着不同的问题。前者是难以获取多种、充分的缺陷,后者是无法定位具体的缺陷。为了解决这些问题,在本文中,我们重点研究了少样本语义分割(FSS)方法,该方法可以根据少量注释来定位看不见的缺陷,而无需重新训练。与自然图像中的常见物体相比,VII 的缺陷很小。这给当前的FSS方法带来了两个问题:1目标语义的失真和2背景的许多误报。为了缓解这些问题,我们提出了一种小对象少镜头分割(SOFS)模型。减轻1的关键思想是避免原始图像的大小调整并正确指示目标语义的强度。 SOFS 通过非调整大小过程和支持注释的原型强度下采样实现了这一想法。为了缓解2,我们在SOFS中设计了一个异常先验图来指导模型减少误报,并提出混合正态Dice损失来优先防止模型预测误报。 SOFS可以实现FSS和由支持掩模确定的少样本异常检测。各种实验证实了 SOFS 的优越性能。代码可在 https://github.com/zhangzilongc/SOFS 获取。

用于深度学习的差分私有分块梯度洗牌

分类: 机器学习, 人工智能, 密码学和安全

作者: David Zagardo

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21347v1

摘要: 传统的差分隐私随机梯度下降 (DP-SGD) 在从高斯分布中提取的梯度上引入统计噪声,以确保隐私。本文介绍了用于深度学习的新型差分隐私分块梯度洗牌(DP-BloGS)算法。 BloGS 以现有的私人深度学习文献为基础,但通过采用概率方法通过信息论隐私分析后建模的洗牌来引入梯度噪声,从而做出了明确的转变。本文提出的理论结果表明,混洗、特定于参数的块大小选择、批量层裁剪和梯度累积的组合使 DP-BloGS 能够实现接近非私密训练的训练时间,同时保持相似的隐私和实用性向 DP-SGD 提供担保。研究发现 DP-BloGS 比 DP-SGD 更能抵抗数据提取尝试。理论结果得到了实验结果的验证。

用于模糊感知连续情绪预测的双约束动态神经常微分方程

分类: 人工智能

作者: Jingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21344v1

摘要: 近年来,人们非常关注情感模糊性建模,在将情感表示为捕获模糊性的分布方面取得了进展。然而,相对较少的努力致力于考虑情绪分布中的时间依赖性,这种依赖性编码了随时间平稳演变的感知情绪的模糊性。认识到使用约束动态神经常微分方程 (CD-NODE) 将时间序列建模为动态过程的好处,我们提出了一种模糊感知双约束神经常微分方程方法来对唤醒和效价的情绪分布动态进行建模。在我们的方法中,我们利用神经网络参数化的常微分方程来估计分布参数,并集成额外的约束来限制系统输出的范围,以确保预测分布的有效性。我们在公开的 RECOLA 数据集上评估了我们提出的系统,并在一系列评估指标中观察到非常有前途的性能。

MIST:简单且可扩展的端到端 3D 医学成像分割框架

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 机器学习

作者: Adrian Celaya, Evan Lim, Rachel Glenn, Brayden Mi, Alex Balsells, Tucker Netherton, Caroline Chung, Beatrice Riviere, David Fuentes

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21343v1

摘要: 医学成像分割是一个高度活跃的研究领域,基于深度学习的方法在多个基准测试中取得了最先进的结果。然而,缺乏用于培训、测试和评估新方法的标准化工具使得方法之间的比较变得困难。为了解决这个问题,我们引入了医学影像分割工具包(MIST),这是一个简单、模块化和端到端的医学影像分割框架,旨在促进基于深度学习的医学影像分割方法的一致训练、测试和评估。 MIST 标准化了数据分析、预处理和评估流程,可容纳多种架构和损失函数。这种标准化确保了不同方法之间的可重复且公平的比较。我们详细介绍了 MIST 的数据格式要求、管道和辅助功能,并使用 BraTS 成人胶质瘤治疗后挑战数据集展示了其功效。我们的结果凸显了 MIST 生成准确分割掩模的能力及其跨多个 GPU 的可扩展性,展示了其作为未来医学成像研究和开发的强大工具的潜力。

具有内在动机刺激的基于图像的深度强化学习:关于复杂机器人任务的执行

分类: 人工智能, 机器学习

作者: David Valencia, Henry Williams, Yuning Xing, Trevor Gee, Minas Liarokapis, Bruce A. MacDonald

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21338v1

摘要: 强化学习(RL)已被广泛用于解决环境持续提供密集奖励值的任务。然而,在现实场景中,奖励通常定义不明确或稀疏。辅助信号对于发现有效的探索策略和帮助学习过程是不可或缺的。在这项工作中,受内在动机理论的启发,我们假设新奇和惊喜的内在刺激可以帮助改善复杂、奖励稀少的环境中的探索。我们引入了一种新颖的样本有效方法,能够直接从像素学习,这是一种基于图像的 TD3 扩展,带有名为 \textit{NaSA-TD3} 的自动编码器。实验表明,NaSA-TD3 易于训练,是在模拟环境和现实环境中处理复杂的连续控制机器人任务的有效方法。 NaSA-TD3 在最终性能方面优于现有最先进的基于 RL 图像的方法,无需预先训练的模型或人类演示。

MetaOpenFOAM:基于 LLM 的 CFD 多代理框架

分类: 人工智能, 流体动力学

作者: Yuxuan Chena, Xu Zhua, Hua Zhoua, Zhuyin Rena

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21320v1

摘要: 通过基于大语言模型(LLM)的智能体社会,自动化问题解决已取得显着进展。计算流体动力学 (CFD) 作为一个复杂的问题,在需要复杂解决方案的自动化模拟中提出了独特的挑战。 MetaOpenFOAM作为一种新颖的多智能体协作框架,旨在仅以自然语言作为输入来完成CFD模拟任务。这些仿真任务包括网格预处理、仿真和后处理等。MetaOpenFOAM 利用 MetaGPT 流水线范式的强大功能,为各种代理分配不同的角色,有效地将复杂的 CFD 任务分解为可管理的子任务。 Langchain 通过集成检索增强生成 (RAG) 技术进一步补充了 MetaOpenFOAM,该技术通过集成大语言模型 OpenFOAM 教程的可搜索数据库来增强框架的能力。基于自然语言的 CFD 求解器基准测试由 8 个 CFD 模拟任务组成,结果表明 MetaOpenFOAM 每次测试的通过率很高 (85%),每个测试用例的平均成本仅为 0.22 美元。 8 个 CFD 模拟任务包括可压缩和不可压缩流动、2D 和 3D 流动、传热和燃烧,展示了仅使用自然语言输入自动执行 CFD 模拟并迭代纠正错误以低成本实现所需模拟的能力。通过消融研究来验证多智能体系统和 RAG 技术中各个组件的必要性。对LLM随机性的敏感性研究表明,低随机性的LLM可以获得更稳定、更准确的结果。此外,MetaOpenFOAM 拥有识别和修改用户需求中关键参数的能力,并且在发生故障时(无论是否有人参与)都擅长纠正错误,这体现了 MetaOpenFOAM 的通用性。

大合作学习

分类: 机器学习, 人工智能

作者: Yulai Cong

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21319v1

摘要: 合作在人类智力的进化中发挥着关键作用;此外,它也是最近由基础模型驱动的人工智能(AI)革命性进步的基础。具体来说,我们揭示了基础模型的训练可以解释为大合作学习(\textit{abbr.}大学习)的一种形式,其中大量学习个体/任务\emph{合作}来接近数据的独特本质利用通用模型进行数据预测的不同视角。因此,所提出的大学习将基础模型的大多数训练目标统一在一个一致的框架内,其中它们的基本假设同时暴露。我们设计定制的模拟来演示大学习的原理,在此基础上,我们为基础模型的成功提供学习视角的理由,并提供有趣的副产品。此外,我们揭示了大学习是升级传统机器学习范式的新维度,对于赋予相关应用程序重振价值。作为一个说明性的例子,我们提出了 BigLearn-GAN,这是一种新颖的对抗训练基础模型,具有多功能数据采样功能。代码可在 \texttt{https://github.com/YulaiCong/BigCooperativeLearning} 获取。

超越无声字母:通过声音细微差别放大情绪识别的大语言模型

分类: 计算和语言, 人工智能

作者: Zehui Wu, Ziwei Gong, Lin Ai, Pengyuan Shi, Kaan Donbekci, Julia Hirschberg

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21315v2

摘要: 本文介绍了一种使用大型语言模型 (LLM) 进行语音情感检测的新方法。我们通过将语音特征转化为自然语言描述来解决大语言模型在处理音频输入方面的局限性。我们的方法将这些描述集成到文本提示中,使大语言模型能够执行多模式情感分析,而无需进行架构修改。我们在两个数据集上评估了我们的方法:IEMOCAP 和 MELD,证明了情绪识别准确性的显着提高,特别是对于高质量音频数据。我们的实验表明,合并语音描述可使 IEMOCAP 上的加权 F1 分数提高 2 个百分点(从 70.111% 到 72.596%)。我们还比较了各种 LLM 架构并探索了不同特征表示的有效性。我们的研究结果强调了这种方法在增强大语言模型情绪检测能力方面的潜力,并强调了音频质量在基于语音的情绪识别任务中的重要性。我们将在 Github 上发布源代码。

EUDA:通过自监督视觉变压器实现高效的无监督域适应

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Ali Abedi, Q. M. Jonathan Wu, Ning Zhang, Farhad Pourpanah

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21311v1

摘要: 无监督域适应 (UDA) 旨在缓解域转移问题,其中训练(源)数据的分布与测试(目标)数据的分布不同。人们已经开发了许多模型来解决这个问题,最近视觉变换器(ViT)已经显示出有希望的结果。然而,ViT 的复杂性和大量可训练参数限制了其在实际应用中的部署。这强调了对高效模型的需求,该模型不仅可以减少可训练参数,还可以根据特定需求调整复杂性,同时提供可比较的性能。为了实现这一目标,在本文中,我们引入了高效无监督域​​适应(EUDA)框架。 EUDA 采用 DINOv2(一种自监督 ViT)作为特征提取器,然后是全连接层的简化瓶颈,以细化特征以增强域适应。此外,EUDA 采用协同域对齐损失 (SDAL),它集成了交叉熵 (CE) 和最大平均差异 (MMD) 损失,通过最小化源域中的分类错误同时对齐源域和目标域分布来平衡自适应。实验结果表明,与域适应中其他最先进的方法相比,EUDA 能够有效地产生可比较的结果,可训练参数明显减少,减少了 42% 到 99.7%。这展示了在资源有限的环境中训练模型的能力。该模型的代码位于:https://github.com/A-Abedi/EUDA。

将 Streaming 算法和 k-means 集群实现到 RAG

分类: 信息检索, 人工智能

作者: Haoyu Kang, Yuzhou Zhu, Yukun Zhong, Ke Wang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21300v1

摘要: 检索增强生成(RAG)由于构建了外部知识数据库,因此在信息检索辅助大型模型方面取得了巨大成功。但它也存在很多问题:由于数据库庞大,所以消耗大量内存。当面对海量流数据时,无法及时更新已建立的索引数据库。为了节省构建数据库的内存并同时保持准确性,我们提出了一种将流式算法和 k-means 集群与 RAG 相结合的新方法。我们的方法应用流式算法来更新索引并减少内存消耗。然后使用k-means算法将相似度高的文档聚类在一起,这样可以缩短查询时间。我们对四种方法进行了对比实验,结果表明采用流式算法和 k-means 集群的 RAG 在准确率和内存方面表现良好。对于海量流数据,我们发现我们的方法比传统的 RAG 表现更好

我应该信任谁?比较净负荷预测模型的可视化分析方法

分类: 人机交互, 人工智能, 机器学习, 系统与控制, 信号处理, 系统与控制

作者: Kaustav Bhattacharjee, Soumya Kundu, Indrasis Chakraborty, Aritra Dasgupta

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21299v1

摘要: 净负荷预测对于能源规划和促进有关贸易和负荷分配的明智决策至关重要。然而,根据基准模型评估预测模型的性能仍然具有挑战性,从而阻碍了专家对模型性能的信任。在这种背景下,需要技术干预,使科学家能够比较不同时间范围和太阳渗透水平的模型。本文介绍了一种基于可视化分析的应用程序,旨在将基于深度学习的净负荷预测模型与其他概率净负荷预测模型的性能进行比较。该应用程序采用精心选择的视觉分析干预措施,使用户能够辨别不同太阳穿透水平、数据集分辨率和多个月内一天中时间的模型性能差异。我们还通过案例研究展示了使用我们的应用程序进行的观察,展示了可视化在帮助科学家做出明智决策和增强对净负荷预测模型的信任方面的有效性。

持久图最大边际分类引入的矢量化方法

分类: 机器学习, 人工智能, 生物分子

作者: An Wu, Yu Pan, Fuqi Zhou, Jinghui Yan, Chuanlu Liu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21298v1

摘要: 持久同源性是提取空间结构数据的拓扑信息(表示为持久图)的有效方法。因此它非常适合蛋白质结构的研究。将持久同源性纳入蛋白质功能预测的机器学习方法中的尝试已经产生了几种用于矢量化持久图的技术。然而,现有的矢量化方法过于人为,无法保证信息的有效利用或方法的合理性。为了解决这个问题,我们提出了一种基于巴拿赫空间最大边缘分类的持久图的几何矢量化方法,并另外提出了一个利用拓扑数据分析来识别具有特定功能的蛋白质的框架。我们使用蛋白质的二元分类任务评估了我们的矢量化方法,并将其与十三种常用矢量化方法中表现出最佳性能的统计方法进行了比较。实验结果表明,我们的方法在鲁棒性和精度方面都超过了统计方法。

SimpleLLM4AD:用于自动驾驶的具有图形视觉问答的端到端视觉语言模型

分类: 计算机视觉和模式识别, 人工智能

作者: Peiru Zheng, Yun Zhao, Zhan Gong, Hong Zhu, Shaohua Wu

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21293v1

摘要: 许多领域都可以从大型语言模型(LLM)的快速发展中受益。随着大语言模型支持越来越多的模式,端到端自动驾驶(e2eAD)是面临新机遇的典型领域之一。在这里,通过利用视觉语言模型(VLM),我们提出了一种称为 SimpleLLM4AD 的 e2eAD 方法。在我们的方法中,e2eAD任务分为四个阶段,即感知、预测、规划和行为。每个阶段由多个视觉问答 (VQA) 对组成,VQA 对相互互连,构建一个称为图 VQA (GVQA) 的图。通过VLM逐步推理GVQA中的每个VQA对,我们的方法可以实现语言的端到端驱动。在我们的方法中,视觉变换器(ViT)模型用于处理 nuScenes 视觉数据,而 VLM 用于解释和推理从视觉输入中提取的信息。在感知阶段,系统对驾驶环境中的物体进行识别和分类。预测阶段涉及预测这些物体的潜在运动。规划阶段利用收集到的信息制定驾驶策略,确保自动驾驶车辆的安全性和效率。最后,行为阶段将计划的动作转化为车辆的可执行命令。我们的实验表明,SimpleLLM4AD 在复杂的驾驶场景中实现了具有竞争力的性能。

基于 SAM 的 Robust Box Prompt 用于医学图像分割

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Yuhao Huang, Xin Yang, Han Zhou, Yan Cao, Haoran Dou, Fajin Dong, Dong Ni

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21284v1

摘要: Segment Anything Model(SAM)可以在高质量的框提示下获得令人满意的分割性能。然而,SAM 的稳健性因盒子质量的下降而受到影响,限制了其在临床现实中的实用性。在本研究中,我们提出了一种新颖的基于 Robust Box 提示的 SAM (\textbf{RoBox-SAM}),以确保 SAM 在不同质量的提示下的分割性能。我们的贡献是三方面的。首先,我们提出了一个提示细化模块来隐式感知潜在目标,并输出偏移量以直接将低质量的框提示转换为高质量的框提示。然后,我们提供在线迭代策略以进一步迅速完善。其次,我们引入了提示增强模块来自动生成点提示,以有效辅助框提示分割。最后,我们构建一个自信息提取器来对输入图像中的先验信息进行编码。这些特征可以优化图像嵌入和注意力计算,从而进一步增强 SAM 的鲁棒性。对大型医学分割数据集(包括 99,299 张图像、5 种模式和 25 个器官/目标)的广泛实验验证了我们提出的 RoBox-SAM 的功效。

释放健康数据传输中具有约束力的公司规则 (BCR) 的潜力

分类: 计算机与社会, 人工智能

作者: Marcelo Corrales Compagnucci, Mark Fenwick, Helena Haapio

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21281v1

摘要: 本章探讨了具有约束力的公司规则 (BCR) 在根据欧盟通用数据保护条例 (GDPR) 管理和促进企业集团内安全健康数据传输方面的重要作用。 BCR 专为确保遵守 GDPR 和类似的国际数据保护法而量身定制,为传输敏感的健康和基因组数据提供了灵活的机制。本章将 BCR 置于 GDPR 国际数据传输机制的更广泛范围内,解决健康数据的敏感性和人工智能技术的日益采用所带来的独特挑战。 Schrems II 决定后发布的欧洲数据保护委员会 (EDPB) 关于 BCR 的第 1/2022 号建议经过严格分析,强调了其严格要求以及对优先考虑数据保护和人工智能治理框架的平衡方法的需求。本章概述了 BCR 批准流程,强调简化此流程以鼓励更广泛采用的重要性。它强调了在开发 BCR 时采用多学科方法的必要性,纳入最近采用的国际标准和框架,为组织构建值得信赖的人工智能管理系统提供宝贵的指导。它们保证人工智能的开发、部署和运营符合道德规范,这对于人工智能的成功整合和更广泛的数字化转型至关重要。总之,BCR 被定位为安全健康数据管理、促进透明度、问责制和跨国界合作的重要工具。本章呼吁采取积极措施来激励 BCR 采用、简化审批流程并推广更多创新方法,确保 BCR 仍然是全球数据保护和合规性的强大机制。

使用知识金字塔进行多级查询

分类: 人工智能, 计算和语言

作者: Rubing Chen, Xulu Zhang, Jiaxin Wu, Wenqi Fan, Xiao-Yong Wei, Qing Li

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21276v1

摘要: 本文解决了现有检索增强生成(RAG)方法提高精度的需求,这些方法主要侧重于增强召回率。我们在 RAG 框架内提出了一种多层知识金字塔方法,以实现精度和召回率之间更好的平衡。知识金字塔由三层组成:本体、知识图谱(KG)和基于块的原始文本。我们采用跨层增强技术来实现全面的知识覆盖以及本体模式和实例的动态更新。为了确保紧凑性,我们利用跨层过滤方法在知识图谱中进行知识浓缩。我们的方法名为 PolyRAG,遵循瀑布模型进行检索,从金字塔顶部开始向下推进,直到获得可靠的答案。我们引入了两个特定领域知识检索的基准,一个在学术领域,另一个在金融领域。该方法的有效性已通过综合实验得到验证,优于 19 种 SOTA 方法。令人鼓舞的观察结果是,所提出的方法增强了 GPT-4,通过将其性能从 0.1636 提高到 0.8109,提供了 395% F1 增益。

FreqTSF:通过模拟频率 Kramer-Kronig 关系进行时间序列预测

分类: 人工智能

作者: Rujia Shen, Liangliang Liu, Boran Wang, Yi Guan, Yang Yang, Jingchi Jiang

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21275v1

摘要: 时间序列预测(TSF)在电力转型、金融贸易、医疗监控和智慧农业等广泛应用中非常重要。虽然基于 Transformer 的方法可以处理时间序列数据,但由于自注意力机制的“反序”性质,它们预测长期时间序列的能力受到限制。为了解决这个问题,我们专注于频域削弱了TSF中阶数的影响,提出了FreqBlock,首先通过频率变换模块获得频率表示,随后使用新设计的频率交叉注意力来获得实部和虚部之间的增强频率表示,从而建立联系。我们的主干网络 FreqTSF 采用残差结构,通过连接多个 FreqBlock 在频域中模拟 KKR,并在理论层面上避免了退化问题。提出的两个模块可以将每个 FreqBlock 计算的时间和内存复杂度从 $\mathcal{O}(L^2)$ 显着降低到 $\mathcal{O}(L)$。对四个基准数据集的实证研究表明,与最先进的方法相比,FreqTSF 的总体相对 MSE 降低了 15%,总体相对 MAE 降低了 11%。该代码即将推出。

使用 MSU-Net 增强超声图像分割的不确定性估计

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Rohini Banerjee, Cecilia G. Morales, Artur Dubrawski

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21273v1

摘要: 创伤和重症监护中有效的血管内通路显着影响患者的治疗结果。然而,在严峻的环境下,熟练的医务人员的可用性往往是有限的。自主机器人超声系统可以帮助插入针以进行药物输送,并支持非专家执行此类任务。尽管自主针插入方面取得了进展,但血管分割预测的不准确会带来风险。了解超声成像预测模型的不确定性对于评估其可靠性至关重要。我们引入了 MSU-Net,这是一种新颖的多阶段方法,用于训练 U-Net 集合以生成准确的超声图像分割图。我们展示了显着的改进,比单个蒙特卡罗 U-Net 提高了 18.1%,增强了不确定性评估、模型透明度和可信度。通过突出模型确定性的领域,MSU-Net 可以指导安全的针插入,使非专家能够完成此类任务。

糖尿病视网膜病变 SD-OCT 中高反射灶的自动定量

分类: 人工智能, 计算机视觉和模式识别

作者: Idowu Paul Okuwobi, Zexuan Ji, Wen Fan, Songtao Yuan, Loza Bekalo, Qiang Chen

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21272v1

摘要: 高反射灶(HF)的存在与视网膜疾病的进展有关,其数量已被证明是各种视网膜疾病的视觉和解剖结果的预后因素。然而,由于缺乏评估 HF 的有效定量工具,眼科医生无法评估 HF 的体积。为此,我们提出了一种自动量化算法来分割和量化谱域光学相干断层扫描(SD-OCT)中的高频。所提出的算法由两个并行过程组成,即:感兴趣区域(ROI)生成和 HFs 估计。为了生成 ROI,我们使用形态重建来获取重建图像和为数据分布和聚类构建的直方图。同时,我们通过从组件树获得的连接区域中提取极值区域来估计 HF。最后,将 ROI 和 HF 估计过程合并以获得分段的 HF。该算法在 40 名被诊断患有非增殖性糖尿病视网膜病变 (NPDR)、增殖性糖尿病视网膜病变 (PDR) 和糖尿病黄斑水肿 (DME) 的患者的 40 个 3D SD-OCT 体积上进行了测试。 NPDR 的平均骰子相似系数 (DSC) 和相关系数 (r) 分别为 69.70%、0.99;PDR 的平均骰子相似系数 (DSC) 和相关系数 (r) 分别为 70.31%、0.99;DME 的平均骰子相似系数 (DSC) 和相关系数 (r) 分别为 71.30%、0.99。所提出的算法可以为眼科医生提供良好的 HF 定量信息,例如 HF 的体积、大小和位置。

DEF-oriCORN:高效的 3D 场景理解,无需演示即可实现强大的语言引导操作

分类: 机器人技术, 人工智能, 计算机视觉和模式识别

作者: Dongwon Son, Sanghyeon Son, Jaehyung Kim, Beomjoon Kim

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21267v1

摘要: 我们提出了 DEF-oriCORN,一个用于语言指导的操作任务的框架。通过利用新颖的基于对象的场景表示和基于扩散模型的状态估计算法,我们的框架能够响应口头命令而实现高效、稳健的操作规划,即使在没有任何演示且摄像机视图稀疏的紧凑环境中也是如此。与传统的表示不同,我们的表示提供了有效的碰撞检查和语言基础。与最先进的基线相比,我们的框架通过稀疏 RGB 图像实现了卓越的估计和运动规划性能,并且零样本推广到具有多种材料(包括透明和反射物体)的现实世界场景,尽管专门进行了模拟训练。我们的数据生成、训练、推理和预训练权重代码可在以下网址公开获取:https://sites.google.com/view/def-oricorn/home。

具有通用价值函数逼近的易于处理且可证明有效的分布强化学习

分类: 机器学习, 人工智能, 机器学习

作者: Taehyun Cho, Seungyub Han, Kyungjae Lee, Seokhun Ju, Dohyeong Kim, Jungwoo Lee

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21260v1

摘要: 分布式强化学习通过有效捕获环境随机性来提高性能,但对其有效性的全面理论理解仍然难以实现。在本文中,我们提出了有限情景马尔可夫决策过程设置中具有一般价值函数近似的分布式强化学习的遗憾分析。我们首先引入贝尔曼无偏性的关键概念,通过统计函数动态规划进行易于处理且完全可学习的更新。我们的理论结果表明,用有限数量的矩函数逼近无限维回报分布是无偏学习统计信息(包括非线性统计函数)的唯一方法。其次,我们提出了一种可证明有效的算法 $\texttt{SF-LSVI}$,实现了 $\tilde{O}(d_E H^{\frac{3}{2}}\sqrt{K}) 的后悔界限$ 其中 $H$ 是地平线,$K$ 是剧集数,$d_E$ 是函数类的逃避维数。

终身寻人

分类: 计算机视觉和模式识别, 人工智能

作者: Jae-Won Yang, Seungbin Hong, Jae-Young Sim

发布时间: 2024-07-31

链接: http://arxiv.org/abs/2407.21252v1

摘要: 人物搜索是在场景图像的图库数据集中定位查询人物的任务。现有的方法主要是为了处理单个目标数据集而开发的,但是在人物搜索的实际应用中不断给出不同的数据集。在这种情况下,当他们在新数据集上进行训练时,他们会在旧数据集中遭受灾难性的知识遗忘。在本文中,我们首先介绍了终身人物搜索(LPS)的新问题,其中模型在新数据集上增量训练,同时保留在旧数据集中学到的知识。我们提出了一种端到端的 LPS 框架,通过利用前景人物的原型特征以及旧领域中的硬背景建议,促进知识蒸馏,以加强新旧模型之间的一致性学习。此外,我们还设计了基于排练的实例匹配,通过额外使用未标记的人物实例来进一步提高旧领域的辨别能力。实验结果表明,与现有方法相比,所提出的方法在检测和重新识别方面实现了显着优越的性能,以保留在旧领域中学到的知识。

VITAL:视觉远程操作通过人在环纠正来增强机器人学习

分类: 机器人技术, 人工智能, 计算机视觉和模式识别

作者: Hamidreza Kasaei, Mohammadreza Kasaei

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21244v1

摘要: 模仿学习(IL)已成为机器人技术中的一种强大方法,它允许机器人通过模仿人类行为来获得新技能。尽管具有潜力,但由于与获得高质量演示相关的后勤困难和高成本,IL 的数据收集过程仍然是一个重大挑战。为了解决这些问题,我们提出了一种用于双手操作任务的低成本视觉远程操作系统,称为 VITAL。我们的方法利用经济实惠的硬件和视觉处理技术来收集演示,然后将其增强以创建用于模仿学习的广泛训练数据集。我们通过利用真实和模拟环境以及人机交互修正来增强所学策略的通用性和鲁棒性。我们通过在模拟和真实机器人环境中进行的几轮实验来评估我们的方法,重点关注不同复杂程度的任务,包括收集瓶子、堆叠物体和锤击。我们的实验结果验证了我们的方法从模拟数据中学习稳健的机器人策略的有效性,通过人机交互校正和现实世界数据集成显着改进了该策略。此外,我们还展示了该框架泛化到新任务的能力,例如设置饮料托盘,展示了其处理各种现实世界双手操作任务的适应性和潜力。实验视频可在以下网址找到:https://youtu.be/YeVAMRqRe64?si=R179xDlEGc7nPu8i

离散扩散模型的知情校正器

分类: 机器学习, 人工智能

作者: Yixiu Zhao, Jiaxin Shi, Lester Mackey, Scott Linderman

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21243v1

摘要: 离散扩散建模是在离散空间中建模和生成数据的有前途的框架。为了从这些模型中进行采样,不同的策略会在计算和样本质量之间进行权衡。主要的采样策略是预测校正器 $\tau$-leaping,它用离散预测器步骤模拟连续时间生成过程,并通过校正器步骤抵消离散化误差的累积。然而,对于吸收态扩散(一类重要的离散扩散模型),标准的前向-后向校正器可能无法有效地修复此类错误,从而导致样本质量低于标准。为了解决这个问题,我们提出了一系列知情校正器,它们通过利用模型学到的信息来更可靠地抵消离散化误差。为了进一步提高效率,我们还提出了 $k$-Gillespie's 采样算法,它可以更好地利用每个模型评估,同时仍然享受 $\tau$-leaping 的速度和灵活性。在几个真实和合成的数据集中,我们表明 $k$-Gillespie 具有知情的校正器,能够以较低的计算成本可靠地生成更高质量的样本。

错误分析以预测错误解决时间

分类: 软件工程, 人工智能

作者: Hasan Yagiz Ozkan, Poul Einer Heegaard, Wolfgang Kellerer, Carmen Mas-Machuca

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21241v1

摘要: 软件开发中的错误是不可避免的,在开放存储库中报告错误可以提高软件透明度和可靠性评估。本研究旨在从问题跟踪系统 Jira 中提取信息,并提出一种估计新错误解决时间的方法。该方法应用于ONAP网络项目,解决了网络运营商和制造商的担忧。这项研究提供了对网络软件化项目中的错误解决时间和相关方面的见解。

TMA-Grid:用于 FAIR 组织微阵列解阵列的开源、零占用空间 Web 应用程序

分类: 组织和器官, 人工智能, 计算机视觉和模式识别

作者: Aaron Ge, Monjoy Saha, Maire A. Duggan, Petra Lenz, Mustapha Abubakar, Montserrat García-Closas, Jeya Balasubramanian, Jonas S. Almeida, Praphulla MS Bhawsar

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21233v1

摘要: 背景:组织微阵列 (TMA) 通过允许在单张载玻片上扫描多个组织核心,显着提高了组织病理学和大规模流行病学研究的分析效率。可以以数字方式提取各个核心,然后链接到元数据以在称为解列的过程中进行分析。然而,TMA 通常包含由于组装错误而导致的核心未对准和伪影,这可能会对解阵列过程中提取的核心的可靠性产生不利影响。此外,传统的 TMA 去阵列方法依赖于桌面解决方案。因此,强大而灵活的去阵列方法对于解决这些不准确性并确保有效的下游分析至关重要。结果:我们开发了 TMA-Grid,这是一种用于 TMA 解列的浏览器内零占用空间交互式 Web 应用程序。该 Web 应用程序集成了用于精确组织分割的卷积神经网络和网格估计算法,以将每个已识别的核心与其预期位置相匹配。该应用程序强调交互性,允许用户轻松调整分割和网格化结果。 TMA-Grid 完全在网络浏览器中运行,无需下载或安装,并确保数据隐私。该应用程序及其组件遵循 FAIR 原则(可查找、可访问、可互操作和可重用),旨在无缝集成到 TMA 研究工作流程中。结论:TMA-Grid 为网络上的 TMA 排列提供了一个强大的、用户友好的解决方案。作为一个开放、可免费访问的平台,它为 TMA 和类似组织病理学成像数据的协作分析奠定了基础。可用性: Web 应用程序:https://episphere.github.io/tma-grid 代码:https://github.com/episphere/tma-grid 教程:https://youtu.be/miajqyw4BVk

评估编程任务难度以有效评估大型语言模型

分类: 软件工程, 人工智能

作者: Florian Tambon, Amin Nikanjam, Foutse Khomh, Giuliano Antoniol

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21227v1

摘要: 大型语言模型 (LLM) 在软件工程中显示出巨大的潜力,特别是对于代码完成和代码生成等与代码相关的任务。大语言模型的评估通常以根据基准计算的一般指标为中心。在描绘基准和大语言模型能力的宏观视图时,尚不清楚这些基准中的每个编程任务如何评估大语言模型的能力。特别是,基准测试中任务的难度级别并未反映在用于报告模型性能的分数中。然而,在主要是简单任务的基准上获得 90% 分数的模型的能力可能不如在主要包含困难任务的基准上获得 90% 分数的模型。本文设计了一个框架 HardEval,用于评估大语言模型的任务难度并根据确定的困难任务制定新任务。该框架对跨多个大语言模型的单个任务使用多种提示,以获得基准测试中每个任务的难度分数。使用两个代码生成基准 HumanEval+ 和 ClassEval,我们表明 HardEval 可以可靠地识别这些基准中的困难任务,强调只有 21% 的 HumanEval+ 和 27% 的 ClassEval 任务对于大语言模型来说是困难的。通过对任务难度的分析,我们还描述了 6 个实用的硬任务主题,我们用它们来生成新的硬任务。与当前的基准评估工作正交,HardEval 可以帮助研究人员和从业者更好地评估大语言模型。难度分数可用于识别现有基准中的困难任务。反过来,这可以用来生成更多围绕特定主题的艰巨任务,以评估或改进大语言模型。 HardEval 通用方法可以应用于其他领域,例如代码完成或 Q/A。

酉式近似编译的人工智能方法

分类: 量子物理学, 人工智能

作者: David Kremer, Victor Villar, Sanjay Vishwakarma, Ismael Faro, Juan Cruz-Benito

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21225v1

摘要: 本文探索了用于酉式近似编译的人工智能(AI)方法,重点关注超导硬件中典型的固定双量子位门和任意单量子位旋转的使用。我们的方法涉及三个主要阶段:识别近似目标酉的初始模板,预测该模板的初始参数,以及改进这些参数以最大化电路的保真度。我们为前两个阶段提出了人工智能驱动的方法,其中包括建议初始模板的深度学习模型和建议参数值的类似自动编码器的模型,这些参数值通过梯度下降进行细化以达到所需的保真度。我们在 2 和 3 量子位酉上演示了该方法,展示了相对于穷举搜索和随机参数初始化的有希望的改进。结果凸显了人工智能增强转译过程的潜力,支持当前和未来量子硬件上更高效的量子计算。

基于 LoRaWAN 的动态噪声映射与机器学习,用于城市噪声执法

分类: 人工智能, 网络和互联网架构

作者: H. Emre Erdem, Henry Leung

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21204v1

摘要: 描述大范围长期噪声水平的静态噪声图是市政当局减少居民噪声暴露的宝贵城市规划资产。然而,人们经常抱怨的具有瞬态行为的非交通噪声源通常被静态地图忽略。我们在这里提出一种动态噪声映射方法,使用通过基于低功耗广域网(LPWAN,特别是 LoRaWAN)的物联网(IoT)基础设施收集的数据,这是智慧城市最常见的通信骨干之一。由于这些协议的数据速率较低,基于 LPWAN 的噪声映射具有挑战性。所提出的动态噪声映射方法使用机器学习(ML)基于稀缺数据对非流量源进行事件和位置预测,从而减少了数据速率限制的负面影响。这些模型的优势在于它们考虑了城市环境中建筑物引起的声学行为的空间变化。在现场测试中评估了所提出方法的有效性和所得到的动态地图的准确性。结果表明,所提出的系统可以将非流量源引起的地图误差降低高达 51%,并且可以在严重丢包的情况下保持有效。

陷入认知和人工智能偏见的深渊

分类: 人工智能, 计算机与社会

作者: Athena Vakali, Nicoleta Tantalaki

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21202v1

摘要: 如今,我们将许多决策委托给人工智能 (AI),它可以单独行动,也可以作为人类伙伴做出支持多个敏感领域(例如医疗保健、金融服务和执法)的决策。人工智能系统,即使精心设计为公平的,也因对个人和群体产生误判和歧视的结果而受到严厉批评。关于人工智能算法公平性的大量工作都致力于机器学习管道,这些管道在纯计算视图下解决偏见并量化公平性。然而,持续不断的不公平和不公正的人工智能结果表明,迫切需要将人工智能理解为一个社会技术系统,与其设计、开发和部署的条件密不可分。尽管人类和机器的协同作用似乎对于人工智能的发挥至关重要,但人类和社会因素对人工智能偏见的重大影响目前却被忽视了。我们通过遵循一种全新的方法来解决这个关键问题,在该方法下,人类认知偏见成为我们人工智能公平概述中的核心实体。受认知科学定义和人类启发式分类法的启发,我们确定了有害的人类行为如何影响整个人工智能生命周期,并揭示了人类对人工智能偏见的隐藏路径。我们引入了一种新的映射,它证明了人类启发式对人工智能偏见反射的合理性,并且我们检测了相关的公平强度和相互依赖性。我们预计,这种方法将有助于在更深入的以人为中心的案例研究下重新审视人工智能的公平性,揭示隐藏的偏见的因果关系。

GenRec:生成个性化顺序推荐

分类: 信息检索, 人工智能, 计算和语言, 机器学习

作者: Panfeng Cao, Pietro Lio

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21191v1

摘要: 顺序推荐是一项从历史用户项交互数据中捕获隐藏的用户偏好的任务。通过利用基于分类的学习方法,该领域已经取得了重大进展。受最近 NLP 中“预训练、提示和预测”范式的启发,我们将顺序推荐视为序列到序列生成任务,并提出了一种名为生成推荐(GenRec)的新模型。与学习显式用户和项目表示的基于分类的模型不同,GenRec 利用 Transformer 的序列建模功能,并采用屏蔽项目预测目标来有效学习隐藏的双向序列模式。与现有的生成顺序推荐模型不同,GenRec 不依赖于手动设计的硬提示。 GenRec 的输入是文本用户项目序列,输出是排名最高的下一个项目。此外,GenRec 是轻量级的,只需几个小时即可在资源匮乏的环境中进行有效训练,使其高度适用于现实场景,并有助于使顺序推荐领域的大型语言模型民主化。我们广泛的实验表明,GenRec 可以推广到各种公共现实世界数据集并取得最先进的结果。我们的实验还验证了所提出的屏蔽项目预测目标的有效性,该目标大大提高了模型性能。

多任务光子储层计算:使用硅微环谐振器进行并行计算的波分复用

分类: 神经和进化计算, 人工智能, 机器学习, 光学

作者: Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar, Francesco Da Ros

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21189v1

摘要: 如今,随着对更强大的计算资源的需求不断增长,替代的高级计算范式正在受到广泛的研究。为了摆脱传统的冯·诺依曼架构,人们付出了巨大的努力。内存计算已经在电子领域出现,作为解决内存和计算处理器之间臭名昭著的瓶颈的可能解决方案,该瓶颈降低了数据的有效吞吐量。在光子学中,新颖的方案试图将计算处理器和存储器配置在单个设备中。光子学不仅在空间和时间上提供了数据流复用的灵活性,而且在频率或波长上也提供了复用数据流的灵活性,这使得它非常适合并行计算。在这里,我们以数字方式展示了使用时分复用 (WDM) 在单个光子芯片中同时解决四个独立任务,作为我们提案的概念证明。该系统是基于微环谐振器(MRR)的时滞储层计算(TDRC)。所解决的任务涵盖不同的应用:时间序列预测、波形信号分类、无线信道均衡和雷达信号预测。该系统还经过测试,可以同时计算同一任务的最多 10 个实例,表现出出色的性能。通过使用充当所研究的神经网络方案的神经元的节点的时分复用来减少系统的占用空间。 WDM 用于波长通道的并行化,每个通道处理一个任务。通过调整每个光通道的输入功率和频率,我们可以实现每项任务的性能水平,可与专注于单任务操作的最先进报告中引用的性能水平相媲美......

推演博弈框架与信息集熵搜索

分类: 人工智能

作者: Fandi Meng, Simon Lucas

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21178v1

摘要: 我们提出了一个为演绎游戏量身定制的游戏框架,可以从香农熵变的角度进行结构化分析。此外,我们引入了一种新的前向搜索算法——信息集熵搜索(ISES),它可以有效解决许多单人推理游戏。 ISES 算法通过采样技术进行增强,允许代理在受控的计算资源和时间限制内做出决策。我们框架内的八个游戏的实验结果表明,在有限决策时间约束下,我们的方法相对于单观察者信息集蒙特卡罗树搜索(SO-ISMCTS)算法具有显着的优越性。我们框架中游戏状态的熵变化可以实现可解释的决策,这也可以用于分析推理游戏的吸引力并为游戏设计者提供见解。

实践中的人工智能安全:增强多模态图像描述中的对抗鲁棒性

分类: 计算机视觉和模式识别, 人工智能, 音频和语音处理, I.2.7

作者: Maisha Binte Rashid, Pablo Rivas

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21174v1

摘要: 结合视觉和文本数据的多模态机器学习模型越来越多地部署在关键应用程序中,由于它们容易受到对抗性攻击,因此引发了重大的安全问题。本文提出了一种有效的策略来增强多模态图像字幕模型针对此类攻击的鲁棒性。通过利用快速梯度符号方法 (FGSM) 生成对抗性示例并结合对抗性训练技术,我们在两个基准数据集:Flickr8k 和 COCO 上展示了改进的模型鲁棒性。我们的研究结果表明,仅选择性地训练多模式架构的文本解码器显示出与完全对抗性训练相当的性能,同时提供了更高的计算效率。这种有针对性的方法建议在鲁棒性和培训成本之间取得平衡,促进多模式人工智能系统在各个领域的道德部署。

将选择评估扩展到选择函数:计算自然扩展的算法

分类: 人工智能, 可能性, 68T37, 60A99

作者: Arne Decadt, Alexander Erreygers, Jasper De Bock

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21164v1

摘要: 我们研究如何使用选择函数框架从先前的选择中推断出新的选择,这是一个基于偏好顺序集的决策的统一数学框架。特别是,只要有可能,我们就将给定选择评估的自然(最保守)扩展定义为连贯的选择函数,并使用这种自然扩展做出新的选择。我们提供了计算这种自然扩展的实用算法以及提高可扩展性的各种方法。最后,我们针对不同类型的选择评估测试这些算法。

ThinK:通过查询驱动修剪来精简密钥缓存

分类: 计算和语言, 人工智能

作者: Yuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21018v1

摘要: 大型语言模型 (LLM) 彻底改变了自然语言处理领域,通过利用增加的模型大小和序列长度,在各种应用程序中实现了前所未有的性能。然而,计算和内存成本的相关增加带来了重大挑战,特别是由于变压器注意力机制的二次复杂性,在管理长序列方面。本文重点关注长上下文场景,解决推理过程中 KV 缓存内存消耗低效的问题。与基于序列长度优化内存的现有方法不同,我们发现 KV 缓存的通道维度表现出显着的冗余,其特征是不平衡的幅度分布和注意力权重的低秩结构。基于这些观察,我们提出了 ThinK,一种新颖的依赖于查询的 KV 缓存修剪方法,旨在最大限度地减少注意力权重损失,同时选择性地修剪最不重要的通道。与普通的 KV 缓存驱逐方法相比,我们的方法不仅保持或增强了模型准确性,而且还实现了内存成本降低 20% 以上。对各种长序列数据集的 LLaMA3 和 Mistral 模型的广泛评估证实了 ThinK 的功效,为高效 LLM 部署而不影响性能奠定了新的先例。我们还概述了将我们的方法扩展到价值缓存修剪的潜力,展示了 ThinK 在减少内存和计算开销方面的多功能性和广泛适用性。

CLEFT:具有高效大型语言模型和快速微调的语言图像对比学习

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Yuexi Du, Brian Chang, Nicha C. Dvornek

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21011v1

摘要: 对比语言图像预训练(CLIP)的最新进展已经证明在跨各种任务的自我监督表示学习方面取得了显着的成功。然而,由于模型和数据集相当大,现有的类似 CLIP 的方法通常需要大量的 GPU 资源和较长的训练时间,这使得它们不适合医疗应用,因为在医疗应用中大型数据集并不总是常见。同时,语言模型提示主要是从与图像相关的标签手动得出的,可能忽略了训练样本中信息的丰富性。我们引入了一种新颖的语言图像对比学习方法,该方法具有高效的大型语言模型和提示微调(CLEFT),该方法利用了广泛的预训练语言和视觉模型的优势。此外,我们提出了一种有效的策略来学习基于上下文的提示,以缩小信息丰富的临床诊断数据和简单类别标签之间的差距。与各种基线相比,我们的方法在多个胸部 X 射线和乳房 X 线摄影数据集上展示了最先进的性能。与当前的 BERT 编码器相比,所提出的参数高效框架可以将可训练模型的总大小减少 39%,并将可训练语言模型减少到仅 4%。

人工智能辅助生成数学难题

分类: 人工智能

作者: Vedant Shah, Dingli Yu, Kaifeng Lyu, Simon Park, Nan Rosemary Ke, Michael Mozer, Yoshua Bengio, Sanjeev Arora, Anirudh Goyal

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21009v1

摘要: 当前的大语言模型培训将数学推理定位为核心能力。随着公开资源的充分利用,对多样化和具有挑战性的数学问题的需求尚未得到满足。仅仅依靠人类专家既耗时又昂贵,而大语言模型生成的问题往往缺乏必要的多样性和难度。我们提出了一个设计框架,将大语言模型的优势与人机交互的方法相结合,以生成各种具有挑战性的数学问题。我们利用强大的大语言模型的元认知技能 [Didolkar et al., 2024] 从现有的数学数据集中提取核心“技能”。这些技能通过随机的核心技能对提示大语言模型,成为产生新颖且困难的问题的基础。每个问题中使用两种不同的技能使得寻找此类问题对于大语言模型和人类来说都是“分布外”的任务。我们的管道采用大语言模型通过多轮提示迭代生成和完善问题和解决方案。然后,人工注释者验证并进一步细化问题,并通过进一步的大语言模型互动提高效率。将此管道应用于从 MATH 数据集提取的技能 [Hendrycks et al., 2021] 得到了 MATH$^2$ - 更高质量数学问题的数据集,如下所示: (a) 所有模型在 MATH$ 上的性能较低^2$ 比数学 (b) 使用 MATH$^2$ 问题作为上下文示例时,数学成绩更高。尽管专注于数学,但我们的方法似乎适用于需要结构化推理的其他领域,并可能作为可扩展监督的组成部分。同样令人感兴趣的是在新数据集上观察到的模型性能之间的显着关系:MATH$^2$ 的成功率是 MATH$^2$ 的平方,这表明成功解决 MATH$^2$ 中的问题需要两个重要的组合独特的数学技能。

XHand:实时表情手部头像

分类: 计算机视觉和模式识别, 人工智能

作者: Qijun Gan, Zijie Zhou, Jianke Zhu

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21002v1

摘要: 手部头像在各种数字界面中发挥着关键作用,增强了用户的沉浸感并促进虚拟环境中的自然交互。虽然之前的研究主要集中在照片级真实感的手部渲染上,但很少关注以精细细节重建手部几何形状,而这对于渲染质量至关重要。在扩展现实和游戏领域,即时渲染变得势在必行。为此,我们推出了一种富有表现力的手部虚拟形象,名为XHand,旨在实时全面生成手部形状、外观和变形。为了获得细粒度的手部网格,我们利用三个特征嵌入模块分别预测手部变形位移、反照率和线性混合蒙皮权重。为了在细粒度网格上实现照片级真实感的手动渲染,我们的方法通过利用网格拓扑一致性和嵌入模块的潜在代码,采用基于网格的神经渲染器。在训练过程中,通过结合不同级别的正则化,提出了一种零件感知拉普拉斯平滑策略,以有效维护必要的细节并消除不需要的伪影。对 InterHand2.6M 和 DeepHandMesh 数据集的实验评估证明了 XHand 的功效,它能够实时恢复不同姿势的手动画的高保真几何和纹理。为了重现我们的结果,我们将在 https://github.com/agnJason/XHand 上公开提供完整的实现。

GABInsight:探索视觉语言模型中的性别活动绑定偏差

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Ali Abdollahi, Mahdi Ghaznavi, Mohammad Reza Karimi Nejad, Arash Mari Oriyad, Reza Abbasi, Ali Salesi, Melika Behjati, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.21001v1

摘要: 视觉语言模型(VLM)广泛用于许多下游任务,包括那些需要评估图像中出现的个体的任务。虽然 VLM 在简单的单人场景中表现良好,但在实际应用中,我们经常面临不同性别的人从事不同活动的复杂情况。我们表明,在这种情况下,VLM 倾向于将具有预期性别的个体(根据模型中根深蒂固的性别刻板印象或其他形式的样本选择偏差)识别为活动的执行者。我们将这种将活动与图像或文本中实际执行者的性别相关联的偏见称为性别活动绑定(GAB)偏见,并分析这种偏见如何在 VLM 中内化。为了评估这种偏差,我们引入了 GAB 数据集,其中包含大约 5500 个 AI 生成的图像,这些图像代表各种活动,解决了某些场景下现实世界图像的稀缺问题。为了进行广泛的质量控制,需要评估生成的图像的多样性、质量和真实度。我们在文本到图像和图像到文本检索的背景下在此数据集上测试了 12 个著名的预训练 VLM,以衡量这种偏差对其预测的影响。此外,我们还进行了补充实验来量化 VLM 文本编码器中的偏差并评估 VLM 识别活动的能力。我们的实验表明,当面临性别活动绑定偏见时,VLM 的平均性能下降约 13.2%。

MoFO:动量过滤优化器,用于减少 LLM 微调中的遗忘

分类: 机器学习, 人工智能

作者: Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20999v1

摘要: 最近,大型语言模型(LLM)在广泛的任务中表现出了卓越的能力。通常,大语言模型会在大型语料库上进行预训练,然后在特定于任务的数据集上进行微调。然而,在微调过程中,大语言模型可能会忘记预训练阶段获得的知识,导致综合能力下降。为了解决这个问题,我们提出了一种新的微调算法,称为动量过滤优化器(MoFO)。 MoFO 的关键思想是迭代选择和更新动量最大的模型参数。与全参数训练相比,MoFO 实现了类似的微调性能,同时使参数更接近预训练模型,从而减少知识遗忘。与大多数现有的遗忘缓解方法不同,MoFO 结合了以下两个优点。首先,MoFO 不需要访问预训练数据。这使得 MoFO 特别适合预训练数据不可用的微调场景,例如微调仅检查点的开源 LLM。其次,MoFO 不会改变原始损失函数。这可以避免损害微调任务的模型性能。我们通过严格的收敛分析和广泛的实验来验证 MoFO,证明其在减少遗忘和增强微调性能方面优于现有方法。

使用 LLM 和 RAG 从特征重要性到自然语言解释

分类: 人工智能, 计算和语言, 计算机视觉和模式识别, 人机交互, 机器学习

作者: Sule Tekkesinoglu, Lars Kunze

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20990v1

摘要: 随着机器学习越来越成为涉及人类交互的自主决策过程不可或缺的一部分,通过对话方式理解模型输出的必要性也随之增加。最近,人们正在探索基础模型作为事后解释器的潜力,为阐明预测模型的决策机制提供了一条途径。在这项工作中,我们引入了可追踪的问答,利用外部知识库来通知大型语言模型(LLM)对场景理解任务中的用户查询的响应。该知识库包含有关模型输出的上下文详细信息,其中包含高级特征、特征重要性和替代概率。我们采用减法反事实推理来计算特征重要性,这种方法需要分析分解语义特征所产生的输出变化。此外,为了保持无缝的对话流程,我们将从人类解释的社会科学研究中提取的四个关键特征——社会性、因果性、选择性和对比性——整合到单次提示中,指导响应生成过程。我们的评估表明,大语言模型生成的解释包含了这些要素,表明其有可能弥合复杂模型输出和自然语言表达之间的差距。

用于基于边缘的物联网网络中语义通信的大型语言模型 (LLM)

分类: 网络和互联网架构, 人工智能

作者: Alakesh Kalita

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20970v1

摘要: 随着第五代(5G)和第六代(6G)通信技术以及物联网(IoT)的出现,语义通信越来越受到研究人员的关注,因为当前的通信技术已接近香农的极限。另一方面,大型语言模型(LLM)可以基于对具有数十亿参数的不同数据集的广泛训练来理解和生成类似人类的文本。考虑到最近的近源计算技术(例如 Edge),在本文中,我们概述了一个框架及其模块,其中 LLM 可以在网络边缘的语义通信的保护下使用,以实现物联网网络中的高效通信。最后,我们讨论了一些应用并分析了开发此类系统的挑战和机遇。

一种有效的持续学习动态梯度校准方法

分类: 机器学习, 人工智能

作者: Weichen Lin, Jiaxiang Chen, Ruomin Huang, Hu Ding

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20956v1

摘要: 持续学习(CL)是机器学习中的一个基本主题,其目标是使用持续传入的数据和任务来训练模型。由于内存限制,我们无法存储所有历史数据,因此面临“灾难性遗忘”问题,即由于后期信息缺失,之前任务的性能会大幅下降。尽管已经提出了许多优雅的方法,但在实践中仍然无法很好地避免灾难性遗忘现象。在本文中,我们从梯度的角度研究该问题,我们的目标是开发一种有效的算法来校准模型每个更新步骤中的梯度;也就是说,我们的目标是在大量历史数据不可用的情况下引导模型向正确的方向更新。我们的想法部分受到开创性随机方差减少方法(例如 SVRG 和 SAGA)的启发,用于减少随机梯度下降算法中梯度估计的方差。另一个好处是我们的方法可以用作通用工具,能够与几种现有的流行 CL 方法相结合以实现更好的性能。我们还对几个基准数据集进行了一组实验,以评估实践中的性能。

通过两阶段解耦和功能表示生成情感驱动的钢琴音乐

分类: 声音, 人工智能, 音频和语音处理

作者: Jingyue Huang, Ke Chen, Yi-Hsuan Yang

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20955v1

摘要: 管理情感方面仍然是自动音乐生成中的一个挑战。之前的工作旨在同时学习各种情绪,导致建模不充分。本文通过两阶段框架探讨了钢琴演奏生成中情感的解离。第一阶段侧重于铅表的价态建模,第二阶段通过引入性能级别属性来解决唤醒建模。为了进一步捕捉塑造效价的特征,这是以前的方法较少探索的一个方面,我们引入了一种新颖的符号音乐的功能表示。这种表示旨在捕捉大调-小调的情感影响,以及音符、和弦和调号之间的相互作用。客观和主观实验验证了我们的框架在情绪效价和唤醒建模方面的有效性。我们进一步利用我们的框架在情感控制的新颖应用中,显示出情感驱动的音乐生成的广泛潜力。

人工智能数据密集型系统开发中人权影响评估(HRIA)的循证方法

分类: 人工智能

作者: Alessandro Mantelero, Maria Samantha Esposito

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20951v1

摘要: 为了应对人工智能(AI)的挑战,人们采取了不同的方法,有的以个人数据为中心,有的则以道德为中心,分别缩小和扩大了人工智能的监管范围。本文旨在证明第三种方式是可能的,首先承认人权在规范数据密集型系统的影响方面可以发挥的作用。对人权的关注既不是范式转变,也不是单纯的理论实践。通过对六个国家数据保护当局的 700 多项决定和文件的分析,我们表明人权已经成为数据使用领域决策的基础。基于对这些证据的实证分析,这项工作提出了人权影响评估(HRIA)的方法和模型。该方法和相关评估模型侧重于人工智能应用,其性质和规模需要 HRIA 方法的适当背景化。此外,所提出的模型提供了一种更可衡量的风险评估方法,这与以风险阈值为中心的监管建议是一致的。所提出的方法通过具体案例研究进行测试,证明其可行性和有效性。总体目标是响应人们对 HRIA 日益增长的兴趣,从单纯的理论辩论转向基于人工智能的数据密集型应用领域的具体和具体实施。

不完整查询的完整近似

分类: 数据库, 人工智能

作者: Julien Corman, Werner Nutt, Ognjen Savković

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20932v1

摘要: 本文研究了部分完整数据库上的联合查询的完整性以及不完整查询的近似。给定一个查询和一组指定数据库的哪些部分是完整的完整性规则(一种特殊的元组生成依赖关系),我们研究是否可以完全回答该查询,就好像所有数据都可用一样。如果没有,我们将探索将查询重新表述为可以完全回答的最大完全专业化(MCS)或(唯一到等价)最小完全泛化(MCG),即从下面或上面查询的最佳完整近似从查询包含的意义上来说。我们证明 MSG 可以表征为前序中单调算子的最小不动点。然后,我们证明 MCS 可以通过完整性规则的递归向后应用来计算。我们研究了这两个问题的复杂性,并讨论了分别依赖于 ASP 和 Prolog 引擎的实现技术。

认知空间中修正算子和收缩算子的可实现性

分类: 人工智能, 03B42, I.2.4

作者: Kai Sauerwald, Matthias Thimm

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20918v1

摘要: 本文研究认知空间中信念修正和信念收缩算子的可实现性。我们观察到,认知空间的 AGM 修订和 AGM 收缩算子只能在精确确定的认知空间中实现。我们定义了一类线性变化算子,一种特殊的最大选择算子。当年度股东大会修订、年度股东大会收缩可以实现时,线性变化算子就是典型的实现。

如何选择强化学习算法

分类: 机器学习, 人工智能, 计算机视觉和模式识别, 机器学习, 62M45, I.2.8; I.2.6; I.5.1

作者: Fabian Bongratz, Vladimir Golkov, Lukas Mautner, Luca Della Libera, Frederik Heetmeyer, Felix Czaja, Julian Rodemann, Daniel Cremers

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20917v1

摘要: 强化学习领域提供了多种概念和方法来解决顺序决策问题。这种多样性已经变得如此之大,以至于为手头的任务选择算法可能具有挑战性。在这项工作中,我们简化了选择强化学习算法和动作分布系列的过程。我们提供了现有方法及其属性的结构化概述,以及何时选择哪些方法的指南。这些指南的交互式版本可在线获取:https://rl-picker.github.io/。

基于大语言模型的自动评论生成方法

分类: 计算和语言, 人工智能, 数据分析、统计和概率

作者: Shican Wu, Xiao Ma, Dehui Luo, Lulu Li, Xiangcheng Shi, Xin Chang, Xiaoyun Lin, Ran Luo, Chunlei Pei, Zhi-Jian Zhao, Jinlong Gong

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20906v1

摘要: 文献研究对于科学进步至关重要,但却被浩瀚的可用信息所淹没。为了解决这个问题,我们提出了一种基于大型语言模型(LLM)的自动评论生成方法,以简化文献处理并减少认知负荷。在丙烷脱氢 (PDH) 催化剂的案例研究中,我们的方法快速生成了 343 篇文章的综合评论,平均每个大语言模型帐户每篇文章的秒数。对 1041 篇文章的扩展分析提供了对催化剂组成、结构和性能的深入见解。认识到大语言模型的幻觉,我们采用了多层质量控制策略,确保我们的方法的可靠性和有效的幻觉缓解。专家验证确认了生成的评论的准确性和引用完整性,证明 LLM 幻觉风险已降低至 0.5% 以下,置信度超过 95%。发布的 Windows 应用程序支持一键生成评论,帮助研究人员跟踪进展并推荐文献。这种方法展示了大语言模型在提高科学研究生产力方面的作用,并为进一步探索奠定了基础。

图像分类的忠实且合理的自然语言解释:管道方法

分类: 人工智能, 计算和语言

作者: Adam Wojciechowski, Mateusz Lango, Ondrej Dusek

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20899v1

摘要: 现有的图像分类解释方法很难提供忠实且合理的解释。本文通过提出一种事后自然语言解释方法来解决这个问题,该方法可以应用于任何基于 CNN 的分类器,而不改变其训练过程或影响预测性能。通过分析有影响的神经元和相应的激活图,该方法以结构化含义表示的形式生成分类器决策过程的忠实描述,然后通过语言模型将其转换为文本。通过这种管道方法,生成的解释基于神经网络架构,提供对分类过程的准确洞察,同时非专家也可以访问。实验结果表明,通过我们的方法构建的 NLE 明显更加合理和忠实。特别是,用户对神经网络结构的干预(神经元的掩蔽)比基线有效三倍。

MambaCapsule:利用 Mamba Capsule 网络通过心电图实现透明的心脏病诊断

分类: 机器学习, 人工智能, 信号处理

作者: Yinlong Xu, Xiaoqiang Liu, Zitai Kong, Yixuan Wu, Yue Wang, Yingzhou Lu, Honghao Gao, Jian Wu, Hongxia Xu

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20893v1

摘要: 心律失常是一种以心跳不规则为特征的疾病,通常是各种心脏病的早期征兆。随着深度学习的出现,许多创新模型被引入,用于使用心电图 (ECG) 信号诊断心律失常。然而,最近的研究仅关注模型的性能,而忽略了对其结果的解释。这导致相当缺乏透明度,在实际诊断过程中带来重大风险。为了解决这个问题,本文引入了 MambaCapsule,一种用于心电图心律失常分类的深度神经网络,在提高准确性的同时增加了模型的可解释性。我们的模型利用 Mamba 进行特征提取,利用 Capsule 网络进行预测,不仅提供置信度得分还有信号功能。类似于人脑的处理机制,该模型通过重建预测选择中的心电信号来学习信号特征及其之间的关系。模型评估是在 MIT-BIH 和 PTB 数据集上进行的,遵循 AAMI 标准。 MambaCapsule 在测试集上的总准确率分别达到 99.54% 和 99.59%。这些结果证明了在标准测试协议下的良好性能。

贝叶斯低阶学习(Bella):贝叶斯神经网络的实用方法

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Bao Gia Doan, Afshar Shamsi, Xiao-Yu Guo, Arash Mohammadi, Hamid Alinejad-Rokny, Dino Sejdinovic, Damith C. Ranasinghe, Ehsan Abbasnejad

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20891v1

摘要: 贝叶斯学习的计算复杂性阻碍了其在实际的大规模任务中的采用。尽管与非贝叶斯对应物相比,它们具有显着的优点,例如改进的鲁棒性和对看不见的或分布外输入的恢复力,但它们的实际用途已变得几乎微不足道。在这项研究中,我们引入了一种创新框架来减轻贝叶斯神经网络(BNN)的计算负担。我们的方法遵循基于深度集成的贝叶斯技术的原理,但通过预先训练的神经网络产生的参数的多个低阶扰动显着降低了其成本。普通版本的集成以及更复杂的方案,例如使用 Stein 变分梯度下降 (SVGD) 的贝叶斯学习(以前被认为对于大型模型来说不切实际),都可以在所提出的框架内无缝实现,称为贝叶斯低阶学习 (Bella)。简而言之,i) Bella 大幅减少了近似贝叶斯后验所需的可训练参数的数量; ii) 它不仅保持了传统贝叶斯学习方法和非贝叶斯基线的性能,而且在某些情况下超越了传统贝叶斯学习方法和非贝叶斯基线的性能。我们在 ImageNet、CAMELYON17、DomainNet、VQA with CLIP、LLaVA 等大规模任务上的结果证明了 Bella 在为实际应用构建高度可扩展且实用的贝叶斯深度模型方面的有效性和多功能性。

情感分析分类网络的有效黑盒测试

分类: 计算和语言, 人工智能, 软件工程

作者: Parsa Karbasizadeh, Fathiyeh Faghih, Pouria Golshanrad

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20884v1

摘要: 基于 Transformer 的神经网络在情感分析等自然语言处理任务中表现出了卓越的性能。然而,通过全面测试确保这些复杂架构的可靠性的问题仍然悬而未决。本文提出了一系列专门用于评估为基于变压器的情绪分析网络创建的测试套件的覆盖标准。我们的方法通过考虑动词、形容词、副词和名词等情感相关的语言特征,利用输入空间划分(一种黑盒方法)。为了有效地生成包含广泛情感元素的测试用例,我们利用 k 投影覆盖率度量。该指标通过同时检查 k 个特征的子集,从而降低维度,从而最大限度地降低问题的复杂性。采用大型语言模型来生成显示特定情感特征组合的句子。从情感分析数据集获得的实验结果表明,我们的标准和生成的测试使测试覆盖率平均增加了 16%。此外,模型准确率也相应平均下降了6.5%,显示了识别漏洞的能力。我们的工作为通过全面的测试评估提高基于变压器的情感分析系统的可靠性奠定了基础。

使用知识图和机器学习分析人类基因组变异的可扩展工具

分类: 人工智能

作者: Shivika Prasanna, Ajay Kumar, Deepthi Rao, Eduardo Simoes, Praveen Rao

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20879v1

摘要: 知识图谱和图机器学习 (GML) 在基因组数据分析中的集成为理解复杂的遗传关系(尤其是在 RNA 水平)提供了多种机会。我们提出了一种利用这些技术分析基因组变异的综合方法,特别是在来自 COVID-19 患者样本的 RNA 测序 (RNA-seq) 数据的背景下。所提出的方法包括提取变体级别的遗传信息,使用 SnpEff 使用附加元数据注释数据,以及将丰富的变体调用格式 (VCF) 文件转换为资源描述框架 (RDF) 三元组。由此产生的知识图谱通过患者元数据得到进一步增强,并存储在图数据库中,从而促进高效的查询和索引。我们利用深度图库(DGL)来执行图机器学习任务,包括使用 GraphSAGE 和图卷积网络(GCN)进行节点分类。我们的方法展示了使用我们提出的工具 VariantKG 在三个关键场景中的显着实用性:使用新的 VCF 数据丰富图、基于用户定义的特征创建子图以及进行节点分类的图机器学习。

通过销售学习:为大型语言模型配备产品知识以实现上下文驱动的推荐

分类: 信息检索, 人工智能

作者: Sarthak Anand, Yutong Jiang, Giorgi Kokaia

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20856v1

摘要: 大语言模型 (LLM) 的快速发展为上下文驱动的产品推荐等应用开辟了新的可能性。然而,这些模型在这种情况下的有效性在很大程度上依赖于它们对产品库存的全面理解。本文提出了一种新颖的方法,通过训练大语言模型对包含产品 ID 的综合搜索查询进行上下文响应,为他们提供产品知识。我们深入研究了这种方法的广泛分析,评估其有效性,概述其优点,并强调其局限性。本文还讨论了这种方法的潜在改进和未来方向,让人们全面了解大语言模型在产品推荐中的作用。

联合知识回收:保护隐私的综合数据共享

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Eugenio Lomurno, Matteo Matteucci

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20830v1

摘要: 联邦学习已成为协作学习的范例,无需集中敏感数据即可开发稳健的模型。然而,传统的联邦学习技术由于模型、参数或更新的暴露而存在隐私和安全漏洞,可能被用作攻击面。本文提出了联合知识回收(FedKR),这是一种跨孤岛的联合学习方法,它使用本地生成的合成数据来促进机构之间的协作。 FedKR 将先进的数据生成技术与动态聚合过程相结合,提供比现有方法更高的隐私攻击安全性,从而显着减少攻击面。在通用数据集和医疗数据集上的实验结果表明,FedKR 取得了有竞争力的性能,与本地数据训练模型相比,准确率平均提高了 4.24%,在数据稀缺场景下表现出特别的有效性。

如何衡量大型语言模型的智能程度?

分类: 人工智能, 机器学习

作者: Nils Körber, Silvan Wehrli, Christopher Irrgang

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20828v1

摘要: 随着 ChatGPT 和其他大型语言模型 (LLM) 的发布,有关当前和未来模型的智能、可能性和风险的讨论受到了广泛关注。这次讨论包括关于所谓的“超人类”人工智能即将崛起的备受争议的场景,即比人类聪明几个数量级的人工智能系统。本着阿兰·图灵的精神,毫无疑问当前最先进的语言模型已经通过了他著名的测试。此外,当前的模型在多项基准测试中都优于人类,因此公开的大语言模型已经成为连接日常生活、工业和科学的多才多艺的伴侣。尽管大语言模型拥有令人印象深刻的能力,但他们有时会完全失败,无法完成那些被认为对人类来说微不足道的任务。在其他情况下,大语言模型的可信度变得更加难以捉摸且难以评估。以学术界为例,语言模型只需很少的输入就能就给定主题撰写令人信服的研究文章。然而,人工智能生成的文本体在事实一致性方面缺乏可信度或存在持续的幻觉,导致许多科学期刊中基于人工智能的内容受到一系列限制。鉴于这些观察结果,出现了这样的问题:适用于人类智能的相同指标是否也可以应用于计算方法,并且已经被广泛讨论。事实上,指标的选择已经被证明可以极大地影响对潜在情报出现的评估。在这里,我们认为大语言模型的智力不仅应该通过特定任务的统计指标来评估,还应该分别从定性和定量的角度进行评估。

为一阶逻辑的可判定片段添加边界:复杂性过山车

分类: 人工智能

作者: Carsten Lutz, Quentin Manière

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20822v1

摘要: 我们研究带有限制的一阶逻辑的表达性可判定片段的扩展,特别是二变量片段 FO$^2$、其带有计数量词的扩展 C$^2$ 以及受保护的片段 GF。我们证明,如果在限制期间仅最小化(或固定)一元谓词,则保留逻辑结果的可判定性。对于 FO$^2$,复杂度从 $\textrm{coNexp}$ 增加到 $\textrm{coNExp}^\textrm{NP}$-complete,对于 GF,它(非常明显!)从 $\textrm{2Exp}$ 增加到 $\textrm{Tower}$ 完成,并且对于 C$^2$ ,复杂性仍然存在。我们还考虑查询本体为 GF 句子的外接知识库,表明该问题对于联合查询的联合是可判定的,在组合复杂度上是 $\textrm{Tower}$-complete ,在数据复杂度上是基本的。然而,原子查询和本体已经是受保护的存在规则集,对于每个 $k \geq 0$ 来说,都有一个本体和查询,其数据复杂性是 $k$-$\textrm{Exp}$-困难。

ARCLE:强化学习的抽象和推理语料库学习环境

分类: 人工智能, 机器学习

作者: Hosung Lee, Sejin Kim, Seungpil Lee, Sanha Hwang, Jihwan Lee, Byung-Jun Lee, Sundong Kim

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20806v1

摘要: 本文介绍了 ARCLE,这是一个旨在促进抽象与推理语料库 (ARC) 强化学习研究的环境。通过强化学习解决这一归纳推理基准提出了这些挑战:巨大的行动空间、难以实现的目标以及各种各样的任务。我们证明具有近端策略优化的代理可以通过 ARCLE 学习单个任务。采用非因子策略和辅助损失可以提高绩效,有效缓解与行动空间和目标实现相关的问题。基于这些见解,我们提出了使用 ARCLE 的几个研究方向和动机,包括 MAML、GFlowNets 和世界模型。

扩散增强代理:高效探索和迁移学习的框架

分类: 机器学习, 人工智能, 机器人技术

作者: Norman Di Palo, Leonard Hasenclever, Jan Humplik, Arunkumar Byravan

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20798v1

摘要: 我们引入了扩散增强代理(DAAG),这是一种新颖的框架,它利用大型语言模型、视觉语言模型和扩散模型来提高实体代理强化学习中的样本效率和迁移学习。 DAAG 事后诸葛亮通过使用扩散模型以时间和几何上一致的方式转换视频,从而通过我们称为事后诸葛亮体验增强的技术与目标指令保持一致,从而重新标记智能体过去的经验。大型语言模型可以在不需要人工监督的情况下协调这个自主过程,使其非常适合终身学习场景。该框架减少了 1) 微调充当奖励检测器的视觉语言模型,以及 2) 训练 RL 代理执行新任务所需的奖励标记数据量。我们展示了 DAAG 在涉及操纵和导航的模拟机器人环境中的样本效率增益。我们的结果表明,DAAG 改善了奖励检测器的学习、迁移过去的经验并获取新任务——开发高效的终身学习代理的关键能力。补充材料和可视化可在我们的网站 https://sites.google.com/view/diffusion-augmented-agents/ 上找到

新手程序员在解决入门课程中的编程练习时如何使用和体验 ChatGPT

分类: 人工智能

作者: Andreas Scholl, Natalie Kiesler

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20792v1

摘要: 这篇研究论文有助于计算教育研究界在入门编程的背景下理解生成式人工智能 (GenAI),特别是学生如何利用相关工具,例如 ChatGPT。对于教育工作者和高等教育机构来说,加强对学生使用情况的了解是强制性的,因为 GenAI 将继续存在,并且其性能可能在不久的将来迅速提高。了解学生的使用模式不仅对于支持他们的学习至关重要,而且对于制定适当的教学和评估形式也至关重要。随着人工智能的快速发展、其广泛的可用性以及在教育环境中无处不在,详细阐述人工智能如何增强学习体验,特别是在入门编程等课程中非常重要。迄今为止,大多数研究都集中在教育者对 GenAI 的看法、其性能、特征和局限性。然而,学生的观点以及他们如何在课程中实际使用 GenAI 工具尚未得到大量研究。因此,本研究以以下研究问题为指导:(1)学生在入门编程练习中报告他们的 ChatGPT 使用模式是什么? (2) 学生在入门编程练习中如何看待 ChatGPT?为了解决这些问题,德国一所大型大学的计算机系学生被要求在 ChatGPT 的帮助下解决编程任务,作为其编程入门课程的一部分。学生 (n=298) 提供了有关 ChatGPT 使用的信息,以及通过在线调查对该工具的评估。这项研究对新手程序员在高等教育环境中的应用进行了综合评估……

注意超参数优化带来的过度拟合!

分类: 机器学习, 人工智能

作者: Igor V. Tetko, Ruud van Deursen, Guillaume Godin

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20786v1

摘要: 超参数优化在机器学习中经常使用。然而,大量参数的优化可能会导致模型过度拟合。在最近关于溶解度预测的研究中,作者从不同的数据源收集了七个热力学和动力学溶解度数据集。他们使用最先进的基于图的方法,并使用不同的数据清理协议和超参数优化来比较为每个数据集开发的模型。在我们的研究中,我们表明超参数优化并不总是能产生更好的模型,这可能是由于使用相同的统计度量时过度拟合所致。使用预设的超参数可以计算出类似的结果,从而将计算量减少约 10,000 倍。我们还扩展了之前的分析,添加了一种基于微笑自然语言处理的表示学习方法,称为 Transformer CNN。我们表明,在使用完全相同的协议的所有分析集中,Transformer CNN 在 28 次成对比较中的 26 次中提供了比基于图的方法更好的结果,与其他方法相比,仅使用了极小的时间。最后但并非最不重要的一点是,我们强调了使用完全相同的统计指标来比较计算结果的重要性。

通过基于特征的指导和多样性管理增强元启发式解决能力车辆路径问题

分类: 人工智能, 离散数学

作者: Bachtiar Herdianto, Romain Billot, Flavien Lucas, Marc Sevaux

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20777v1

摘要: 我们提出了一种基于特征的指导增强的元启发式算法,旨在解决容量车辆路径问题(CVRP)。为了制定建议的指导,我们开发并解释了一个有监督的机器学习(ML)模型,该模型用于在优化过程中制定指导并控制解决方案的多样性。我们提出了一种结合邻域搜索和混合分割和路径重新链接的新颖机制的元启发式算法来实现所提出的指导。事实证明,在求解 CVRP 时,所提出的指导可以为所提出的元启发式算法提供统计上显着的改进。此外,所提出的引导元启发式算法还能够在最先进的元启发式算法中产生有竞争力的解决方案。

用于心脏时间序列数据的可解释的预训练变压器

分类: 机器学习, 人工智能, 信号处理

作者: Harry J. Davies, James Monsen, Danilo P. Mandic

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20775v1

摘要: 仅解码器 Transformer 是流行的生成式预训练 Transformer (GPT) 系列大型语言模型的支柱。在这项工作中,我们将相同的框架应用于周期性心脏时间序列数据,以创建两个预训练的通用心脏模型,即 PPG-PT 和 ECG-PT。我们证明这两种预训练模型都是完全可解释的。这首先是通过聚合注意力图来实现的,该图表明模型关注先前心动周期中的相似点以进行预测,并逐渐将其注意力扩展到更深层次。接下来,在 ECG 和 PPG 周期中不同的不同点出现的具有相同值的令牌,在通过变压器块传播时,根据其相位在高维空间中形成单独的簇。最后,我们强调个体注意力头会对特定的生理相关特征做出反应,例如 PPG 中的重搏切迹和 ECG 中的 P 波。研究还表明,这些预训练模型可以轻松地针对心房颤动分类等任务进行微调。在这个具体示例中,微调需要 11 分钟的计算机时间,ECG 和 PPG 的留一受试者 AUC 分别为 0.99 和 0.93。重要的是,这些经过微调的模型也是完全可以解释的,将注意力转移到强烈指示心房颤动的区域。

OmniBal:通过 Omniverse 计算平衡实现视觉语言模型的快速指令调整

分类: 人工智能

作者: Yongqiang Yao, Jingru Tan, Jiahao Hu, Feizhao Zhang, Xin Jin, Bo Li, Ruihao Gong, Pengfei Liu

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20761v1

摘要: 最近,视觉语言指令调整模型由于对世界有了更全面的理解而取得了重大进展。在这项工作中,我们发现对这些模型进行大规模 3D 并行训练会导致不同设备之间的计算负载不平衡。视觉和语言部分本质上是异构的:它们的数据分布和模型架构差异很大,这影响了分布式训练的效率。我们从数据、模型和内存的角度重新平衡计算负载来解决这个问题,实现跨设备的更平衡的计算。这三个部分并不是独立的,而是紧密相连的,形成了一个全方位均衡的训练框架。具体来说,对于数据,我们将实例分组为设备内和跨设备的新平衡小批量。对于模型,我们采用基于搜索的方法来实现更平衡的划分。对于内存优化,我们自适应地调整了每个分区的重新计算策略,以充分利用可用内存。我们进行了大量的实验来验证我们方法的有效性。与 InternVL-Chat 的开源训练代码相比,我们显着减少了 GPU 天数,实现了约 1.8 倍的加速。我们的方法的有效性和普遍性在各种模型和数据集中得到了进一步证明。代码将在 https://github.com/ModelTC/OmniBal 发布。

用于查询不一致加权知识库的基于成本的语义

分类: 计算机科学中的逻辑, 人工智能, 数据库

作者: Meghyn Bienvenu, Camille Bourgaux, Robin Jean

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20754v1

摘要: 在本文中,我们探索了一种查询不一致描述逻辑知识库的定量方法。我们考虑加权知识库,其中公理和断言都具有(可能是无限的)权重,这些权重用于根据每个解释所违反的公理和断言为其分配成本。确定的和可能的答案的两个概念是通过考虑成本不超过给定界限的解释或限制对最优成本解释的关注来定义的。我们的主要贡献是对有界成本可满足性和某些可能的答案识别的组合和数据复杂性进行全面分析,用于 ELbot 和 ALCO 之间的描述逻辑。

使用随机测量和可变子采样进行异常检测的高效量子一级支持向量机

分类: 机器学习, 人工智能, 量子物理学

作者: Michael Kölle, Afrae Ahouzi, Pascal Debus, Elif Çetiner, Robert Müller, Daniëlle Schuman, Claudia Linnhoff-Popien

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20753v1

摘要: 量子一级支持向量机利用量子核方法的优势进行半监督异常检测。然而,它们相对于数据大小的二次时间复杂度在处理大型数据集时提出了挑战。在最近的工作中,提出了量子随机测量内核和可变子采样,作为解决该问题的两种独立方法。前者实现了较高的平均精度,但存在方差,而后者实现了数据大小的线性复杂度并具有较低的方差。当前的工作重点是将这两种方法与旋转特征装袋结合起来,以实现数据大小和特征数量的线性时间复杂度。尽管不稳定,但生成的模型表现出相当高的性能以及更快的训练和测试时间。

JaColBERTv2.5:优化多向量检索器以在资源有限的情况下创建最先进的日本检索器

分类: 信息检索, 人工智能, 计算和语言

作者: Benjamin Clavié

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20750v1

摘要: 神经信息检索在高资源语言中进展迅速,但在日语等低资源语言中的进展却因数据稀缺等挑战而受到阻碍。因此,多语言模型在日语检索中占据主导地位,尽管它们的计算效率低下并且无法捕捉语言的细微差别。虽然最近的多向量单语言模型(如 JaColBERT)缩小了这一差距,但它们在大规模评估中仍然落后于多语言方法。这项工作解决了资源匮乏环境下多向量检索器的次优训练方法,重点关注日语。我们系统地评估和改进 JaColBERT 以及更广泛的多向量模型的推理和训练设置的关键方面。我们通过新颖的检查点合并步骤进一步提高性能,证明它是将微调的好处与原始检查点的泛化能力相结合的有效方法。基于我们的分析,我们引入了一种新颖的训练方法,从而产生了 JaColBERTv2.5 模型。 JaColBERTv2.5 仅具有 1.1 亿个参数,并在 4 个 A100 GPU 上训练了不到 15 个小时,在所有常见基准测试中显着优于所有现有方法,平均得分达到 0.754,显着高于之前的最佳成绩 0.720。为了支持未来的研究,我们公开了最终模型、中间检查点和所有使用的数据。

多智能体强化学习中变分量子电路的架构影响:优化的进化策略

分类: 量子物理学, 人工智能, 多代理系统

作者: Michael Kölle, Karola Schneider, Sabrina Egger, Felix Topp, Thomy Phan, Philipp Altmann, Jonas Nüßlein, Claudia Linnhoff-Popien

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20739v1

摘要: 近年来,多智能体强化学习(MARL)在自动驾驶、电信和全球健康等众多科学和工业领域得到了应用。然而,例如,MARL 面临着尺寸呈指数级增长的问题。量子力学的固有特性有助于克服这些限制,例如,通过显着减少可训练参数的数量。先前的研究开发了一种方法,使用无梯度量子强化学习和变分量子电路(VQC)的进化优化来减少可训练参数并避免贫瘠平台和梯度消失。与可训练参数数量相似的经典神经网络相比,VQC 的性能显着提高,并且与类似的良好神经网络相比,参数数量减少了 97% 以上。我们扩展了 K"olle 等人的方法,提出基于门、基于层和基于原型的概念来变异和重组 VQC。我们的结果显示仅突变策略和门的最佳性能特别是,在硬币游戏环境中进行评估时,我们观察到最佳代理的得分明显更高,总硬币数和自己收集的硬币数更高,并且自己的硬币率也更高。

通过自旋玻璃理论探索损失景观

分类: 无序系统和神经网络, 人工智能

作者: Hao Liao, Wei Zhang, Zhanyi Huang, Zexiao Long, Mingyang Zhou, Xiaoqun Wu, Rui Mao, Chi Ho Yeung

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20724v1

摘要: 在过去的十年中,深度学习的重大进步带来了许多突破性的应用。尽管取得了这些进步,但对深度学习的高度概括性的理解,尤其是在这样一个过度参数化的空间中,仍然有限。成功的应用通常被认为是经验成就而不是科学成就。例如,深度神经网络(DNN)的内部表示、决策机制、过度参数化空间中不存在过度拟合、高泛化性等仍然知之甚少。本文通过统计物理学中的自旋玻璃透镜(即以具有大量亚稳态的复杂能量景观为特征的系统)深入研究 DNN 的损耗情况,以更好地理解 DNN 的工作原理。我们研究了单隐藏层修正线性单元 (ReLU) 神经网络模型,并引入了几种协议来检查 DNN(使用 MNIST 和 CIFAR10 等数据集进行训练)和自旋玻璃之间的类比。具体来说,我们使用 (1) DNN 参数空间中的随机游走来揭示其损失景观中的结构; (2)排列插值协议,用于研究由于隐藏层中的排列对称性而导致的损失景观中相同区域的副本之间的联系; (3) 层次聚类揭示 DNN 训练解决方案之间的层次结构,让人想起所谓的复制对称破缺 (RSB) 现象(即 Parisi 解决方案),类似于旋转玻璃; (4) 最后,我们检查了 DNN 损失景观的崎岖程度与其泛化性之间的关系,显示出平坦最小值的改进。

Cocobo:探索大型语言模型作为最终用户机器人编程的引擎

分类: 人机交互, 人工智能

作者: Yate Ge, Yi Dai, Run Shan, Kechun Li, Yuanda Hu, Xiaohua Sun

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20712v1

摘要: 最终用户开发允许日常用户根据自己的需求定制服务机器人或应用程序。一种用户友好的方法是自然语言编程。然而,它遇到了用户表达空间广阔、调试和编辑支持有限等挑战,限制了其在最终用户编程中的应用。大语言模型(LLM)的出现为人类语言指令与机器人执行的代码之间的翻译和解释提供了有希望的途径,但它们在最终用户编程系统中的应用需要进一步研究。我们介绍 Cocobo,一种由大语言模型提供支持的带有交互式图表的自然语言编程系统。 Cocobo 利用大语言模型来理解用户的创作意图,生成和解释机器人程序,并促进可执行代码和流程图表示之间的转换。我们的用户研究表明,Cocobo 的学习曲线较低,即使是零编码经验的用户也能成功定制机器人程序。

用于高性能和节能目标检测的整数值训练和尖峰驱动推理尖峰神经网络

分类: 人工智能

作者: Xinhao Luo, Man Yao, Yuhong Chou, Bo Xu, Guoqi Li

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20708v1

摘要: 与人工神经网络 (ANN) 相比,受大脑启发的尖峰神经网络 (SNN) 具有生物合理性和低功耗优势。由于性能较差,SNN 的应用目前仅限于简单的分类任务。在这项工作中,我们专注于缩小 ANN 和 SNN 在对象检测方面的性能差距。我们的设计围绕网络架构和尖峰神经元。首先,过于复杂的模块设计导致YOLO系列转换为相应的尖峰版本时尖峰性能下降。我们设计了一个 SpikeYOLO 架构,通过简化普通 YOLO 并结合元 SNN 块来解决这个问题。其次,物体检测对尖峰神经元将膜电位转换为二元尖峰时的量化误差更加敏感。为了应对这一挑战,我们设计了一个新的尖峰神经元,它在训练期间激活整数值,同时通过在推理期间延长虚拟时间步来保持尖峰驱动。所提出的方法在静态和神经形态对象检测数据集上得到了验证。在静态 COCO 数据集上,我们获得了 66.2% mAP@50 和 48.9% mAP@50:95,分别比之前最先进的 SNN 高 15.0% 和 18.7%。在神经形态 Gen1 数据集上,我们实现了 67.2% mAP@50,比具有同等架构的 ANN 高出 2.5%,并且能量效率提高了 5.7。代码:https://github.com/BICLab/SpikeYOLO

PIP:联邦类增量学习的原型注入提示

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Muhammad Anwar Ma'sum, Mahardhika Pratama, Savitha Ramasamy, Lin Liu, Habibullah Habibullah, Ryszard Kowalczyk

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20705v1

摘要: 联邦类增量学习(FCIL)是持续学习(CL)的一个新方向,用于同时解决灾难性遗忘和非独立同分布数据分布问题。现有的 FCIL 方法需要较高的通信成本和以前课程的范例。我们提出了一种名为原型注入提示(PIP)的新型 FCIL 免排练方法,该方法涉及 3 个主要思想:a)提示学习中的原型注入,b)原型增强,以及 c)服务器端的加权高斯聚合。我们的实验结果表明,所提出的方法优于当前最先进的方法(SOTA),在 CIFAR100、MiniImageNet 和 TinyImageNet 数据集上有显着改进(高达 33%)。我们的广泛分析证明了 PIP 在不同任务规模中的稳健性,以及需要较小参与的本地客户和较小的全球轮次的优势。为了进一步研究,PIP、基线和实验日志的源代码在 https://github.com/anwarmaxsum/PIP 中公开共享。

通过因果技术语言处理进行工业级智能故障排除:概念证明

分类: 人工智能, 计算和语言, 机器学习, 方法

作者: Alexandre Trilla, Ossee Yiboe, Nenad Mijatovic, Jordi Vitrià

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20700v1

摘要: 本文描述了基于经验回报记录中表达的技术语言对工业环境进行故障排除的因果诊断方法的开发。所提出的方法利用大语言模型的分布式表示中包含的矢量化语言知识,以及工业资产的嵌入式故障模式和机制所带来的因果关联。本文介绍了该解决方案的基本但重要的概念,该解决方案被视为因果关系感知检索增强生成系统,并在现实世界的预测维护设置中通过实验说明了它们。最后,它讨论了所用因果技术成熟度的改进途径,以应对行业中日益复杂的场景的鲁棒性挑战。

通过关键语义感知线索增强视听问答

分类: 计算机视觉和模式识别, 人工智能, 多媒体

作者: Guangyao Li, Henghui Du, Di Hu

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20693v1

摘要: 视听问答(AVQA)任务旨在回答与视频中各种视觉对象、声音及其交互相关的问题。这种自然的多模态视频包含丰富而复杂的动态视听成分,其中只有一部分与给定的问题密切相关。因此,有效感知与给定问题相关的视听线索对于正确回答问题至关重要。在本文中,我们提出了一种时空感知模型(TSPM),旨在使模型能够感知与问题相关的关键视觉和听觉线索。具体来说,考虑到使用视觉语言预训练模型将非陈述性问题和视觉表示对齐到同一语义空间的挑战,我们构建了从问题模板派生的陈述性句子提示,以帮助时间感知模块更好地识别与的问题。随后,设计了一个空间感知模块,将选定片段中的视觉标记合并起来,以突出显示关键的潜在目标,然后与音频进行跨模式交互,以感知潜在的声音感知区域。最后,整合这些模块中的重要时空线索来回答问题。对多个 AVQA 基准的大量实验表明,我们的框架不仅在理解视听场景方面表现出色,而且在有效回答复杂问题方面也表现出色。代码可在 https://github.com/GeWu-Lab/TSPM 获取。

RevGNN:用于学术审稿人推荐的负采样增强对比图学习

分类: 信息检索, 人工智能

作者: Weibin Liao, Yifan Zhu, Yanyan Li, Qi Zhang, Zhonghong Ou, Xuesong Li

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20684v1

摘要: 获得学术提交的审稿人是一个具有挑战性的推荐场景。最近的图学习驱动模型在推荐领域取得了显着的进展,但它们在学术审稿人推荐任务中的表现可能会遇到严重的假阴性问题。这是因为假设未观察到的边缘代表负样本。事实上,匿名审稿机制导致审稿人和投稿之间的互动曝光不足,导致与审稿人拒绝参与造成的互动相比,未观察到的互动数量更高。因此,研究如何更好地理解学术审稿人建议中未观察到的相互作用的负面标签是一个重大挑战。本研究旨在解决学术审稿人建议中未观察到的相互作用的模糊性。具体来说,我们提出了一种无监督的伪负标签策略来增强图对比学习(GCL),以推荐学术提交的审稿人,我们称之为 RevGNN。 RevGNN 采用两级编码器结构,使用伪负标签对科学知识和行为进行编码,以近似评论偏好。对三个真实世界数据集的广泛实验表明,RevGNN 在四个指标上优于所有基线。此外,详细的进一步分析证实了 RevGNN 中每个组件的有效性。

用于多标签少样本方面类别检测的标签引导提示

分类: 计算和语言, 人工智能

作者: ChaoFeng Guan, YaoHui Zhu, Yu Bai, LingYun Wang

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20673v1

摘要: 多标签少镜头方面类别检测旨在从具有有限数量训练实例的句子中识别多个方面类别。句子和类别的表示是这项任务的关键问题。目前的大多数方法都是为句子表示和类别表示提取关键词。句子通常包含许多与类别无关的单词,这导致基于关键字的方法的性能不佳。我们提出了一种标签引导的提示方法来表示句子和类别,而不是直接提取关键词。具体来说,我们设计了特定于标签的提示,通过结合关键的上下文和语义信息来表示句子。进一步地,在提示中引入标签,利用大语言模型获取类别描述。这种类别描述包含了方面类别的特征,指导着判别类别原型的构建。在两个公共数据集上的实验结果表明,我们的方法优于当前最先进的方法,Macro-F1 分数提高了 3.86% - 4.75%。

使用物理神经网络计算量子系统谱的教程

分类: 量子物理学, 人工智能

作者: Lorenzo Brevi, Antonio Mandarino, Enrico Prati

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20669v1

摘要: 量子多体系统引起了许多研究领域的极大兴趣,包括物理学、生物学和化学。然而,由于希尔伯特空间随着系统尺寸的指数增长,他们的模拟极具挑战性,使得使用精确的方法参数化大型系统的波函​​数变得极其困难。一般来说,神经网络和机器学习是应对这一挑战的一种方法。例如,张量网络和神经量子态等方法正在被研究作为获得量子力学系统波函数的有前途的工具。在本教程中,我们重点关注一类特别有前途的深度学习算法。我们解释了如何构建一个物理信息神经网络 (PINN),能够通过查找其特征值和特征函数来求解给定势的薛定格方程。该技术是无监督的,并以以下方式利用一种新颖的计算方法: PINN 是一种利用自动微分以无网格方式求解积分微分方程的深度学习方法,我们展示了如何从基态和激发态开始逐步发现状态。我们解释了如何在损失中引入归纳偏差,以进一步利用物理系统的知识,从而可以通过明智地选择配置点来增强该技术。利用 PINN 的无网格性质,通过将它们应用于无限势阱和环中的粒子,使这些方法变得明确,由于存在复值,这是人工智能代理学习的一个具有挑战性的问题。本征函数和简并态。

模仿专家:社交媒体影响者基于代理的意见合成和情绪预测

分类: 人工智能

作者: Qinglan Wei, Ruiqi Xue, Yutian Wang, Hongjiang Xiao, Yuhao Wang, Xiaoyan Duan

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20668v1

摘要: 预测社交媒体上影响者的观点和公众情绪对于预测社会趋势和指导战略反应至关重要。本研究引入了一种新颖的计算框架来预测意见领袖的观点和民众的情绪反应,解决在线交流的非结构化、上下文敏感和异构性质所带来的固有挑战。我们的研究引入了一个创新模块,该模块从自动 5W1H(地点、人物、时间、内容、原因和方式)问题制定引擎开始,针对新兴新闻报道和热门话题量身定制。然后,我们在六个领域总共构建了 60 个匿名意见领袖代理,并基于增强型大语言模型 (LLM) 和检索增强生成 (RAG) 相结合实现了意见生成。随后,我们综合了意见领袖的潜在观点,并预测了对不同事件的情绪反应。我们的自动化 5W1H 模块的功效得到了 8.83/10 平均 GPT-4 分数的证实,表明高保真度。影响者代理表现出一致的表现,在各个评估指标中取得了 6.85/10 的平均 GPT-4 评级。以“俄罗斯-乌克兰战争”作为案例研究,我们的方法准确地预见了关键影响者的观点,并将情绪预测与各个领域的现实世界情绪趋势相结合。

重新思考 KAN 中神经元的功能

分类: 机器学习, 人工智能

作者: Mohammed Ghaith Altarabichi

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20667v1

摘要: 柯尔莫哥洛夫-阿诺德网络 (KAN) 的神经元在柯尔莫哥洛夫-阿诺德表示定理的推动下执行简单求和,该定理断言总和是唯一的基本多元函数。在这项工作中,我们研究了为 KAN 神经元识别替代​​多元函数的潜力,该函数可能会增加实用性。我们的实证研究涉及在一系列基准机器学习任务中测试 KAN 神经元中的各种多元函数。我们的研究结果表明,与传统 KAN 相比,用 KAN 神经元的平均函数代替总和可以显着提高性能。我们的研究表明,这种微小的修改通过将样条的输入限制在激活函数的有效范围内,有助于训练的稳定性。我们的实现和实验位于:\url{https://github.com/Ghaith81/dropkan}

可转移对抗攻击的即时驱动对比学习

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Hunmin Yang, Jongoh Jeong, Kuk-Jin Yoon

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20657v1

摘要: 最近的视觉语言基础模型(例如 CLIP)在学习表示方面表现出了卓越的能力,这些表示可以在各种下游任务和领域之间转移。随着如此强大模型的出现,有效利用它们的能力来解决具有挑战性的视觉任务变得至关重要。另一方面,只有少数作品专注于设计能够很好地迁移到未知领域和模型架构的对抗性示例。在本文中,我们提出了一种称为 PDCL-Attack 的新型转移攻击方法,该方法利用 CLIP 模型来增强基于生成模型的攻击框架生成的对抗性扰动的可转移性。具体来说,我们通过利用文本的语义表示能力,特别是来自输入图像的真实类别标签,制定有效的提示驱动的特征指导。据我们所知,我们是第一个引入即时学习来增强可转移生成攻击的人。在各种跨域和跨模型设置中进行的广泛实验从经验上验证了我们的方法,证明了其相对于最先进方法的优越性。

提示零样本分类的编码器模型:意大利语的跨域研究

分类: 计算和语言, 人工智能, 68T50, 68T07, I.2.7

作者: Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20654v1

摘要: 解决专业领域和资源匮乏的语言中注释数据有限的挑战对于有效使用语言模型(LM)至关重要。虽然大多数大型语言模型 (LLM) 都是在通用英语语料库上进行训练的,但专门为意大利语定制的模型存在显着差距,特别是针对技术和官僚术语。本文探讨了采用更小的、特定领域的编码器 LM 以及提示技术来增强这些专门环境中性能的可行性。我们的研究集中于意大利官僚和法律语言,尝试通用模型和进一步预训练的仅编码器模型。我们评估了下游任务(例如文档分类和实体类型)的模型,并使用伪对数似然进行了内在评估。结果表明,虽然进一步的预训练模型在一般知识方面可能表现出鲁棒性下降,但即使在零样本设置中,它们也表现出对特定领域任务的卓越适应性。此外,校准技术和域内语言器的应用显着增强了编码器模型的效率。事实证明,这些领域专用模型在领域内资源或专业知识稀缺的情况下特别有利。总之,我们的研究结果为在专业背景下使用意大利模式提供了新的见解,这可能对数字化转型时代的研究和工业应用产生重大影响。

FACL-攻击:可转移对抗攻击的频率感知对比学习

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Hunmin Yang, Jongoh Jeong, Kuk-Jin Yoon

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20653v1

摘要: 由于对抗样本固有的可转移性质,深度神经网络容易受到安全风险的影响。尽管最近基于生成模型的攻击的成功证明了强大的可转移性,但在现实世界严格的黑盒设置中设计有效的攻击策略仍然是一个挑战,其中目标域和模型架构都是未知的。在本文中,我们寻求探索频域中的特征对比方法,以生成在跨域和跨模型设置中都具有鲁棒性的对抗性示例。考虑到这一目标,我们提出了两个仅在训练阶段使用的模块:频率感知域随机化(FADR)模块,用于随机化域变化的低频和高频频率分量,以及频率增强对比学习( FACL)模块可有效分离干净图像和扰动图像的域不变中频特征。我们通过广泛的跨域和跨模型实验证明了所生成的对抗性扰动的强大可转移性,同时保持了推理时间复杂性。

无需学习率:SALSA 简介——稳定的 Armijo 线搜索适应

分类: 机器学习, 人工智能

作者: Philip Kenneweg, Tristan Kenneweg, Fabian Fumagalli, Barbara Hammer

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20650v1

摘要: 在最近的研究中,线搜索方法已被证明可以显着增强跨各种数据集和架构的传统随机梯度下降技术的性能,同时使学习率计划的其他关键选择变得多余。在本文中,我们确定了当前最先进的线搜索方法的问题,提出了改进方案,并严格评估了其有效性。此外,我们在比以前更大的数据集和更复杂的数据域上评估这些方法。更具体地说,我们通过加快计算速度并将动量项纳入 Armijo 准则中来增强 Armijo 线搜索方法,使其更适合随机小批量。我们的优化方法优于之前的 Armijo 实现以及 Adam 和 SGD 优化器的调整学习率计划。我们的评估涵盖了各种架构,例如 Transformer、CNN 和 MLP,以及数据域,包括 NLP 和图像数据。我们的工作以 Python 包的形式公开提供,它提供了一个简单的 Pytorch 优化器。

利用多方面路径进行异构图表示学习

分类: 机器学习, 人工智能

作者: JongWoo Kim, SeongYeub Chu, HyeongMin Park, Bryan Wong, MunYong Yi

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20648v1

摘要: 图神经网络 (GNN) 和异构 GNN (HGNN) 的最新进展为各种任务提供了先进的节点嵌入和关系学习。然而,现有方法通常依赖于特定于域的预定义元路径,这些路径是粗粒度的,并且仅关注节点类型等方面,限制了它们捕获复杂交互的能力。我们引入 MF2Vec,这是一种使用多面(细粒度)路径而不是预定义元路径的模型。 MF2Vec 通过随机游走提取路径并生成多面向量,忽略预定义的模式。该方法学习节点及其关系的各个方面,构建同质网络,并创建用于分类、链接预测和聚类的节点嵌入。大量实验表明,MF2Vec 优于现有方法,为分析复杂网络提供了更灵活、更全面的框架。该代码可在 https://anonymous.4open.science/r/MF2Vec-6ABC 获取。

通过基础模型自主改进指令跟踪技能

分类: 机器人技术, 人工智能

作者: Zhiyuan Zhou, Pranav Atreya, Abraham Lee, Homer Walke, Oier Mees, Sergey Levine

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20635v1

摘要: 能够根据自主收集的经验进行改进的智能指令跟踪机器人有可能改变机器人的学习方式:大规模部署机器人车队可以快速收集大量自主数据,从而集体提高其性能,而不是收集昂贵的远程操作演示数据。然而,自主改进需要解决两个关键问题:(i)完全自动化可扩展的数据收集程序,可以收集多样化且具有语义意义的机器人数据;(ii)从没有人工注释的非最佳自主数据中学习。为此,我们提出了一种解决这些挑战的新方法,允许在没有人工监督的情况下通过自主收集的数据来改进指令遵循策略。我们的框架利用视觉语言模型来收集和评估新环境中语义上有意义的体验,然后将指令跟踪任务分解为(语义)语言条件图像生成和(非语义)目标实现,这使得它显着更无需任何人工注释即可从自主收集的数据中进行改进。我们在现实世界中进行了广泛的实验,以证明我们方法的有效性,并发现在一系列看不见的环境中,可以通过自主收集的数据显着改进机器人策略。我们开源了语义自主改进管道的代码,以及在五个桌面环境中收集的 30,500 个轨迹的自主数据集。

通过半结构化自适应稀疏训练修剪大型语言模型

分类: 计算和语言, 人工智能

作者: Weiyu Huang, Guohao Jian, Yuezhou Hu, Jun Zhu, Jianfei Chen

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20584v1

摘要: 基于 Transformer 的大型语言模型 (LLM) 在各种具有挑战性的任务中取得了显着的成功。然而,LLM 的部署因其大量参数数量和内存消耗而受到阻碍。最近,许多研究尝试通过使用免训练方法修剪大语言模型来压缩它们。然而,这些修剪过的模型在处理复杂任务时通常会出现显着的性能下降。为了解决这个问题,我们提出了一种用于半结构化稀疏模型的新型训练管道,称为自适应稀疏训练器(AST)。通过提炼存储在密集模型中的知识,我们可以防止稀疏模型过度拟合并确保稳定的训练过程。此外,AST 允许模型在训练期间自适应地选择更好的彩票(例如,面具)。此外,我们发现添加额外的初始化良好的参数可以进一步增强模型性能,而内存占用仅会小幅增加。我们的方法显着缩小了密集模型和稀疏模型之间的性能差距,同时保持有限的计算成本。此外,与现有的量化方法相结合,与密集的 FP32 精度模型相比,AST 可以将语言模型压缩高达 16 倍,同时性能损失最小。 AST 在 Llama2-7B 上的多个零样本任务中使用不到 0.4% 的预训练标记,将密集模型和半结构化稀疏模型之间的零样本精度差距缩小到 1.12%,从而优于以前最先进的方法。

使用迁移学习对多镜卫星中的分段失准进行基于图像的检测

分类: 计算机视觉和模式识别, 人工智能, 图像和视频处理

作者: C. Tanner Fredieu, Jonathan Tesch, Andrew Kee, David Redding

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20582v1

摘要: 在本文中,我们介绍了一种基于迁移学习的系统,用于使用基于图像的方法检测多镜卫星中的分段失准,例如未来的立方体卫星设计和詹姆斯·韦伯太空望远镜(JWST)。当镜子部分由于各种环境因素(例如空间碎片)而未对准时,图像可能会因自身移动的副本(称为“鬼像”)而扭曲。为了检测片段是否未对齐,我们使用预先训练的大规模图像模型,这些模型是在灰度卫星图像块的快速傅立叶变换 (FFT) 上训练的。多镜设计可以使用任意数量的镜。出于我们的目的,测试是在具有 4、6 和 8 段的模拟立方体卫星上进行的。对于系统设计,当我们想知道卫星何时有未对准的段以及有多少段未对准时,我们考虑到了这一点。重影图像的强度与未对准的段数成正比。训练强度分类模型尝试对 N-1 个片段进行分类。在八个类别中,二元模型能够实现 98.75% 的分类准确率,强度分类模型能够实现 98.05% 的准确率。

用于生成上下文相关问题的大型语言模型的比较

分类: 计算和语言, 人工智能, 计算机与社会, K.3

作者: Ivo Lodovico Molina, Valdemar Švábenský, Tsubasa Minematsu, Li Chen, Fumiya Okubo, Atsushi Shimada

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20578v1

摘要: 本研究探讨了大型语言模型 (LLM) 在教育环境中自动生成问题的有效性。比较了三位大语言模型在不进行微调的情况下根据大学幻灯片文本创建问题的能力。问题通过两步流程获得:首先,使用 Llama 2-Chat 13B 从幻灯片中提取答案短语;然后,这三个模型为每个答案生成问题。为了分析这些问题是否适合学生的教育应用,我们对 46 名学生进行了一项调查,他们根据五个指标评估了总共 246 个问题:清晰度、相关性、难度、幻灯片关系和问答对齐。结果表明,GPT-3.5 和 Llama 2-Chat 13B 的性能略胜于 Flan T5 XXL,特别是在清晰度和问题答案对齐方面。 GPT-3.5 特别擅长定制问题以匹配输入答案。这项研究的贡献是分析大语言模型在教育领域自动生成问题的能力。

Pyramid Coder:用于组合视觉问答的分层代码生成器

分类: 计算机视觉和模式识别, 人工智能

作者: Ruoyue Shen, Nakamasa Inoue, Koichi Shinoda

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20563v1

摘要: 视觉问答(VQA)是基于视觉输入为自然语言问题提供准确答案的任务。程序化 VQA (PVQA) 模型最近受到关注。它们使用大型语言模型(LLM)来制定可执行程序来解决需要复杂视觉推理的问题。然而,让大语言模型理解图像处理模块的使用并生成相关代码存在挑战。为了克服这些挑战,本文介绍了 PyramidCoder,一种新颖的 PVQA 模型提示框架。 PyramidCoder 由三个层次结构级别组成,每个级别都有不同的用途:查询重写、代码生成和答案聚合。值得注意的是,PyramidCoder 在每个级别都使用单个冻结的 LLM 和预定义的提示,无需额外的培训并确保跨各种 LLM 架构的灵活性。与最先进的 PVQA 模型相比,我们的方法在 GQA 数据集上的准确率提高了至少 0.5%,在 VQAv2 数据集上提高了 1.4%,在 NLVR2 数据集上提高了 2.9%。

CELLM:联邦学习大型语言模型训练中的高效通信

分类: 机器学习, 人工智能

作者: Raja Vavekanand, Kira Sam

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20557v1

摘要: 联合学习 (FL) 是一种最新的模型训练范例,其中客户端设备协作训练模型,而无需聚合其数据。至关重要的是,该方案仅将模型权重的更新传递给中央服务器,而不是直接传递和聚合数据的传统机器学习 (ML) 训练,从而为用户提供了潜在的隐私和安全优势。然而,FL 训练存在统计异质性,因为客户可能具有不同的本地数据分布。大型语言模型(LLM)为这一异质性问题提供了潜在的解决方案,因为它们一直被证明能够学习大量的噪声数据。虽然大语言模型对于解决非 I.I.D. 的持续问题来说是一个有前途的发展。联合环境中的客户端加剧了 FL 中的另外两个瓶颈:有限的本地计算和昂贵的通信。本论文旨在为佛罗里达州大语言模型开发有效的培训方法。为此,我们采用了两种关键技术来实现高效的培训。首先,我们使用低秩适应(LoRA)来减少局部模型训练的计算负载。其次,我们在整个培训过程中传达稀疏的更新信息,以显着降低沟通成本。总而言之,我们的方法比普通 LoRA 降低了高达 10 倍的通信成本,比更复杂的稀疏 LoRA 基线降低了高达 5 倍,同时实现了更大的实用性。我们强调仔细应用稀疏性并为联合 LLM 训练选择有效的排名和稀疏性配置的重要性。

DuA:长期连续脑电图情绪分析中的双重注意力变压器

分类: 人机交互, 人工智能

作者: Yue Pan, Qile Liu, Qing Liu, Li Zhang, Gan Huang, Xin Chen, Fali Li, Peng Xu, Zhen Liang

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20519v1

摘要: 情感脑机接口(aBCI)因其通过脑电图(EEG)信号监测和解释情绪状态的潜力而日益得到认可。目前基于脑电图的情绪识别方法对于短片段的脑电图数据表现良好。然而,这些方法在情绪状态长期变化的现实场景中遇到了重大挑战。为了解决这个问题,我们提出了一种用于长期连续脑电图情绪分析的双重注意力(DuA)变压器框架。与基于分段的方法不同,DuA Transformer 将整个 EEG 试验作为一个整体进行处理,识别试验级别的情绪,称为基于试验的情绪分析。该框架旨在适应不同的信号长度,与传统方法相比具有显着优势。 DuA Transformer 包含三个关键模块:空间频谱网络模块、时间网络模块和迁移学习模块。空间频谱网络模块同时捕获脑电图信号中的空间和频谱信息,而时间网络模块则检测长期脑电图数据中的时间依赖性。迁移学习模块增强了模型在不同主题和条件下的适应性。我们使用自行构建的长期脑电图情感数据库以及两个基准脑电图情感数据库对 DuA Transformer 进行了广泛的评估。在基于试验的留一受试者跨受试者交叉验证协议的基础上,我们的实验结果表明,所提出的 DuA 转换器在长期连续脑电图情绪分析中显着优于现有方法,平均增强了5.28%。

使用 HisToSGE 从组织学图像中获得高分辨率空间转录组学

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者: Zhiceng Shi, Shuailin Xue, Fangfang Zhu, Wenwen Min

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20518v1

摘要: 空间转录组学 (ST) 是一项突破性的基因组技术,可对组织切片内的基因表达进行空间定位分析。然而,它受到高成本和稀疏空间分辨率的严重限制。另一种更具成本效益的策略是使用深度学习方法从组织学图像中预测高密度基因表达谱。然而,现有方法难以有效捕获丰富的图像特征或依赖低维位置坐标,从而难以准确预测高分辨率基因表达谱。为了解决这些限制,我们开发了 HisToSGE,这种方法采用病理图像大模型 (PILM) 从组织学图像中提取丰富的图像特征,并利用特征学习模块稳健地生成高分辨率基因表达谱。我们在四个 ST 数据集上评估了 HisToSGE,将其性能与五种最先进的基线方法进行了比较。结果表明,HisToSGE 在生成高分辨率基因表达谱和执行空间域识别等下游任务方面表现出色。本文使用的所有代码和公共数据集均可在 https://github.com/wenwenmin/HisToSGEhttps://zenodo.org/records/12792163 获取。

生成人工智能中的机器遗忘:一项调查

分类: 机器学习, 人工智能, 计算和语言

作者: Zheyuan Liu, Guangyao Dou, Zhaoxuan Tan, Yijun Tian, Meng Jiang

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20516v1

摘要: 生成式人工智能技术已在许多地方得到部署,例如(多模态)大语言模型和视觉生成模型。他们的出色表现应该归功于海量的训练数据和突发推理能力。然而,这些模型会记住并生成来自训练数据(尤其是来自网络爬虫的数据)的敏感、有偏见或危险的信息。人们正在开发新的机器去学习(MU)技术,以减少或消除模型中不需要的知识及其影响,因为那些为传统分类任务设计的技术无法应用于生成人工智能。我们对生成人工智能中的 MU 的许多方面进行了全面的调查,例如新问题的表述、评估方法以及对不同类型 MU 技术的优点和局限性的结构化讨论。它还提出了 MU 研究中的几个关键挑战和有希望的方向。可以找到精选的读物列表:https://github.com/franciscoliu/GenAI-MU-Reading。

不合作目标相对位姿估计的标记识别

分类: 计算机视觉和模式识别, 人工智能

作者: Batu Candan, Simone Servadio

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20515v1

摘要: 本文介绍了一种使用追踪航天器图像处理和卷积神经网络 (CNN) 来检测欧洲航天局 (ESA) 环境卫星 (ENVISAT) 上的结构标记以安全离轨的新方法。采用先进的图像预处理技术(包括噪声添加和模糊)来提高标记检测的准确性和鲁棒性。初步结果显示自主空间碎片清除的巨大潜力,支持空间可持续性的主动战略。我们方法的有效性表明,我们的估计方法可以通过在实际太空任务中实施更强大和自主的系统来显着提高碎片清除作业的安全性和效率。

Prompt2DeModel:使用自然语言进行声明性神经符号建模

分类: 计算和语言, 人工智能, 人机交互

作者: Hossein Rajaby Faghihi, Aliakbar Nafar, Andrzej Uszok, Hamid Karimian, Parisa Kordjamshidi

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20513v1

摘要: 本文提出了一个对话管道,用于通过自然语言提示为复杂的神经符号模型构建领域知识。它利用大型语言模型在 DomiKnowS 框架中生成声明性程序。该框架中的程序除了它们之间的逻辑约束之外,还以图形的形式表达概念及其关系。稍后,可以根据这些规范将该图连接到可训练的神经模型。我们提出的管道利用动态上下文演示检索、基于符号解析器反馈的模型细化、可视化和用户交互等技术来生成任务的结构和形式知识表示。这种方法使领域专家,即使是那些不熟悉 ML/AI 的专家,也能够正式声明他们的知识将被纳入 DomiKnowS 框架中的定制神经模型中。

通过时空归一化和编码策略揭示尖峰动力学在图表示学习中的潜力

分类: 人工智能, 机器学习, 神经和进化计算

作者: Mingkun Xu, Huifeng Yin, Yujie Wu, Guoqi Li, Faqiang Liu, Jing Pei, Shuai Zhong, Lei Deng

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20508v1

摘要: 近年来,尖峰神经网络(SNN)因其复制生物神经元的节能和事件驱动处理的潜力而引起了极大的兴趣。尽管如此,SNN 在图表示学习中的应用,特别是对于非欧几里得数据,仍然未被充分探索,并且尖峰动态对图学习的影响尚未完全理解。这项工作旨在通过检查尖峰动力学在增强图表示学习方面的独特属性和优势来解决这些差距。我们提出了一种基于尖峰的图神经网络模型,该模型结合了尖峰动力学,并通过新颖的时空特征归一化(STFN)技术增强,以提高训练效率和模型稳定性。我们的详细分析探讨了速率编码和时间编码对 SNN 性能的影响,为深度图网络的优势提供了新的见解,并解决了过度平滑问题等挑战。实验结果表明,我们的 SNN 模型可以实现与最先进的图神经网络 (GNN) 竞争的性能,同时大大降低计算成本,凸显了 SNN 在复杂的基于图的场景中高效神经形态计算应用的潜力。

通过因果知识提高与任务无关的探索效率

分类: 机器学习, 人工智能

作者: Yupei Yang, Biwei Huang, Shikui Tu, Lei Xu

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20506v1

摘要: 模型训练的有效性在很大程度上取决于可用训练资源的质量。然而,预算限制往往会限制数据收集工作。为了应对这一挑战,我们在本文中引入了因果探索,这是一种利用潜在因果知识进行数据收集和模型训练的策略。我们特别关注在与任务无关的强化学习领域内提高世界模型学习的样本效率和可靠性。在探索阶段,智能体积极选择预期产生最有利于世界模型训练的因果见解的行动。同时,随着数据的持续收集,因果知识被获取并逐渐完善。我们证明因果探索有助于使用更少的数据学习准确的世界模型,并为其收敛提供理论保证。针对合成数据和现实世界应用的实证实验进一步验证了因果探索的好处。

用于长期时间序列预测的联合大语言模型

分类: 机器学习, 人工智能

作者: Raed Abdel-Sater, A. Ben Hamza

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20503v1

摘要: 集中式环境中的长期时间序列预测在数据隐私、通信开销和可扩展性方面提出了独特的挑战。为了应对这些挑战,我们提出了 FedTime,这是一种专为长期时间序列预测而定制的联合大语言模型 (LLM)。具体来说,我们引入了具有微调和对齐策略的联合预训练大语言模型。在学习过程之前,我们采用 K 均值聚类将边缘设备或客户端划分为不同的集群,从而促进更有针对性的模型训练。我们还结合了通道独立性和修补功能,以更好地保留本地语义信息,确保保留重要的上下文细节,同时最大限度地降低信息丢失的风险。我们通过对各种现实世界预测基准的广泛实验证明了 FedTime 模型的有效性,展示了相对于最新方法的实质性改进。此外,我们还展示了 FedTime 在简化资源使用方面的效率,从而减少了通信开销。

在 GPU 上实现分层 N:M 稀疏性的高效排列

分类: 机器学习, 人工智能

作者: Seungmin Yu, Xiaodie Yi, Hayun Lee, Dongkun Shin

发布时间: 2024-07-30

链接: http://arxiv.org/abs/2407.20496v1

摘要: N:M 稀疏剪枝是一种利用 NVIDIA 的稀疏张量核心技术来压缩深度神经网络的强大技术。该方法受益于对稀疏索引的硬件支持,能够采用细粒度稀疏性来保持模型准确性,同时最大限度地减少通常与不规则数据访问相关的开销。尽管由于依赖硬件而被限制在固定的稀疏度水平,但 N:M 稀疏度可以与更粗糙的稀疏度技术相结合,以实现不同的压缩比。最初,将列向向量稀疏性应用于密集模型,然后在保留的列向量上应用行向 N:M 稀疏性。我们将这种多级方法称为分层 N:M (HiNM) 稀疏性。与早期的单级稀疏性技术类似,HiNM 稀疏性需要有效的通道排列策略来最大限度地提高压缩网络的准确性。然而,它需要重新排列输入和输出通道,解决排列序列、HiNM 稀疏感知排列等挑战,并保持跨层通道排序的一致性,从而引入了进一步的复杂性。在本文中,我们介绍了一种专门针对 HiNM 稀疏性设计的通道排列方法,称为陀螺排列。该方法旨在利用 HiNM 剪枝的独特特征,在每个排列阶段结合战略策略,包括通道采样、聚类和分配,以规避局部最小值。此外,我们还开发了一个 GPU 内核,可以在 HiNM 稀疏网络执行期间促进独立层排列。我们对各种 DNN 模型进行的广泛实验评估表明,我们的陀螺仪排列显着提高了 HiNM 稀疏网络的准确性,使它们达到与非结构化稀疏网络相当的性能水平。

强化学习中快速自主迁移的方法

分类: 机器学习, 人工智能

作者: Dinuka Sahabandu, Bhaskar Ramasubramanian, Michail Alexiou, J. Sukarno Mertoguno, Linda Bushnell, Radha Poovendran

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20466v1

摘要: 本文介绍了一种新颖的强化学习(RL)策略,旨在通过利用来自多个环境的预先训练的批评价值函数来促进快速自主转移。与需要大量再训练或微调的传统方法不同,我们的方法集成了现有知识,使 RL 代理能够快速适应新设置,而无需大量计算资源。我们的贡献包括开发多评论家演员评论家 (MCAC) 算法、建立其收敛性以及证明其功效的经验证据。我们的实验结果表明,MCAC 显着优于基线 Actor-Critic 算法,实现了高达 22.76 倍的更快自主转移和更高的奖励累积。这一进步凸显了利用积累的知识在强化学习应用中实现高效适应的潜力。

适用于企业的领域适应性规范 AI 代理

分类: 人工智能

作者: Piero Orderique, Wei Sun, Kristjan Greenewald

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20447v1

摘要: 尽管因果推理和规范性人工智能取得了进步,但其在企业环境中的采用仍然受到阻碍,这主要是由于其技术复杂性。许多用户缺乏有效利用这些技术所需的知识和适当的工具。 MIT-IBM Watson AI 实验室的这项工作重点是开发概念验证代理 PrecAIse,这是一个领域适应性强的对话代理,配备了一套因果性和规范性工具,可帮助企业用户做出更好的业务决策。目标是通过自然语言交互使先进的、新颖的因果推理和规范工具能够广泛使用。所提出的自然语言用户界面(NLUI)使机器学习和数据科学专业知识有限的用户能够在决策过程中利用规范性分析,而无需密集的计算资源。我们提出了一个能够调用函数、保持忠实、交互式和动态对话以及支持新领域的代理。

Futga:通过时间增强的生成增强实现细粒度的音乐理解

分类: 声音, 人工智能, 机器学习, 音频和语音处理

作者: Junda Wu, Zachary Novack, Amit Namburi, Jiaheng Dai, Hao-Wen Dong, Zhouhang Xie, Carol Chen, Julian McAuley

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20445v1

摘要: 现有的音乐字幕方法仅限于生成短音乐片段的简洁全局描述,无法捕捉细粒度的音乐特征和时间感知的音乐变化。为了解决这些限制,我们提出了 FUTGA,这是一种通过学习时间成分的生成增强来配备细粒度音乐理解能力的模型。我们利用现有的音乐字幕数据集和大型语言模型(LLM)来合成细粒度的音乐字幕,并为全长歌曲提供结构描述和时间边界。通过所提出的合成数据集的增强,FUTGA 能够识别音乐在关键过渡点的时间变化及其音乐功能,并为每个音乐片段生成详细描述。我们进一步引入由 FUTGA 生成的全长音乐字幕数据集,作为 MusicCaps 和歌曲描述数据集的增强。我们在几个下游任务上评估自动生成的字幕,包括音乐生成和检索。实验证明了生成的字幕的质量以及所提出的音乐字幕方法在各种下游任务中实现的更好性能。我们的代码和数据集可以在 \href{https://huggingface.co/JoshuaW1997/FUTGA}{\textcolor{blue}{https://huggingface.co/JoshuaW1997/FUTGA}} 中找到。

在机器翻译中生成性别替代品

分类: 计算和语言, 人工智能

作者: Sarthak Garg, Mozhdeh Gheini, Clara Emmanuel, Tatiana Likhomanenko, Qin Gao, Matthias Paulik

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20438v1

摘要: 机器翻译 (MT) 系统经常将性别不明确的术语(例如,英语术语“护士”)翻译成系统训练数据中最常见的性别形式(例如,“enfermera”,西班牙语中表示女护士的术语) )。这往往反映并延续了社会中存在的有害陈规定型观念。考虑到机器翻译用户界面能够以无摩擦的方式解决性别歧义,我们研究了生成所有语法正确的性别翻译替代方案的问题。我们开源了五种语言对的训练和测试数据集,并为此任务建立了基准。我们的关键技术贡献是一种新颖的半监督解决方案,用于生成替代方案,该解决方案与标准 MT 模型无缝集成,并保持高性能,而不需要额外的组件或增加推理开销。

医学图像分割的密集自监督学习

分类: 计算机视觉和模式识别, 人工智能, 机器学习, I.4.6; I.4.10

作者: Maxime Seince, Loic Le Folgoc, Luiz Augusto Facury de Souza, Elsa Angelini

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20395v1

摘要: 深度学习彻底改变了医学图像分割,但它在很大程度上依赖于高质量的注释。为每个新任务在像素级标记图像所需的时间、成本和专业知识减缓了该范式的广泛采用。我们提出了 Pix2Rep,这是一种用于少镜头分割的自监督学习(SSL)方法,它通过直接从未标记图像学习强大的像素级表示来减少手动注释负担。 Pix2Rep 是一种新颖的像素级损失和预训练范例,用于在整个图像上进行对比 SSL。它适用于通用编码器-解码器深度学习主干(例如 U-Net)。大多数 SSL 方法在强度和空间图像增强下强制学习图像级表示的不变性,而 Pix2Rep 强制像素级表示的等变性。我们演示了心脏 MRI 分割任务的框架。结果表明,与现有的半监督和自监督方法相比,性能有所提高;与完全监督的 U-Net 基线相比,同等性能下的注释负担减少了 5 倍。这包括线性探测(或微调)下一次性分割的 30%(或 31%)DICE 改进。最后,我们还将新颖的 Pix2Rep 概念与 Barlow Twins 非对比 SSL 相结合,从而获得更好的分割性能。

评估引导的近端策略优化:动态网格世界中的心理障碍建模

分类: 人工智能, I.2.0

作者: Hari Prasad, Chinnu Jacob, Imthias Ahamed T. P

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20383v1

摘要: 人工智能跨多个领域的整合强调了在人工智能中复制类人认知过程的重要性。通过将情商融入人工智能代理中,可以评估他们的情绪稳定性,以增强他们在关键决策任务中的弹性和可靠性。在这项工作中,我们开发了一种使用强化学习(RL)代理来模拟心理障碍的方法。我们利用评估理论,通过评估引导的近端策略优化 (AG-PPO) 算法在动态网格世界环境中训练 RL 代理。此外,我们研究了许多奖励塑造策略来模拟心理障碍并调节代理人的行为。对修改后的 PPO 算法的各种配置进行比较,发现了模拟代理焦虑症和强迫症 (OCD) 样行为的变体。此外,我们将标准 PPO 与 AG-PPO 及其配置进行了比较,突出了泛化能力方面的性能改进。最后,我们对复杂测试环境中代理人的行为模式进行了分析,以评估与心理障碍相对应的相关症状。总的来说,我们的工作展示了评估引导的 PPO 算法相对于标准 PPO 算法的优势,以及在受控人工环境中模拟心理障碍并在 RL 代理上对其进行评估的潜力。

利用自然语言和项目反应理论模型进行 ESG 评分

分类: 人工智能, 一般财务, 方法

作者: César Pedrosa Soares

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20377v1

摘要: 本文通过将自然语言处理 (NLP) 技术与项目反应理论 (IRT)(特别是 Rasch 模型)相结合,探索了环境、社会和治理 (ESG) 评分的创新方法。该研究利用了 2022 年至 2023 年收集的与巴西主要石油公司 Petrobras 相关的葡萄牙语新闻文章的综合数据集。使用先进的 NLP 方法对数据进行过滤和分类,以找出 ESG 相关情绪。然后应用 Rasch 模型来评估这些 ESG 指标的心理测量特性,从而对一段时间内的 ESG 情绪趋势进行细致入微的评估。结果证明了该方法在提供更精确、更可靠的 ESG 因素测量方面的有效性,突出了重要的时期和趋势。这种方法可以增强 ESG 指标的稳健性,并通过提供对 ESG 报告中时间动态的更深入理解,为更广泛的可持续发展和金融领域做出贡献。

通过语言模型检索进行简历筛选中的性别、种族和交叉偏见

分类: 计算机与社会, 人工智能, 计算和语言, 机器学习, K.4.2

作者: Kyra Wilson, Aylin Caliskan

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20371v1

摘要: 人工智能 (AI) 招聘工具彻底改变了简历筛选,而大型语言模型 (LLM) 也有潜力做到这一点。然而,考虑到大语言模型中存在的偏见,尚不清楚它们是否可以在这种情况下使用,而不会因其受保护的属性而使群体处于不利地位。在这项工作中,我们通过模拟求职者选择的文档检索框架,研究了在简历筛选环境中使用大语言模型的可能性。然后,我们使用该框架进行简历审核研究,以确定选择的大规模文本嵌入 (MTE) 模型在简历筛选场景中是否存在偏见。我们使用 500 多份公开简历和 500 份职位描述的集合,对 9 种职业进行了模拟。我们发现 MTE 存在偏见,在 85.1% 的案例中显着偏向与白人相关的名字,而仅在 11.1% 的案例中显着偏向与女性相关的名字,少数案例没有显示出统计上显着的差异。进一步的分析表明,黑人男性在高达 100% 的案例中处于不利地位,复制了现实世界中就业环境中的偏见模式,并验证了三个交叉性假设。我们还发现文档长度以及姓名的语料库频率对简历选择的影响。这些发现对广泛使用的人工智能工具具有影响,这些工具使就业、公平和技术政策自动化。

评估大型语言模型以自动分析教师模拟

分类: 人工智能

作者: David de-Fitero-Dominguez, Mariano Albaladejo-González, Antonio Garcia-Cabot, Eva Garcia-Lopez, Antonio Moreno-Cediel, Erin Barno, Justin Reich

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20360v1

摘要: 数字模拟 (DS) 提供安全的环境,用户可以通过对话提示与代理进行交互,从而提供引人入胜的学习体验,可用于在真实的课堂场景中培训教师候选人。这些模拟通常包括开放式问题,允许教师候选人表达他们的想法,但使自动响应分析变得复杂。为了解决这个问题,我们评估了大型语言模型 (LLM),以识别 DS 教师教育响应中的特征(用户行为)。我们结合零样本、少样本和微调来评估 DeBERTaV3 和 Llama 3 的性能。我们的实验发现,大语言模型的表现存在显着差异,具体取决于要识别的特征。此外,我们注意到 DeBERTaV3 在必须识别新特征时显着降低了其性能。相比之下,Llama 3 在检测新特征方面比 DeBERTaV3 表现更好,并且表现出更稳定的性能。因此,在 DS 中,教师教育者需要引入新的特征,因为它们会根据模拟或教育目标而变化,更推荐使用 Llama 3。这些结果可以指导其他研究人员引入 LLM,以提供高要求的自动评估。 DS。

LiteEFG:用于解决广泛形式游戏的高效 Python 库

分类: 计算机科学与博弈论, 人工智能, 机器学习

作者: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20351v1

摘要: LiteEFG 是一个高效的库,具有易于使用的 Python 绑定,可以解决多人扩展形式游戏 (EFG)。 LiteEFG 使用户能够用 Python 表达计算图来定义游戏树结构的更新。然后,该图由 C++ 后端执行,与在 Python 中运行算法相比,速度显着提高。而且,在LiteEFG中,用户只需要在博弈的某个决策节点中指定更新规则的计算图,LiteEFG就会自动将更新规则分发到各个决策节点,并处理不完全信息博弈的结构。

BRIDGE:通过更强的视觉提示弥合图像字幕评估中的差距

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 多媒体

作者: Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20341v1

摘要: 在评估机器生成的图像标题时有效地与人类判断保持一致是一个复杂而有趣的挑战。现有的评估指标(例如 CIDEr 或 CLIP-Score)在这方面存在不足,因为它们没有考虑相应的图像,或者缺乏编码细粒度细节和惩罚幻觉的能力。为了克服这些问题,在本文中,我们提出了 BRIDGE,这是一种新的可学习且无参考的图像字幕度量,它采用新颖的模块将视觉特征映射到密集向量中,并将它们集成到在评估过程。这种方法产生了一种多模态度量,可以正确地合并来自输入图像的信息,而不依赖于参考说明,从而弥合了人类判断和机器生成的图像说明之间的差距。跨越多个数据集的实验表明,与现有的无参考评估分数相比,我们的建议取得了最先进的结果。我们的源代码和经过训练的模型可在以下位置公开获取:https://github.com/aimagelab/bridge-score。

通过对比学习和全局-局部相似性对比 Deepfakes 的扩散

分类: 计算机视觉和模式识别, 人工智能, 多媒体

作者: Lorenzo Baraldi, Federico Cocchi, Marcella Cornia, Lorenzo Baraldi, Alessandro Nicolosi, Rita Cucchiara

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20337v1

摘要: 区分真实内容和先进人工智能方法生成的内容变得越来越具有挑战性。虽然之前的研究主要针对假脸检测,但生成的自然图像的识别最近才浮出水面。这促使人们最近探索采用基础视觉和语言模型的解决方案,例如 CLIP。然而,CLIP 嵌入空间针对全局图像到文本对齐进行了优化,本身并不是为深度伪造检测而设计的,忽略了定制训练和局部图像特征的潜在好处。在这项研究中,我们提出了 CoDE(Contrastive Deepfake Embeddings),这是一种专为 Deepfake 检测而设计的新型嵌入空间。 CoDE 通过对比学习进行训练,另外还强制执行全局-局部相似性。为了维持模型的训练,我们生成了一个全面的数据集,该数据集重点关注扩散模型生成的图像,并包含使用四种不同生成器生成的 920 万张图像的集合。实验结果表明,CoDE 在新收集的数据集上实现了最先进的准确性,同时还对未见过的图像生成器表现出了出色的泛化能力。我们的源代码、训练模型和收集的数据集可在以下位置公开获取:https://github.com/aimagelab/CoDE。

指定和编辑:克服基于文本的图像编辑中的歧义

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Ekaterina Iakovleva, Fabio Pizzati, Philip Torr, Stéphane Lathuilière

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20232v1

摘要: 当用户的输入指令不明确时,基于文本的编辑扩散模型表现出有限的性能。为了解决这个问题,我们提出了 $\textit{Specify AND Edit}$ (SANE),一个用于基于扩散的编辑系统的零样本推理管道。我们使用大型语言模型(LLM)将输入指令分解为特定指令,即应用到输入图像的明确定义的干预措施以满足用户的请求。得益于专门为该任务设计的新颖的去噪指导策略,我们受益于大语言模型衍生的指令以及原始指令。我们使用三个基线和两个数据集进行的实验证明了 SANE 在所有设置中的优势。此外,我们的管道提高了编辑模型的可解释性,并提高了输出的多样性。我们还证明我们的方法可以应用于任何编辑,无论是否模糊。我们的代码在 https://github.com/fabvio/SANE 上公开。

SAPG:拆分和聚合策略梯度

分类: 机器学习, 人工智能, 计算机视觉和模式识别, 机器人技术, 系统与控制, 系统与控制

作者: Jayesh Singla, Ananye Agarwal, Deepak Pathak

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20230v1

摘要: 尽管样本效率极高,但策略强化学习(又名策略梯度)已成为决策问题的基本工具。随着 GPU 驱动模拟的最新进展,为 RL 训练收集大量数据的能力呈指数级增长。然而,我们展示了当前的 RL 方法,例如PPO 无法吸收超过某一点的并行环境的优势,并且其性能饱和。为了解决这个问题,我们提出了一种新的同策略 RL 算法,该算法可以通过将大规模环境分割成块并通过重要性采样将它们重新融合在一起来有效地利用大规模环境。我们的算法(称为 SAPG)在各种具有挑战性的环境中显示出显着更高的性能,在这些环境中,普通 PPO 和其他强大的基线无法实现高性能。网站 https://sapg-rl.github.io/

语言模型物理学:第 2.1 部分,小学数学和隐藏的推理过程

分类: 人工智能, 计算和语言, 机器学习

作者: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20311v1

摘要: 语言模型的最新进展已经证明了它们解决数学推理问题的能力,在 GSM8K 等小学水平的数学基准上实现了近乎完美的准确性。在本文中,我们正式研究语言模型如何解决这些问题。我们设计了一系列对照实验来解决几个基本问​​题:(1)语言模型能否真正培养推理能力,还是只是记住模板? (2) 模型的隐藏(心理)推理过程是什么? (3) 模型是否使用与人类相似或不同的技能来解决数学问题? (4) 在类 GSM8K 数据集上训练的模型是否能够发展出超出解决 GSM8K 问题所需的推理能力? (5)什么心理过程导致模型出现推理错误? (6) 模型必须有多大或深度才能有效解决 GSM8K 级别的数学问题?我们的研究揭示了语言模型解决数学问题的许多隐藏机制,提供了超出目前对大语言模型的理解的见解。

SANGRIA:用于手术工作流程预测的手术视频场景图优化

分类: 计算机视觉和模式识别, 人工智能

作者: Çağhan Köksal, Ghazal Ghazaei, Felix Holm, Azade Farshad, Nassir Navab

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20214v1

摘要: 基于图形的整体场景表示有助于理解手术工作流程,并且最近取得了巨大的成功。然而,这项任务常常因密集注释的手术场景数据的可用性有限而受到阻碍。在这项工作中,我们引入了一个端到端框架,用于在下游任务上生成和优化手术场景图。我们的方法利用基于图的谱聚类的灵活性和基础模型的泛化能力来生成具有可学习属性的无监督场景图。我们使用连续帧之间的局部匹配来通过稀疏时间连接来强化初始空间图,以预测跨时间邻域的时间一致簇。通过联合优化动态场景图的时空关系和节点特征以及相位分割的下游任务,我们仅使用弱手术相位标签来解决手术视频中语义场景理解和场景图生成的成本高昂且注释繁重的任务。此外,通过在流程中整合有效的中间场景表示解开步骤,我们的解决方案在 CATARACTS 数据集上的 SOTA 准确率提高了 8%,在手术工作流程识别中的 F1 分数提高了 10%

Supertrust:基于进化的超级对齐策略以实现安全共存

分类: 人工智能, 机器学习, 神经和进化计算

作者: James M. Mazzu

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20208v1

摘要: 人们普遍预计,人类有一天会创造出比我们智能得多的人工智能系统,从而导致“如何控制超级智能”这一尚未解决的协调问题。然而,这个定义不仅是自相矛盾的,而且可能无法解决。然而,解决这个问题的默认策略涉及培育(训练后)约束和道德价值观,而不幸的是,在有记录的永久控制意图的基础上建立基础性质(训练前)。在本文中,默认方法被推理为可预测地嵌入了自然的不信任,并且提出的测试结果显示了这种危险的错位的明确证据。如果超级智能不能本能地信任人类,那么我们就不能完全相信它能够可靠地遵循它可能绕过的安全控制。因此,提出了十点理由,将联盟问题重新定义为“如何在超级智能和人类之间建立保护性互信”,然后概述了通过本能而非后天联盟来解决该问题的新策略。由此产生的战略要求被确定为通过举例说明家庭亲子信任、人类智能作为超级智能的进化之母、道德判断能力和临时安全约束来构建基础性质。采用和实施这一拟议的超级信任联盟战略将导致保护性共存,并确保人类最安全的未来。

QAEA-DR:用于密集检索的统一文本增强框架

分类: 计算和语言, 人工智能, 信息检索

作者: Hongming Tan, Shaoxiong Zhan, Hai Lin, Hai-Tao Zheng, Wai Kin, Chan

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20207v1

摘要: 在密集检索中,将长文本嵌入到密集向量中可能会导致信息丢失,从而导致查询文本匹配不准确。此外,具有过多噪音或稀疏关键信息的低质量文本不太可能与相关查询很好地匹配。最近的研究主要集中在改进句子嵌入模型或检索过程。在这项工作中,我们引入了一种用于密集检索的新颖文本增强框架。该框架将原始文档转换为信息密集的文本格式,补充原始文本以有效解决上述问题,而无需修改嵌入或检索方法。两种文本表示是通过大型语言模型(LLM)零样本提示生成的:问答对和元素驱动事件。我们将这种方法称为 QAEA-DR:在文本增强框架中统一问答生成和事件提取,以实现密集检索。为了进一步提高生成文本的质量,LLM提示中引入了基于评分的评估和再生机制。我们的 QAEA-DR 模型对密集检索具有积极影响,得到理论分析和实证实验的支持。

学习随机数以实现人工智能的可附加存储系统,以便在部署后获取新知识

分类: 机器学习, 人工智能, 神经和进化计算

作者: Kazunori D Yamada

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20197v1

摘要: 在这项研究中,我们开发了一种学习方法,用于构建能够记忆数据并在不更新参数的情况下调用数据的神经网络系统。我们使用这种方法构建的系统称为Appendable Memory系统。可附加内存系统使人工智能 (AI) 即使在部署后也能获取新知识。它由两个人工智能组成:记忆器和召回器。该系统是使用神经网络构建的键值存储。 Memorizer接收数据并将其存储在Appendable Memory向量中,当AI获取新知识时,该向量会动态更新。同时,Recaller 从 Appendable Memory 向量中检索信息。在这项研究中,我们想要教人工智能的是记忆和回忆信息的操作。然而,传统的机器学习方法使得人工智能学习学习数据集中固有的特征。我们证明,我们打算创建的系统无法通过当前的机器学习方法来实现,即仅通过人工智能重复输入和输出学习序列。相反,我们提出了一种通过完全删除学习数据集中包含的特征来教人工智能学习操作的方法。具体来说,我们对学习中涉及的所有数据进行了概率化。这一措施阻止了人工智能学习数据的特征。该研究提出的学习方法不同于传统的机器学习方法,为构建可以在有限内存中存储信息并在以后调用的人工智能系统提供了基本方法。

MindSearch:模仿人类思维引发深度人工智能搜索

分类: 计算和语言, 人工智能

作者: Zehui Chen, Kuikun Liu, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Kai Chen, Feng Zhao

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20183v1

摘要: 信息查找和整合是一项复杂的认知任务,需要消耗大量的时间和精力。受到大型语言模型显着进步的启发,最近的工作尝试通过结合大语言模型和搜索引擎来解决这一任务。然而,由于三个挑战,这些方法仍然获得了不令人满意的性能:(1)复杂的请求一旦被搜索引擎通常无法准确、完整地检索到​​(2)需要整合的相应信息伴随着大量的噪音分布在多个网页上,以及(3)大量内容较长的网页可能很快就会超过LLM的最大上下文长度。受到人类解决这些问题时认知过程的启发,我们引入MindSearch来模仿人类在网络信息搜索和整合中的思维,这可以通过一个简单而有效的基于LLM的多代理框架来实例化。 WebPlanner 将人类多步骤信息搜索的思维建模为动态图构建过程:它将用户查询分解为原子子问题作为图中的节点,并根据 WebSearcher 的搜索结果逐步扩展图。 WebSearcher 负责处理每个子问题,通过搜索引擎执行分层信息检索,并为 WebPlanner 收集有价值的信息。 MindSearch的多智能体设计使得整个框架能够在3分钟内从更大规模(例如超过300个)的网页中并行地寻找和整合信息,这相当于人类3个小时的努力。 MindSearch 在封闭集和开放集 QA 问题上显示了响应质量在深度和广度方面的显着提高。此外,基于 InternLM2.5-7B 的 MindSearch 的响应比 ChatGPT-Web 和 Perplexity.ai 应用程序更受人类欢迎,这意味着 MindSearch 已经可以为专有的 AI 搜索引擎提供有竞争力的解决方案。

Theia:提炼机器人学习的多种视觉基础模型

分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者: Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20179v1

摘要: 基于视觉的机器人策略学习将视觉输入映射到动作,需要对分类或分割等单一任务需求之外的各种视觉任务进行全面理解。受此启发,我们推出了 Theia,这是一种用于机器人学习的视觉基础模型,它提炼出多个在不同视觉任务上训练的现成视觉基础模型。 Theia 丰富的视觉表示编码了不同的视觉知识,增强了下游机器人的学习。大量实验表明,Theia 使用较少的训练数据和较小的模型大小,优于其教师模型和先前的机器人学习模型。此外,我们量化了预先训练的视觉表示的质量,并假设特征范数分布中的较高熵会导致机器人学习性能的提高。代码和模型可在 https://github.com/bdaiinstitute/theia 获取。

AutoScale:自动预测用于训练大语言模型的计算最佳数据组成

分类: 机器学习, 人工智能, 计算和语言, 机器学习

作者: Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20177v1

摘要: 为了确保各种下游任务的性能,大语言模型通过不同领域的数据混合进行预训练。在这项工作中,我们证明了固定计算预算的最佳数据组合根据训练数据的规模而变化,这表明使用小规模实验凭经验确定最佳组合的常见做法在以下情况下不会产生最佳数据混合:放大到最终模型。为了应对这一挑战,我们提出了AutoScale,这是一种自动化工具,可以找到计算最佳的数据组合,以便在任何所需的目标规模上进行训练。 AutoScale 首先使用新颖的双层优化框架直接数据优化 (DDO) 确定小规模的最佳组合,然后拟合预测器以估计较大规模的最佳组合。预测器的设计受到我们对与数据组成相关的缩放定律的理论分析的启发,这可能是独立的兴趣。在 RedPajama 数据集上使用预训练 774M 仅解码器 LM (GPT-2 Large) 进行的实证研究中,AutoScale 使验证困惑度比任何基线快至少 25%,与不重新加权相比,速度提高高达 38%,实现了最佳整体效果下游任务的性能。在使用掩码语言建模的预训练仅编码器 LM (BERT) 上,DDO 可以减少所有领域的损失,同时将 GLUE 基准上的平均任务性能明显提高 8.7%,将大规模 QA 数据集 (SQuAD) 上的平均任务性能提高 5.9%与没有重新加权相比。 AutoScale 可将训练速度提高高达 28%。我们的代码是开源的。

通过旋律变化和功能表征进行情感驱动的旋律和声

分类: 声音, 人工智能, 音频和语音处理

作者: Jingyue Huang, Yi-Hsuan Yang

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20176v1

摘要: 情感驱动的旋律和声旨在为单一旋律产生多种和声,以传达所需的情感。先前的研究发现,仅通过将相同的旋律与不同的和弦进行协调很难改变主乐曲的感知情绪效价,这可能归因于旋律本身的限制以及现有音乐表现形式的限制。在本文中,我们提出了一种新颖的符号音乐功能表示。这种新方法考虑了音调,认识到它们在通过大调-小调调塑造音乐情感特征方面的重要作用。它还允许旋律随音调变化,并解决数据稀缺的问题,以实现更好的情感建模。 Transformer 用于协调可调性的旋律,允许以基于规则或基于模型的方式确定调性。实验结果证实了我们的新表示在生成调性感知和声方面的有效性,客观和主观评估肯定了我们的方法在传达通用旋律的特定效价方面的潜力。

通过可视化参考指令调优推进图表问答中的多模态大语言模型

分类: 计算机视觉和模式识别, 人工智能

作者: Xingchen Zeng, Haichuan Lin, Yilin Ye, Wei Zeng

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20174v1

摘要: 新兴的多模态大语言模型(MLLM)在图表问答(CQA)方面展现出巨大的潜力。最近的工作主要集中在通过数据收集和综合来扩展训练数据集(即图表、数据表和问答(QA)对)。然而,我们对现有 MLLM 和 CQA 数据集的实证研究揭示了显着的差距。首先,当前的数据收集和合成主要关注数据量,缺乏对细粒度视觉编码和QA任务的考虑,导致数据分布不平衡,与实际的CQA场景背道而驰。其次,现有的工作遵循最初为自然图像设计的基础 MLLM 的训练方法,没有充分探索对独特图表特征(例如富文本元素)的适应。为了填补这一空白,我们提出了一种可视化参考指令调整方法来指导训练数据集增强和模型开发。具体来说,我们提出了一种新颖的数据引擎,可以有效地从现有数据集中过滤多样化和高质量的数据,然后使用基于 LLM 的生成技术来细化和增强数据,以更好地与实际的 QA 任务和视觉编码保持一致。然后,为了促进对图表特征的适应,我们利用丰富的数据通过解冻视觉编码器并结合混合分辨率适应策略来训练 MLLM,以增强细粒度识别。实验结果验证了我们方法的有效性。即使训练示例较少,我们的模型在既定基准上始终优于最先进的 CQA 模型。我们还贡献了一个数据集分割作为未来研究的基准。本文的源代码和数据集可在https://github.com/zengxingchen/ChartQA-MLLM获取。

LatentArtiFusion:有效且高效的组织学伪影恢复框架

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者: Zhenqi He, Wenrui Liu, Minghao Yin, Kai Han

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20172v1

摘要: 组织学伪影给病理学家和计算机辅助诊断 (CAD) 系统带来了挑战,导致分析错误。当前基于生成对抗网络(GAN)和像素级扩散模型的组织学伪影恢复方法存在性能限制和计算效率低下的问题。在本文中,我们提出了一种新颖的框架LatentArtiFusion,它利用潜在扩散模型(LDM)以高性能和计算效率重建组织学伪影。与传统的像素级扩散框架不同,LatentArtiFusion 在较低维的潜在空间中执行恢复过程,显着提高了计算效率。此外,我们在潜在空间中引入了一种新颖的区域伪影重建算法,以防止非伪影区域中的误转移,这将我们的方法与基于 GAN 的方法区分开来。通过对真实世界组织学数据集进行大量实验,LatentArtiFusion 展示了惊人的速度,其性能比最先进的像素级扩散框架高出 30 倍以上。在多个评估指标中,它始终优于基于 GAN 的方法至少 5%。此外,我们评估了我们提出的框架在下游组织分类任务中的有效性,展示了其实用性。代码可在 https://github.com/bugs-creator/LatentArtiFusion 获取。

用于多机器人导航的语言条件离线强化学习

分类: 机器人技术, 人工智能, 机器学习

作者: Steven Morad, Ajay Shankar, Jan Blumenkamp, Amanda Prorok

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20164v1

摘要: 我们提出了一种为解释和遵循自然语言指令的多机器人团队开发导航策略的方法。我们以预训练大型语言模型 (LLM) 的嵌入为条件设定这些策略,并通过离线强化学习使用短短 20 分钟的随机收集数据来训练它们。对五个真实机器人组成的团队进行的实验表明,这些策略可以很好地推广到看不见的命令,表明对 LLM 潜在空间的理解。我们的方法不需要模拟器或环境模型,并且产生低延迟控制策略,可以直接部署到真实的机器人而无需微调。我们在 https://sites.google.com/view/llm-marl 上提供了实验视频。

rLLM:使用 LLM 进行关系表学习

分类: 人工智能

作者: Weichen Li, Xiaotong Huang, Jianwu Zheng, Zheng Wang, Chaokun Wang, Li Pan, Jianhua Li

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20157v1

摘要: 我们介绍 rLLM (relationLLM),这是一个 PyTorch 库,专为具有大型语言模型 (LLM) 的关系表学习 (RTL) 设计。核心思想是将最先进的图神经网络、LLM和表神经网络分解为标准化模块,从而能够通过简单的“组合、对齐和协同训练”快速构建新颖的RTL型模型“ 方式。为了说明 rLLM 的用法,我们引入一个名为 \textbf{BRIDGE} 的简单 RTL 方法。此外,我们通过增强经典数据集,提出了三个新颖的关系表格数据集(TML1M、TLF2K 和 TACM12K)。我们希望 rLLM 能够成为 RTL 相关任务的有用且易于使用的开发框架。我们的代码位于:https://github.com/rllm-project/rllm。

通过深度强化学习进行量子机器学习架构搜索

分类: 量子物理学, 人工智能, 新兴技术, 机器学习, 神经和进化计算

作者: Xin Dai, Tzu-Chieh Wei, Shinjae Yoo, Samuel Yen-Chi Chen

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20147v1

摘要: 量子计算(QC)和机器学习(ML)的快速发展催生了量子机器学习(QML)领域的蓬勃发展,旨在利用量子计算的优势推动机器学习向前发展。尽管前景广阔,但构建有效的 QML 模型需要深厚的专业知识,才能在模型复杂性和噪声中尺度量子 (NISQ) 设备上的可行性之间取得微妙的平衡。虽然复杂的模型提供了强大的表示能力,但其广泛的电路深度可能会阻碍现有的嘈杂量子平台上的无缝执行。在本文中,我们通过采用深度强化学习来探索针对指定监督学习任务量身定制的熟练 QML 模型架构,解决了 QML 模型设计的这一难题。具体来说,我们的方法涉及训练 RL 代理来设计促进 QML 模型发现的策略,而无需预先确定 ansatz。此外,我们集成了自适应机制来动态调整学习目标,促进代理学习过程的持续改进。通过广泛的数值模拟,我们说明了我们的方法在分类任务领域的有效性。我们提出的方法成功地识别了能够实现高分类精度同时最小化门深度的 VQC 架构。这种开创性的方法不仅推进了人工智能驱动的量子电路设计的研究,而且为增强 NISQ 时代的性能带来了重大希望。

ByteCheckpoint:用于 LLM 开发的统一检查点系统

分类: 人工智能

作者: Borui Wan, Mingji Han, Yiyao Sheng, Zhichao Lai, Mofan Zhang, Junda Zhang, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20143v1

摘要: 现实世界的大型语言模型 (LLM) 的开发需要在持久存储中对训练状态进行检查点设置,以减轻潜在的软件和硬件故障,并促进训练管道内和各种任务之间的检查点传输。由于 LLM 规模巨大,保存和加载检查点常常会导致难以忍受的分钟级停顿,从而显着降低训练效率。此外,在跨任务传输检查点时,通常需要根据特定任务的特点和资源配额,进行检查点重新分片,定义为将检查点加载到与用于保存的并行配置不同的并行配置中。以前的检查点系统[16,3,33,6]假设一致的并行配置,未能解决重新分片期间检查点转换的复杂性。此外,在行业平台中,开发人员从不同的训练框架创建检查点[23,36,21,11],每个框架都有自己独特的存储和I/O逻辑。这种多样性使得统一检查点管理和优化的实施变得复杂。为了应对这些挑战,我们引入了 ByteCheckpoint,这是一个 PyTorch 原生多框架 LLM 检查点系统,支持自动在线检查点重新分片。 ByteCheckpoint 采用数据/元数据分解存储架构,将检查点存储与所采用的并行策略和训练框架解耦。我们设计了一种高效的异步张量合并技术来解决不规则张量分片问题,并提出了几种 I/O 性能优化以显着提高检查点保存和加载的效率。实验结果表明,与基线方法相比,ByteCheckpoint 在降低检查点保存(高达 529.22 倍)和加载(高达 3.51 倍)成本方面具有显着优势。

接受还是不接受?用于了解教育者对高等教育中生成式人工智能的抵制的 IRT-TOE 框架

分类: 计算机与社会, 人工智能, 新兴技术, 人机交互, 信息论, 信息论

作者: Jan-Erik Kalmus, Anastasija Nikiforova

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20130v1

摘要: 自从 Chat Generative Pre-Trained Transformer (ChatGPT) 公开发布以来,关于将生成人工智能 (GenAI) 融入教育的潜在优势和挑战出现了广泛的讨论。在信息系统领域,对技术采用的研究对于理解影响特定技术采用的各种因素至关重要。理论框架经过数十年的完善和验证,可作为指导工具来阐明个人和组织的动态、障碍以及围绕技术采用的看法。然而,虽然已经提出了几种模型,但它们通常优先阐明促进接受的因素,而不是阻碍接受的因素,通常关注学生的观点,并在有关教育者观点的经验证据方面留下空白。鉴于教育工作者在高等教育中发挥的关键作用,本研究旨在开发一个理论模型,以实证预测教育工作者在课堂上采用 GenAI 的障碍。认识到缺乏专门用于识别此类障碍的理论模型,我们的方法以创新阻力理论(IRT)框架为基础,并通过技术-组织-环境(TOE)框架的构建进行了增强。该模型转变为采用定量方法的测量工具,并辅以定性方法,以丰富分析并揭示与高等教育领域采用 GenAI 相关的问题。

AxiomVision:用于视角感知视频分析的保证准确性的自适应视觉模型选择

分类: 多媒体, 人工智能

作者: Xiangxiang Dai, Zeyu Zhang, Peng Yang, Yuedong Xu, Xutong Liu, John C. S. Lui

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20124v2

摘要: 多媒体和计算机视觉技术的快速发展需要自适应视觉模型部署策略来有效处理不同的任务和不同的环境。这项工作引入了 AxiomVision,这是一种新颖的框架,可以通过利用边缘计算在不同场景下动态选择最有效的视频分析视觉模型来保证准确性。 AxiomVision 利用分层边缘云架构,能够部署从轻量级到复杂 DNN 的广泛视觉模型,这些模型可以根据特定场景进行定制,同时考虑相机源影响。此外,AxiomVision还提供了三项核心创新:(1)利用持续在线学习的动态视觉模型选择机制,(2)一种有效考虑相机视角影响的在线方法,以及(3)拓扑驱动的视觉模型选择机制。加速模型选择过程的分组方法。凭借严格的理论保证,这些进步为多媒体系统固有的视觉任务(例如对象检测、分类和计数)提供了可扩展且有效的解决方案。根据经验,AxiomVision 的准确率提高了 25.7%。

EXIT:用于跨域推荐的显式兴趣转移框架

分类: 信息检索, 人工智能

作者: Lei Huang, Weitao Li, Chenrui Zhang, Jinpeng Wang, Xianchun Yi, Sheng Chen

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20121v1

摘要: 跨领域推荐引起了美团等行业应用的极大兴趣,它通过知识转移服务于多个业务领域,满足用户的多样化兴趣。然而,现有方法通常遵循隐式建模范式,混合来自源域和目标域的知识,并设计复杂的网络结构以在域之间共享学习的嵌入或模式,以提高推荐准确性。由于兴趣信号的传递是无监督的,这些隐式范式常常与不同领域的服务功能和呈现形式的差异所导致的负传递作斗争。在本文中,我们提出了一个简单而有效的显式兴趣转移框架,名为 EXIT 来解决上述挑战。具体来说,我们提出了一种新颖的标签组合方法,使模型能够通过监督学习直接学习有益的源域兴趣,同时排除不适当的兴趣信号。此外,我们引入了场景选择器网络来模拟细粒度场景下的兴趣转移强度。在工业生产数据集上进行的离线实验和在线 A/B 测试验证了我们提出的框架的优越性和有效性。无需复杂的网络结构或训练过程,EXIT可以轻松部署在工业推荐系统中。 EXIT已成功部署在美团App的在线首页推荐系统中,服务于主要流量。

未知簇数非结构化数据的自适应自监督鲁棒聚类

分类: 机器学习, 人工智能

作者: Chen-Lu Ding, Jiancan Wu, Wei Lin, Shiyang Shen, Xiang Wang, Yancheng Yuan

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20119v2

摘要: 我们引入了一种专为非结构化数据量身定制的新型自监督深度聚类方法,无需事先了解聚类数量,称为自适应自监督鲁棒聚类(ASRC)。特别是,ASRC 自适应学习图结构和边权重以捕获局部和全局结构信息。获得的图使我们能够通过具有对比学习技术的增强图自动编码器来学习聚类友好的特征表示。它进一步利用鲁棒连续聚类(RCC)自适应获得的聚类结果来生成负采样的原型,这可以进一步有助于促进正对之间的一致性并扩大正负样本之间的差距。 ASRC通过将RCC应用到学习到的具有一致的图结构和边权重的特征表示来获得最终的聚类结果。在七个基准数据集上进行的大量实验证明了 ASRC 的有效性,证明了其优于其他流行聚类模型的性能。值得注意的是,ASRC 甚至优于依赖于集群数量先验知识的方法,突显了其在解决非结构化数据集群挑战方面的有效性。

FiCo-ITR:桥接细粒度和粗粒度图像文本检索以进行比较性能分析

分类: 信息检索, 人工智能, 计算机视觉和模式识别

作者: Mikel Williams-Lekuona, Georgina Cosma

发布时间: 2024-07-29

链接: http://arxiv.org/abs/2407.20114v1

摘要: 在图像文本检索(ITR)领域,最近的进展利用大规模视觉语言预训练(VLP)进行细粒度(FG)实例级检索,以增加计算复杂性为代价实现高精度。对于粗粒度(CG)类别级检索,著名的方法采用跨模态哈希(CMH)来优先考虑效率,尽管以牺牲检索性能为代价。由于方法论的差异,FG 和 CG 模型很少在文献评估中直接进行比较,导致缺乏量化两者之间检索性能与效率权衡的经验数据。本文通过引入 FiCo-ITR 库来解决这一差距,该库标准化了 FG 和 CG 模型的评估方法,从而促进直接比较。我们对两个子领域的代表性模型进行实证评估,分析不同数据规模的精度、召回率和计算复杂性。我们的研究结果为最近代表性的 FG 和 CG 模型之间的性能效率权衡提供了新的见解,突出了它们各自的优势和局限性。这些发现为针对特定检索任务的模型选择做出更明智的决策提供了必要的基础,并强调了未来研究利用 FG 和 CG 方法优势的混合系统的途径。

SOAP-RL:POMDP 环境中强化学习的顺序选项优势传播

分类: 机器学习, 人工智能

作者: Shu Ishida, João F. Henriques

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18913v1

摘要: 这项工作比较了将强化学习算法扩展到部分观察马尔可夫决策过程 (POMDP) 的方法和选项。选项的一种观点是作为临时扩展的动作,它可以被实现为允许代理保留策略上下文窗口之外的历史信息的存储器。虽然可以使用启发式和手工制定的目标来处理选项分配,但在没有明确监督的情况下学习时间一致的选项和相关的子策略是一个挑战。为了解决这个问题,提出并深入研究了两种算法:PPOEM 和 SOAP。 PPOEM 应用前向-后向算法(针对隐马尔可夫模型)来优化选项增强策略的预期回报。然而,这种学习方法在策略推出期间不稳定。它也不适合在不了解未来轨迹的情况下学习因果策略,因为选项分配针对整个情节可用的离线序列进行了优化。作为一种替代方法,SOAP 评估最优选项分配的策略梯度。它扩展了广义优势估计(GAE)的概念,以随时间传播期权优势,这在分析上相当于执行期权策略梯度的时间反向传播。此选项策略仅以代理的历史记录为条件,而不以未来的操作为条件。根据竞争基线进行评估,SOAP 表现出了最强大的性能,能够正确发现 POMDP 走廊环境的选项,并且在包括 Atari 和 MuJoCo 在内的标准基准上表现优于 PPOEM,以及 LSTM 和 Option-Critic 基线。开源代码可在 https://github.com/shuishida/SoapRL 获取。

用于图像分类的可扩展量子非局部神经网络

分类: 计算机视觉和模式识别, 人工智能, 信息论, 机器学习, 信息论, 量子物理学

作者: Sparsh Gupta, Debanjan Konar, Vaneet Aggarwal

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18906v1

摘要: 非局部运算在计算机视觉中发挥着至关重要的作用,能够通过输入特征的加权和来捕获远程依赖关系,超越了仅关注局部邻域的传统卷积运算的限制。非局部操作通常需要计算集合中所有元素之间的成对关系,从而导致时间和内存方面的复杂度呈二次方。由于计算和内存需求较高,将非局部神经网络扩展到大规模问题可能具有挑战性。本文介绍了一种混合量子经典可扩展非局部神经网络,称为量子非局部神经网络(QNL-Net),以增强模式识别。所提出的 QNL-Net 依靠固有的量子并行性来允许同时处理大量输入特征,从而在量子增强特征空间中实现更高效的计算,并通过量子纠缠涉及成对关系。我们将我们提出的 QNL-Net 与其他量子对应物进行基准测试,以使用数据集 MNIST 和 CIFAR-10 进行二元分类。模拟结果表明,我们的 QNL-Net 在利用更少的量子位的同时,在量子分类器中的二值图像分类中实现了最先进的准确度水平。

学习旋转“笔”的教训

分类: 机器人技术, 人工智能, 机器学习

作者: Jun Wang, Ying Yuan, Haichuan Che, Haozhi Qi, Yi Ma, Jitendra Malik, Xiaolong Wang

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18902v1

摘要: 手动操作笔状物体是我们日常生活中的一项重要技能,因为锤子和螺丝刀等许多工具的形状相似。然而,由于缺乏高质量的演示以及模拟与现实世界之间的巨大差距,当前基于学习的方法很难完成这项任务。在这项工作中,我们通过展示旋转笔状物体的能力来突破基于学习的手动操纵系统的界限。我们首先使用强化学习来训练具有特权信息的预言机策略,并在模拟中生成高保真轨迹数据集。这有两个目的:1)在模拟中预训练感觉运动策略; 2)在现实世界中进行开环轨迹回放。然后,我们使用这些现实世界的轨迹来微调感觉运动策略,使其适应现实世界的动态。通过不到 50 条轨迹,我们的策略学会了将十多个具有不同物理属性的笔状物体旋转多次。我们对我们的设计选择进行了全面分析,并分享了开发过程中吸取的经验教训。

AppWorld:用于对交互式编码代理进行基准测试的应用程序和人员的可控世界

分类: 软件工程, 人工智能, 计算和语言, 机器学习

作者: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18901v1

摘要: 处理日常数字任务(例如,为家庭订购杂货)的自主代理不仅必须通过 API 操作多个应用程序(例如,笔记、消息传递、购物应用程序),而且还要生成具有复杂控制流的丰富代码基于它们与环境的交互的迭代方式。然而,现有的工具使用基准还不够,因为它们仅涵盖需要简单 API 调用序列的任务。为了弥补这一差距,我们构建了 $\textbf{AppWorld Engine}$,这是一个由 9 个日常应用程序组成的高质量执行环境(6 万行代码),可通过 457 个 API 进行操作,并填充了模拟人们生活的真实数字活动。 ~100 个虚构用户。然后,我们创建了 $\textbf{AppWorld Benchmark}$ (40K 行代码),这是一套包含 750 个自然、多样化且具有挑战性的自主代理任务,需要丰富的交互式代码生成。它支持通过基于状态的单元测试进行稳健的程序化评估,允许以不同的方式完成任务,同时还检查意外的变化,即附带损害。最先进的 LLM GPT-4o 仅解决了约 49% 的“正常”任务和约 30% 的“挑战”任务,而其他模型解决的问题至少少了 16%。这凸显了基准测试的难度以及 AppWorld 推动交互式编码代理前沿的潜力。该项目网站位于 https://appworld.dev/。

吸取经验教训:通过对比采样和视觉持久性实现无源主动域适应

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Mengyao Lyu, Tianxiang Hao, Xinhao Xu, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18899v1

摘要: 领域适应 (DA) 促进知识从源领域转移到相关目标领域。本文研究了一种实用的 DA 范式,即无源数据主动域适应(SFADA),其中源数据在适应过程中变得不可访问,并且目标域中可用的注释预算最少。在不参考源数据的情况下,在识别信息最丰富的目标样本进行标记、在适应过程中建立跨域对齐以及通过迭代查询和适应过程确保持续性能改进等方面出现了新的挑战。作为回应,我们提出了从学习中学习(LFTL),这是 SFADA 的一种新颖范式,可以利用从源预训练模型和主动迭代模型中学到的知识,而无需额外的开销。我们提出对比主动采样来从前面模型的假设中学习,从而查询既能为当前模型提供信息又在主动学习过程中持续具有挑战性的目标样本。在适应过程中,我们从以前的中间模型获得的主动选择的锚点的特征中学习,以便视觉持久引导的适应可以促进特征分布对齐和主动样本利用。对三个广泛使用的基准进行的大量实验表明,我们的 LFTL 实现了最先进的性能、卓越的计算效率,并随着注释预算的增加而不断改进。我们的代码可在 https://github.com/lyumengyao/lftl 获取。

SHANGUS:深度强化学习与启发式优化相结合,实现未知空间中自动驾驶车辆的快速前沿探索

分类: 机器人技术, 人工智能, 系统与控制, 系统与控制

作者: Seunghyeop Nam, Tuan Anh Nguyen, Eunmi Choi, Dugki Min

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18892v1

摘要: 本文介绍了 SHANGUS,这是一种将深度强化学习 (DRL) 与启发式优化相结合的先进框架,可提高未知环境中基于前沿的探索效率,特别是对于自主航空服务、搜索和救援行动以及太空探索机器人中的智能车辆。 SHANGUS 利用 DRL 的适应性和启发式优先级,显着提高勘探效率、缩短完成时间并最大限度地缩短行驶距离。该策略涉及一个前沿选择节点来识别未探索的区域,以及一个 DRL 导航节点,该节点使用双延迟深度确定性策略梯度 (TD3) 算法来实现稳健的路径规划和动态避障。在ROS2和Gazebo仿真环境中的大量实验表明,SHANGUS超越了最近前沿(NF)、基于新颖前沿的探索算法(CFE)和目标驱动自主探索(GDAE)算法等代表性传统方法,尤其是在复杂场景下,表现出色完成时间、行驶距离和探索率。这种可扩展的解决方案适用于工业自动化、自动驾驶、家用机器人和太空探索等领域的实时自主导航。未来的研究将整合额外的感官输入并完善启发式功能,以进一步提高 SHANGUS 的效率和稳健性。

用于估算稀疏学习性能的生成对抗网络

分类: 机器学习, 人工智能

作者: Liang Zhang, Mohammed Yeasin, Jionghao Lin, Felix Havugimana, Xiangen Hu

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18875v1

摘要: 学习表现数据,例如对智能辅导系统 (ITS) 中问题的正确或错误回答,对于跟踪和评估学习者的进步和知识掌握至关重要。然而,以未探索的问题和缺失的尝试为特征的数据稀疏问题阻碍了智能交通系统内的准确评估和提供量身定制的个性化指导。本文提出使用生成对抗插补网络(GAIN)框架来插补稀疏学习绩效数据,将其重建为跨学习者、问题和尝试维度的三维(3D)张量表示。我们定制的基于 GAIN 的方法计算过程将稀疏数据插补到 3D 张量空间中,并通过其输入和输出层的卷积神经网络显着增强。这种适应还包括使用最小二乘损失函数进行优化,并将输入和输出的形状与沿着学习者维度的问题尝试矩阵的维度对齐。通过对来自不同 ITS(包括 AutoTutor、ASSISTments 和 MATHia)的六个数据集进行广泛实验,我们证明 GAIN 方法在插补精度方面通常优于现有方法,例如张量分解和其他基于生成对抗网络 (GAN) 的方法。这一发现增强了基于人工智能的教育中全面的学习数据建模和分析。

参与混合视觉能力家庭的儿童艺术作品

分类: 人机交互, 人工智能

作者: Arnavi Chheda-Kothary, Jacob O. Wobbrock, Jon E. Froehlich

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18874v1

摘要: 我们提出了两项​​研究,探讨盲人或低视力 (BLV) 家庭成员如何参与视力正常儿童的艺术作品、支持理解和解释的策略,以及人工智能等技术在其中的潜在作用。我们的第一项研究涉及 14 名 BLV 个体,第二项研究则包括五组 BLV 个体及其子女。通过对儿童艺术作品的人工智能描述和多感官设计探索的半结构化访谈,我们发现 BLV 家庭成员将艺术作品的参与视为一种联系机会,与其他非视觉表现相比,更喜欢孩子的故事讲述和解释。此外,尽管存在一些不准确之处,BLV 家族成员认为人工智能生成的描述可以促进与孩子的对话,并有助于自我引导的艺术发现。我们最后讨论了支持混合视觉能力家庭的艺术品参与的具体设计考虑因素,包括通过各种方法实现艺术品访问、支持儿童对人工智能输出的纠正,以及儿童艺术品的上下文与内容以及解释与描述的区别。

通过扩散模型统一视觉和语义特征空间以增强跨模态对齐

分类: 计算机视觉和模式识别, 人工智能

作者: Yuze Zheng, Zixuan Li, Xiangxian Li, Jinxing Liu, Yuqing Wang, Xiangxu Meng, Lei Meng

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18854v1

摘要: 由于图像信息的变化(由主体对象的不同视觉视角和照明差异驱动),图像分类模型在现实应用中通常表现出不稳定的性能。为了缓解这些挑战,现有的研究通常会结合与视觉数据匹配的附加模态信息来规范模型的学习过程,从而能够从复杂的图像区域中提取高质量的视觉特征。具体来说,在多模态学习领域,跨模态对齐被认为是一种有效的策略,通过学习视觉和语义特征的领域一致的潜在特征空间来协调不同的模态信息。然而,由于多模态信息之间的异质性,例如特征分布和结构的差异,这种方法可能面临局限性。为了解决这个问题,我们引入了多模态对齐和重建网络(MARNet),旨在增强模型对视觉噪声的抵抗力。重要的是,MARNet 包含一个跨模态扩散重建模块,用于平滑、稳定地混合不同领域的信息。在 Vireo-Food172 和 Ingredient-101 两个基准数据集上进行的实验表明,MARNet 有效提高了模型提取的图像信息的质量。它是一个即插即用的框架,可以快速集成到各种图像分类框架中,从而提高模型性能。

使用弱化和完成修复 $\mathcal{EL_\perp}$ 本体网络 - 扩展版本

分类: 人工智能, 计算机科学中的逻辑

作者: Ying Li, Patrick Lambrix

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18848v1

摘要: 本体的质量及其对齐对于开发高质量的基于语义的应用程序至关重要。传统的调试技术通过删除不需要的公理和映射来修复本体网络,但可能从而删除本体网络领域中正确的结果。在本文中,我们提出了一个修复本体网络的框架来解决这个问题。它定义了调试、弱化和完成等基本操作。此外,它定义了组合算子,反映了如何以及何时使用基本算子的选择,以及有关本体的自治级别和本体网络中的对齐的选择。我们展示了组合算子对修复网络质量的影响,并提出了一个实施的工具。通过将我们的框架与现有算法一起使用来进行调试、弱化和完成,我们本质上为扩展以前的工作和系统提供了一个蓝图。

使用集成深度图卷积网络增强材料属性预测

分类: 机器学习, 人工智能

作者: Chowdhury Mohammad Abid Rahman, Ghadendra Bhandari, Nasser M Nasrabadi, Aldo H. Romero, Prashnna K. Gyawali

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18847v1

摘要: 机器学习 (ML) 模型已成为通过成分和结构数据准确预测性能来加速材料发现和设计的强大工具。这些能力对于开发能源、电子和生物医学等领域的先进技术至关重要,有可能减少新材料探索所需的时间和资源,并促进快速创新周期。最近的工作重点是采用先进的机器学习算法,包括基于深度学习的图神经网络,进行属性预测。此外,事实证明,集成模型可以增强 ML 和 DL 的通用性和鲁棒性。然而,在深度图网络中使用这种集成策略来预测材料特性仍然没有得到充分探索。我们的研究对基于深度学习的图神经网络中的集成策略进行了深入评估,特别针对材料属性预测任务。通过测试水晶图卷积神经网络 (CGCNN) 及其多任务版本 MT-CGCNN,我们证明了集成技术,尤其是预测平均,在每个原子的形成能等关键属性 ($\Delta E^ 33,990 种稳定无机材料中的 {f}$)、带隙 ($E_{g}$) 和密度 ($\rho$)。这些发现支持集成方法的更广泛应用,以提高该领域的预测准确性。

人类与人工智能团队使用大型语言模型从数据驱动的增材制造研究中提取科学信息

分类: 信息检索, 人工智能

作者: Mutahar Safdar, Jiarui Xie, Andrei Mircea, Yaoyao Fiona Zhao

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18827v1

摘要: 近年来,增材制造 (AM) 领域的数据驱动研究取得了巨大成功。这导致了大量科学文献的出现。这些作品中的知识由增材制造和人工智能 (AI) 背景组成,尚未以综合方式进行挖掘和形式化。从这些作品中提取科学信息需要大量的努力和时间。 AM 领域专家贡献了两打评论论文来总结这些工作。然而,特定于 AM 和 AI 环境的信息仍然需要手动提取。 BERT(Transformers 双向编码器表示)或 GPT(生成式预训练 Transformers)等基础模型最近在文本数据上取得的成功,为加快科学信息提取提供了可能性。我们提出了一个框架,使增材制造和人工智能专家能够协作,不断从数据驱动的增材制造文献中提取科学信息。基于所提出的框架实现了演示工具,并进行了案例研究以提取与数据集、建模、传感和 AM 系统类别相关的信息。我们展示了 LLM(大型语言模型)加快从数据驱动的 AM 文献中提取相关信息的能力。将来,该框架可用于从工程学科中更广泛的设计和制造文献中提取信息。

具有状态请求的 POMDP 在线规划

分类: 机器学习, 人工智能

作者: Raphael Avalos, Eugenio Bargiacchi, Ann Nowé, Diederik M. Roijers, Frans A. Oliehoek

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18812v1

摘要: 在现实世界的关键问题中,有时可以获得完整的状态信息,但成本很高,例如激活精确但耗能的传感器或咨询人类,从而迫使智能体在部分可观察性下运行。对于这种情况,我们提出了 AEMS-SR(带有状态请求的随时错误最小化搜索),这是一种为带有状态请求的 POMDP 量身定制的有原则的在线规划算法。通过将搜索空间表示为图而不是树,AEMS-SR 避免了源自状态请求的搜索空间的指数增长。理论分析证明了AEMS-SR的$\varepsilon$-最优性,保证了解决方案的质量,而实证评估则说明了其与AEMS和POMCP这两种SOTA在线规划算法相比的有效性。 AEMS-SR 可在以部分可观测性和昂贵的状态请求为特征的领域中实现高效规划,从而在各种应用程序中提供实际好处。

使用神经跳跃常微分方程学习混沌系统和长期预测

分类: 机器学习, 人工智能, 机器学习, 动力系统, 可能性

作者: Florian Krach, Josef Teichmann

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18808v1

摘要: 路径相关神经跳跃 ODE (PD-NJ-ODE) 是一种在线预测通用(可能是非马尔可夫)随机过程的模型,具有不规则(时间上)和可能不完整(相对于坐标)观测值。该模型在理论上建立了收敛到由条件期望给出的 $L^2$ 最优预测器的模型。因此,模型的训练仅基于底层随机过程的实现数据集,而不需要了解该过程的规律。在基础过程是确定性的情况下,条件期望与过程本身一致。因此,该框架可以等效地用于仅从具有不同初始条件的动力系统的实现来学习 ODE 或 PDE 系统的动力学。我们通过将其应用于双摆混沌系统来展示我们的方法的潜力。在训练标准 PD-NJ-ODE 方法时,我们发现预测在大约一半的评估时间后开始偏离真实路径。在这项工作中,我们用两个新颖的想法增强了模型,这两个想法彼此独立地提高了我们建模设置的性能。由此产生的动力学与混沌系统的真实动力学非常接近。相同的增强功能可用于证明使 PD-NJ-ODE 能够学习标准模型失败的一般随机数据集的长期预测。这在多次实验中得到了验证。

贝叶斯并行分支图神经网络中的鲁棒学习:窄宽度限制

分类: 机器学习, 人工智能

作者: Zechen Zhang, Haim Sompolinsky

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18807v1

摘要: 众所周知,随机神经网络的无限宽度限制会导致神经网络作为高斯过程(NNGP)(Lee 等人[2018]),其特征是任务无关的内核。人们普遍认为,较大的网络宽度有助于提高泛化能力(Park et al. [2019])。然而,这项工作通过研究贝叶斯并行分支图神经网络(BPB-GNN)(一种类似于残差网络的架构)的窄宽度限制来挑战这一概念。我们证明,当 BPB-GNN 的宽度明显小于训练样本的数量时,由于核重正化中分支的对称性破缺,每个分支都表现出更稳健的学习。令人惊讶的是,在偏差有限的场景中,BPB-GNN 在窄宽度限制下的性能通常优于或可与在宽宽度限制下实现的性能相媲美。此外,窄宽度限制中每个分支的读出规范大多独立于架构超参数,但通常反映数据的性质。我们的结果总体上表征了新定义的并行分支网络的窄宽度机制。

从哲学家的角度理解 XAI:历史的视角

分类: 人工智能

作者: Martina Mattioli, Antonio Emanuele Cinà, Marcello Pelillo

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18782v1

摘要: 尽管可解释的人工智能(XAI)最近成为一个热门话题,并且已经开发了几种不同的方法,但人们仍然普遍认为它缺乏令人信服的统一基础。另一方面,在过去的几个世纪里,解释的概念本身一直是广泛的哲学分析的主题,试图在科学法的背景下解决“为什么”的基本问题。然而,这种讨论很少与 XAI 联系起来。本文试图填补这一空白,旨在通过认识论的视角探索人工智能中的解释概念。通过比较科学哲学和人工智能的历史发展,一幅有趣的图景出现了。具体来说,我们表明,从逻辑演绎到统计解释模型的两个领域都独立地发生了渐进的进展,从而在这两种情况下都经历了从确定性因果关系到非确定性因果关系和概率因果关系的范式转变。有趣的是,我们还注意到,相似的概念在这两个领域中都独立出现,例如解释与理解之间的关系以及实用因素的重要性。我们的研究旨在成为理解人工智能解释概念的哲学基础的第一步,我们希望我们的研究结果能为 XAI 难以捉摸的本质提供一些新的线索。

任意四个实数都趴着类推

分类: 人工智能, 68Txx

作者: Yves Lepage, Miguel Couceiro

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18770v1

摘要: 这项工作提出了依赖于广义方法的数字类比的形式化。它受到人工智能和机器学习应用的最新进展的推动,其中类比的概念用于推断结果、创建数据,甚至作为对象表示或嵌入的评估工具,这些对象表示或嵌入基本上是数字的集合(向量、矩阵、张量)。这种扩展类比的使用需要数学基础和对数字之间类比概念的清晰理解。我们提出了一种统一的类比视图,该类比依赖于功率参数定义的广义方法。特别是,我们证明任何四个递增的正实数都是唯一合适幂的类比。此外,我们证明任何这样的类比都可以简化为等价的算术类比,并且任何类比方程都有一个递增数的解,它可以不受复数限制地推广。这些基础结果可以更好地理解数字表示领域的类比。

TAGIFY:LLM 支持的标签接口,可提高 OGD 门户上的数据可查找性

分类: 计算机与社会, 人工智能, 新兴技术, 人机交互

作者: Kevin Kliimask, Anastasija Nikiforova

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18764v1

摘要: 自 2000 年代中期以来,旨在促进开放政府数据 (OGD) 的努力在各级政府中获得了巨大的关注。随着越来越多的数据集在 OGD 门户上发布,查找特定数据变得更加困难,从而导致信息过载。完整而准确的数据集文档,包括将适当的标签与数据集关联起来,是提高数据集可查找性和可访问性的关键。对爱沙尼亚开放数据门户进行的分析显示,11% 的数据集没有关联标签,而 26% 的数据集仅分配了一个标签,这凸显了门户内数据可查找性和可访问性方面的挑战,根据最近的开放数据成熟度报告被认为是趋势引领者。本研究的目的是提出一种标记数据集的自动化解决方案,以提高 OGD 门户上数据的可查找性。本文介绍了 Tagify - 一种标记接口原型,它采用 GPT-3.5-turbo 和 GPT-4 等大型语言模型 (LLM) 来自动化数据集标记,为数据集生成英语和爱沙尼亚语标记,从而增强数据发布者的元数据准备工作提高数据用户在 OGD 门户上的数据可查找性。用户对开发的解决方案进行了评估,并收集了他们的反馈,以确定未来原型改进的议程。

通过变形测试评估人体轨迹预测

分类: 软件工程, 人工智能

作者: Helge Spieker, Nassim Belmecheri, Arnaud Gotlieb, Nadjib Lazaar

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18756v1

摘要: 人类轨迹的预测对于在现实世界中运行的自主系统(例如,机器人)的规划非常重要。自动驾驶或移动机器人。人类轨迹预测是一个充满噪声的过程,没有任何预测能够精确匹配任何未来的轨迹。因此,它被视为随机问题,其目标是最小化真实轨迹和预测轨迹之间的误差。在这项工作中,我们探索了变质测试在人类轨迹预测中的应用。变形测试旨在处理不清楚或缺失的测试预言。它专为人类轨迹预测而设计,其中没有明确的人类行为正确或不正确的标准。变形关系依赖于源测试用例的转换并利用不变量。为人类轨迹预测精心设计的设置,其中在输入变化下预期人类行为存在许多对称性,例如输入数据的镜像和重新缩放。我们讨论了变质测试如何应用于随机人类轨迹预测,并引入 Wasserstein 违反标准来统计评估后续测试用例是否违反了保留标签的变质关系。

屋顶分数匹配:线性、非线性和潜在变量因果发现

分类: 机器学习, 人工智能, 方法

作者: Francesco Montagna, Philipp M. Faller, Patrick Bloebaum, Elke Kirschbaum, Francesco Locatello

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18755v1

摘要: 从观测数据中发现因果关系前景广阔,但现有方法依赖于对潜在因果结构的强烈假设,通常需要对所有相关变量进行全面观察。我们通过利用观察变量的评分函数 $\nabla \log p(X)$ 进行因果发现来应对这些挑战,并提出以下贡献。首先,我们将现有的可识别性结果推广到对因果机制要求最低的加性噪声​​模型。其次,即使存在隐藏变量,我们也建立了从分数推断因果关系的条件;这个结果是两个方面的:我们证明了分数作为条件独立性测试的替代方法来推断具有隐藏变量的因果图的等价类的潜力,并且我们提供了识别潜在变量模型中的直接原因的必要条件。基于这些见解,我们提出了一种灵活的算法,用于跨线性、非线性和潜变量模型的因果发现,并进行了实证验证。

以知识图结构为提示:提高小语言模型基于知识的因果发现能力

分类: 计算和语言, 人工智能

作者: Yuni Susanti, Michael Färber

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18752v1

摘要: 因果发现旨在根据观测数据估计变量之间的因果结构。大型语言模型 (LLM) 通过推理与变量相关的元数据而不是其实际数据值,提供了解决因果发现问题的新视角,这种方法称为基于知识的因果发现。在本文中,我们研究了小语言模型(SLM,定义为参数少于 10 亿个 LLM)的能力,以及基于知识的因果发现的基于提示的学习。具体来说,我们提出了 KG Structure as Prompt,这是一种将知识图谱中的结构信息(例如公共邻居节点和元路径)集成到基于提示的学习中以增强 SLM 功能的新颖方法。在少量样本设置下对三种类型的生物医学和开放域数据集的实验结果证明了我们的方法的有效性,超越了大多数基线,甚至超过了在完整数据集上训练的传统微调方法。我们的研究结果进一步凸显了 SLM 的强大功能:结合知识图和基于提示的学习,SLM 展示了超越具有更多参数的 LLM 的潜力。我们的代码和数据集可在 GitHub 上获取。

SysML和BPMN中的多机器人系统架构设计

分类: 人工智能, 机器人技术, 软件工程

作者: Ahmed R. Sadik, Christian Goerick

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18749v1

摘要: 多机器人系统(MRS)是一个复杂的系统,包含许多不同的软件和硬件组件。本文解决的主要问题是 MRS 设计的复杂性。所提出的解决方案提供了基于形式系统工程方法的模块化建模和仿真技术,因此分解并降低了MRS设计复杂性。 MRS 的建模是通过两种正式的架构描述语言 (ADL) 实现的,即系统建模语言 (SysML) 和业务流程模型和表示法 (BPMN),以设计系统蓝图。通过使用这些抽象设计 ADL,项目的实施变得与技术无关。这允许将设计概念从一种编程语言转移到另一种编程语言。在模拟阶段,使用多智能体环境来模拟 MRS 蓝图。仿真已在Java Agent Development (JADE) 中间件中实现。因此,其结果可以以绩效评估矩阵的形式用于分析和验证所提出的MRS模型。

走向广义的攻击性语言识别

分类: 计算和语言, 人工智能

作者: Alphaeus Dmonte, Tejas Arya, Tharindu Ranasinghe, Marcos Zampieri

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18738v1

摘要: 互联网上攻击性内容的盛行,包括仇恨言论和网络欺凌,是世界范围内普遍存在的问题。因此,它引起了机器学习(ML)和自然语言处理(NLP)社区的极大关注。因此,人们开发了许多系统来自动识别潜在有害内容并减轻其影响。这些系统可以遵循两种方法; (1) 使用公开可用的模型和应用程序端点,包括提示大型语言模型 (LLM) (2) 注释数据集并在其上训练 ML 模型。然而,这两种方法都缺乏对它们的普遍性的理解。此外,这些系统的适用性在域外和实际环境中经常受到质疑。本文通过新颖的通用基准实证评估了攻击性语言检测模型和数据集的通用性。我们回答三个关于普遍性的研究问题。我们的研究结果将有助于创建强大的现实世界攻击性语言检测系统。

AutoRDF2GML:促进图机器学习中的 RDF 集成

分类: 机器学习, 人工智能, 信息检索

作者: Michael Färber, David Lamprecht, Yuni Susanti

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18735v1

摘要: 在本文中,我们介绍了 AutoRDF2GML,这是一个旨在将 RDF 数据转换为为图机器学习任务量身定制的数据表示的框架。 AutoRDF2GML 首次支持创建基于内容的特征(即基于 RDF 数据类型属性的特征)和基于拓扑的特征(即基于 RDF 对象属性的特征)。 AutoRDF2GML 的特点是自动特征提取,即使是不太熟悉 RDF 和 SPARQL 的用户也可以生成适合图机器学习任务的数据表示,例如链接预测、节点分类和图分类。此外,我们还提出了四个新的图机器学习基准数据集,它们是使用我们的框架从大型 RDF 知识图创建的。这些数据集是评估图机器学习方法(例如图神经网络)的宝贵资源。总的来说,我们的框架有效地弥合了图机器学习和语义网社区之间的差距,为基于 RDF 的机器学习应用程序铺平了道路。

神经符号人工智能增强生成人工智能的可指导性

分类: 人工智能

作者: Amit Sheth, Vishal Pallagani, Kaushik Roy

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18722v1

摘要: 生成式人工智能,特别是通过大型语言模型(LLM),已经改变了文本、图像和音乐的内容创建,展示了通过提示遵循指令的能力,这在很大程度上是通过指令调整来促进的。指令调优是一种监督微调方法,其中大语言模型在使用特定任务和相应指令格式化的数据集上进行训练。这种方法系统地增强了模型理解和执行所提供指令的能力。尽管取得了这些进步,大语言模型在一致解释复杂的多步骤指令并将其推广到新任务方面仍然面临挑战,这对于在现实世界场景中更广泛的适用性至关重要。本文探讨了为什么神经符号人工智能为增强大语言模型的可指导性提供了更好的途径。我们探索使用符号任务规划器将高级指令分解为结构化任务,使用神经语义解析器将这些任务分解为可执行动作,以及使用神经符号执行器来实现这些动作,同时动态维护状态的显式表示。我们还试图证明神经符号方法可以增强任务执行的可靠性和情境意识,使大语言模型能够以更高的精度和灵活性动态解释和响应更广泛的教学情境。

无监督知识探索的聚类范数

分类: 人工智能, 计算和语言, 机器学习

作者: Walter Laurito, Sharan Maiya, Grégoire Dhimoïla, Owen, Yeung, Kaarel Hänni

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18712v1

摘要: 语言模型的部署给生成可靠信息带来了挑战,特别是当这些模型根据人类偏好进行微调时。为了在没有(可能)有偏见的人类标签的情况下提取编码知识,已经开发了诸如对比度一致搜索(CCS)之类的无监督探测技术(Burns 等人,2022)。然而,给定数据集中显着但不相关的特征可能会误导这些探针(Farquhar 等人,2023)。为了解决这个问题,我们提出了一种聚类归一化方法,通过在应用无监督探测技术之前对对比对的激活进行聚类和归一化来最小化此类特征的影响。虽然这种方法没有解决区分一般知识和模拟知识的问题——潜在知识启发文献中的一个主要问题(Christiano et al., 2021)——但它显着提高了无监督探测识别预期知识的能力于纷扰之中。

用于复杂系统中虚拟传感的图神经网络:解决异构时间动力学问题

分类: 机器学习, 人工智能, 计算工程、金融和科学

作者: Mengjie Zhao, Cees Taal, Stephan Baggerohr, Olga Fink

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18691v1

摘要: 实时状态监测对于复杂系统的可靠和高效运行至关重要。然而,由于成本、放置限制或无法直接测量某些关键参数,仅依靠物理传感器可能会受到限制。虚拟传感通过利用现成的传感器数据和系统知识来估计无法访问的参数或推断系统状态,从而解决了这些限制。工业系统日益复杂,需要部署多种模式的传感器,以全面了解系统状态。这些传感器以不同的频率捕获数据,以监控快速和缓慢变化的系统动态,以及系统的局部和全局状态演变。这导致了异构时间动态,特别是在不同的操作最终环境条件下,对精确的虚拟传感提出了重大挑战。为了解决这个问题,我们提出了异构时态图神经网络(HTGNN)框架。 HTGNN 对来自不同传感器的信号进行显式建模,并将操作条件集成到模型架构中。我们使用两个新发布的数据集来评估 HTGNN:用于预测轴承载荷的具有不同载荷条件的轴承数据集和用于预测桥梁活载荷的长达一年的模拟数据集。我们的结果表明,HTGNN 在这两项任务中都显着优于既定的基线方法,特别是在高度变化的操作条件下。这些结果凸显了 HTGNN 作为复杂系统强大而准确的虚拟传感方法的潜力,为改进监控、预测性维护和增强系统性能铺平了道路。

以数据为中心的自动开发的协作演进策略

分类: 人工智能

作者: Xu Yang, Haotian Chen, Wenjun Feng, Haoxue Wang, Zeqi Ye, Xinjie Shen, Xiao Yang, Shizhao Sun, Weiqing Liu, Jiang Bian

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18690v1

摘要: 人工智能(AI)对许多领域产生了重大影响,这很大程度上得益于机器学习模型的大量高质量数据。现在的重点是以数据为中心的人工智能战略,将数据开发优先于模型设计进度。自动化这个过程至关重要。在本文中,我们作为第一篇介绍以数据为中心的自动开发(AD^2)任务并概述其核心挑战的工作,这需要类似领域专家的任务调度和实施能力,而这在很大程度上是以前的工作尚未探索的。通过利用大语言模型(LLM)强大的复杂问题解决能力,我们提出了一种基于LLM的自主代理,配备了名为协作知识学习-检索增强进化(Co-STEER)的策略,可以同时解决所有问题挑战。具体来说,我们提出的 Co-STEER 代理通过我们提出的演化策略丰富了其领域知识,并通过积累和检索特定领域的实践经验来发展其调度和实施技能。随着时间表的改进,实施能力也会加快。同时,随着实施反馈变得更加彻底,调度的准确性也会提高。这两种功能通过实际反馈共同发展,从而实现协作发展过程。大量的实验结果表明,我们的Co-STEER代理在AD^2研究方面取得了新的突破,具有强大的可进化调度和实施能力,并展示了其组件的显着有效性。我们的 Co-STEER 为 AD^2 的进步铺平了道路。

每个部分都很重要:基于多模态大语言模型的科学图形完整性验证

分类: 计算和语言, 人工智能, 计算机视觉和模式识别, 数字图书馆, 多媒体

作者: Xiang Shi, Jiawei Liu, Yinpeng Liu, Qikai Cheng, Wei Lu

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18626v1

摘要: 本文解决了科学图形解释中的一个关键问题:文本和图形的细粒度对齐。它超越了之前的研究,之前的研究主要涉及简单的、数据驱动的可视化(例如条形图和饼图),并且仅通过标题和分类提供对图表的基本理解。我们引入了一项新颖的任务,即图形完整性验证,旨在评估将文本知识与科学图形中的视觉元素对齐的技术的精度。为了支持这一点,我们开发了一种半自动化方法来构建大规模数据集,Figure-seg,专门为此任务设计。此外,我们提出了一个创新框架,Every Part Matters (EPM),它利用多模态大型语言模型 (MLLM) 不仅逐步改进文本-图形完整性的对齐和验证,而且还通过类比推理增强完整性。我们的综合实验表明,这些创新大大改进了现有方法,可以对复杂的科学数据进行更精确、更彻底的分析。这一进展不仅增强了我们对多模态技术的理解,而且刺激了需要准确解释复杂视觉数据的领域的进一步研究和实际应用。

输入感知动态 SNN 的随机忆阻器拓扑优化

分类: 新兴技术, 人工智能, 神经和进化计算

作者: Bo Wang, Shaocong Wang, Ning Lin, Yi Li, Yifei Yu, Yue Zhang, Jichang Yang, Xiaoshan Wu, Yangu He, Songqi Wang, Rui Chen, Guoqi Li, Xiaojuan Qi, Zhongrui Wang, Dashan Shang

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18625v1

摘要: 机器学习取得了前所未有的发展,最近的大型语言模型和世界模拟器就是一个例子,它们是在数字计算机上运行的人工神经网络。然而,由于信号表示、优化、运行时可重构性和硬件架构方面的差异,它们在能源效率和对不同难度输入的简化适应性方面仍然无法与人脑相媲美。为了解决这些基本挑战,我们引入了输入感知动态忆阻尖峰神经网络(PRIME)的剪枝优化。在信号表示方面,PRIME 采用泄漏集成和激发神经元来模拟大脑固有的尖峰机制。 PRIME 从大脑的结构可塑性中汲取灵感,优化了随机忆阻尖峰神经网络的拓扑结构,无需昂贵的忆阻器电导微调。对于运行时可重构性,受大脑计算深度动态调整的启发,PRIME 采用输入感知动态提前停止策略来最大限度地减少推理过程中的延迟,从而在不影响性能的情况下提高能源效率。在架构方面,PRIME 利用忆阻内存计算,镜像大脑并缓解冯·诺依曼瓶颈。我们使用基于 40 nm 256 Kb 忆阻器的内存计算宏在神经形态图像分类和图像修复方面验证了我们的系统。我们的结果表明,分类精度和 Inception Score 与软件基线相当,同时能源效率最大提高了 62.50 倍,计算负载最大节省了 77.0%。该系统还表现出针对模拟忆阻器随机突触噪声的鲁棒性。我们的软件-硬件共同设计的模型为未来具有类脑能源效率和适应性的受大脑启发的神经形态计算铺平了道路。

使用 GPT-4 指导因果机器学习

分类: 人工智能, 机器学习

作者: Anthony C. Constantinou, Neville K. Kitson, Alessio Zanga

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18607v1

摘要: 自向公众推出以来,ChatGPT 产生了前所未有的影响。虽然一些专家赞扬人工智能的进步并强调其潜在风险,但其他专家则对大型语言模型(LLM)的准确性和实用性持批评态度。在本文中,我们对大语言模型识别因果关系的能力感兴趣。我们专注于成熟的 GPT-4 (Turbo),并在最严格的条件下评估其性能,方法是隔离其仅基于变量标签推断因果关系的能力,而无需给出任何上下文,从而证明了最低水平的有效性当提供仅标签信息时可以预期。我们发现,问卷参与者认为 GPT-4 图在评估类别中最准确,紧随其后的是领域专家构建的知识图,因果机器学习 (ML) 远远落后。我们使用这些结果来强调因果机器学习的重要局限性,它经常产生违反常识的因果图,影响对它们的信任。然而,我们表明,将 GPT-4 与因果 ML 配对克服了这一限制,与单独通过因果 ML 学习的结构相比,从真实数据中学习的图形结构与领域专家识别的结构更加一致。总的来说,我们的研究结果表明,尽管 GPT-4 没有被明确设计用于因果推理,但它仍然可以成为因果表示的有价值的工具,因为它改进了旨在实现这一点的因果 ML 算法的因果发现过程。

以富有表现力的注意力攀登复杂性的阶梯

分类: 机器学习, 人工智能

作者: Claudius Gros

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18601v1

摘要: 注意力涉及根据标量积 $\mathbf{Q}^T\mathbf{K}$ 来比较查询向量和关键向量,以及随后的 softmax 归一化。传统上,并行/正交/反并行查询和键会导致大/中/小注意力权重。在这里,我们研究表达性注意力(EA),它基于 $(\mathbf{Q}^T\mathbf{K})^2$,即平方点积。在这种情况下,当查询和键并行或反并行时,注意力会增强,而正交配置则会抑制注意力。对于一系列自回归预测任务,我们发现 EA 的表现至少与标准机制点积注意力(DPA)一样好。随着任务复杂性的增加,EA 的性能优于 DPA,且利润率不断增加,这也适用于多任务设置。对于给定的模型大小,EA 能够在 DPA 无法达到的一系列复杂性级别上实现 100% 的性能。

可持续能源的强化学习:一项调查

分类: 机器学习, 人工智能, 计算机与社会, 系统与控制, 系统与控制, 机器学习

作者: Koen Ponse, Felix Kleuker, Márton Fejér, Álvaro Serra-Gómez, Aske Plaat, Thomas Moerland

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18597v1

摘要: 向可持续能源的过渡是我们这个时代的一个关键挑战,需要对能源生产、储存、传输和消费的整个管道进行修改。在每个阶段,都会出现新的连续决策挑战,从风电场的运营到电网的管理或电动汽车充电站的调度。所有这些问题都非常适合强化学习,这是机器学习的一个分支,从数据中学习行为。因此,大量研究探索了强化学习在可持续能源中的应用。本文对这些文献进行了调查,旨在弥合能源和机器学习这两个基础研究领域。在简要介绍这两个领域后,我们系统地列出了相关的可持续发展挑战,如何将它们建模为强化学习问题,以及文献中目前存在哪些解决方法。然后,我们缩小并确定整个可持续发展中出现的首要强化学习主题,例如多智能体、离线和安全强化学习。最后,我们还讨论了环境标准化,这对于连接两个研究领域至关重要,并强调了未来工作的潜在方向。总之,这项调查提供了可持续能源强化学习方法的广泛概述,这可能在能源转型中发挥至关重要的作用。

通过高保真生成对抗网络扩展语音带宽

分类: 声音, 人工智能, 音频和语音处理

作者: Mahmoud Salhab, Haidar Harmanani

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18571v1

摘要: 语音带宽扩展对于扩展低带宽语音信号的频率范围至关重要,从而提高数字应用中的音频质量、清晰度和可感知性。其应用涵盖电话、压缩、文本到语音合成和语音识别。本文提出了一种使用高保真生成对抗网络的新颖方法,与级联系统不同,我们的系统是在成对的窄带和宽带语音信号上进行端到端训练的。我们的方法将各种带宽上采样比率集成到专为语音带宽扩展应用而设计的单个统一模型中。我们的方法在各种带宽扩展因素(包括训练期间未遇到的因素)上表现出强大的性能,展示了零样本能力。据我们所知,这是第一个展示这种能力的作品。实验结果表明,我们的方法优于以前的端到端方法以及插值和传统技术,展示了其在实际语音增强应用中的有效性。

PP-TIL:基于实例的迁移模仿学习的自动驾驶个性化规划

分类: 机器人技术, 人工智能, 机器学习

作者: Fangze Lin, Ying He, Fei Yu

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18569v1

摘要: 个性化运动规划在城市自动驾驶中具有重要意义,可以满足个人用户的独特需求。然而,先前的努力在同时解决两个关键方面时经常遇到困难:复杂的城市环境中的个性化规划和通过数据利用提高规划绩效。挑战来自于用户数据的昂贵和有限的性质,再加上场景状态空间趋于无穷大。这些因素会导致模型训练过程中出现过度拟合和泛化不良的问题。因此,我们提出了一种基于实例的迁移模仿学习方法。该方法促进了从广泛的专家领域数据到用户领域的知识转移,为这些问题提供了根本的解决方案。我们最初使用大规模专家数据训练预训练模型。随后,在微调阶段,我们提供批量数据,其中包括专家数据和用户数据。采用逆强化学习技术,我们从用户演示中提取风格特征分布,构造近似用户风格的正则化项。在我们的实验中,我们对所提出的方法进行了广泛的评估。与基线方法相比,我们的方法减轻了由稀疏用户数据引起的过度拟合问题。此外,我们发现将驾驶模型与可微非线性优化器集成作为端到端个性化微调的安全保护层可以带来卓越的规划性能。

通过检索增强从噪声数据中学习鲁棒的命名实体识别器

分类: 计算和语言, 人工智能

作者: Chaoyi Ai, Yong Jiang, Shen Huang, Pengjun Xie, Kewei Tu

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18562v1

摘要: 命名实体识别 (NER) 模型通常会与噪声输入作斗争,例如拼写错误或光学字符识别过程生成的错误,并且学习强大的 NER 模型具有挑战性。现有的鲁棒 NER 模型利用噪声文本及其相应的黄金文本进行训练,这在许多没有黄金文本的实际应用中是不可行的。在本文中,我们考虑了一个更现实的设置,其中只有噪声文本及其 NER 标签可用。我们建议从知识语料库中检索噪声文本的相关文本,并用它来增强原始噪声输入的表示。我们设计了三种检索方法:基于词典相似性的稀疏检索、基于语义相似性的密集检索和基于任务特定文本的自检索。检索相关文本后,我们将检索到的文本与原始噪声文本连接起来,并使用变压器网络对它们进行编码,利用自注意力来使用检索到的文本增强噪声文本的上下文标记表示。我们进一步采用了多视图训练框架,该框架可以提高鲁棒的 NER,而无需在推理过程中检索文本。实验表明,我们的检索增强模型在各种噪声 NER 设置中取得了显着的改进。

放眼全局并推理:稀疏知识图上的两阶段路径推理

分类: 机器学习, 人工智能

作者: Saiping Guan, Jiyao Wei, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18556v1

摘要: 与填充较多的知识图谱相比,在现实应用程序中经常遇到的稀疏知识图谱 (KG) 包含较少的事实(头实体、关系、尾实体)。稀疏知识图谱完成任务以(头实体,关系,?)的形式为稀疏知识图谱给出给定查询的答案,由于需要基于有限的事实推理缺失的事实,因此特别具有挑战性。基于路径的模型以出色的可解释性而闻名,通常用于此任务。然而,现有的基于路径的模型通常依赖外部模型来填充缺失的事实并随后执行路径推理。这种方法引入了无法解释的因素或需要细致的规则设计。有鉴于此,本文提出了一种替代方法,即向内寻找而不是寻求外部援助。我们在稀疏 KG 上引入了一种称为 LoGRe(全局查找和推理)的两阶段路径推理模型。 LoGRe 通过全局分析训练数据来构建关系路径推理模式,以缓解稀疏问题。基于此模式,LoGRe 然后聚合路径以推理出答案。五个基准稀疏 KG 数据集的实验结果证明了所提出的 LoGRe 模型的有效性。

如何使用 2D 模型进行 3D 分割:使用多角度最大强度投影和扩散模型对 PET 体积上的前列腺癌转移性病变进行自动 3D 分割

分类: 医学物理, 人工智能, 计算机视觉和模式识别, I.4.6

作者: Amirhosein Toosi, Sara Harsini, François Bénard, Carlos Uribe, Arman Rahmim

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18555v1

摘要: 前列腺特异性膜抗原 (PSMA) 正电子发射断层扫描/计算机断层扫描 (PET/CT) 成像为前列腺癌 (PCa) 转移性病变的可视化提供了一个非常令人兴奋的前沿领域。然而,由于病灶的信噪比低且大小、形状和位置可变,准确分割转移病灶具有挑战性。本研究提出了一种使用 2D 去噪扩散概率模型 (DDPM) 对 PSMA PET/CT 3D 体积图像中的转移性病灶进行自动分割的新方法。所提出的方法不是使用 2D 横轴切片或 3D 体积,而是在 PSMA PET 图像生成的多角度最大强度投影 (MA-MIP) 上对病变进行分割,然后从 3D 有序子集期望最大化获得最终的 3D 分割掩模( OSEM)重建 2D MA-MIPs 分割。与最先进的 3D 分割方法相比,我们提出的方法在检测和分割小转移性 PCa 病灶的准确性和鲁棒性方面取得了卓越的性能。该方法作为 PCa 患者转移负担定量分析的工具具有巨大的潜力。

具有难度引导特征增强网络的多智能体轨迹预测

分类: 机器人技术, 人工智能

作者: Guipeng Xin, Duanfeng Chu, Liping Lu, Zejian Deng, Yuang Lu, Xigang Wu

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18551v1

摘要: 轨迹预测对于自动驾驶至关重要,因为它的目的是预测交通参与者的未来运动。传统方法通常对智能体的轨迹进行整体推理,忽略了智能体之间预测难度的差异。本文提出了一种新颖的难度引导特征增强网络(DGFNet),它利用代理之间的预测难度差异进行多代理轨迹预测。首先,我们采用时空特征编码和交互来捕获丰富的时空特征。其次,使用难度引导解码器来控制未来轨迹进入后续模块,获得可靠的未来轨迹。然后通过未来的特征交互模块进行特征交互和融合。最后,融合的代理特征被输入到最终的预测器中,以生成多个参与者的预测轨迹分布。实验结果表明,我们的 DGFNet 在 Argoverse 1&2 运动预测基准上实现了最先进的性能。消融研究进一步验证了每个模块的有效性。此外,与SOTA方法相比,我们的方法平衡了轨迹预测精度和实时推理速度。

ReALFRED:在真实环境中遵循基准的具体指令

分类: 机器人技术, 人工智能

作者: Taewoong Kim, Cheolhong Min, Byeonghwi Kim, Jinyeon Kim, Wonje Jeung, Jonghyun Choi

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18550v1

摘要: 模拟虚拟环境已被广泛用于学习执行日常家务任务的机器人代理。到目前为止,这些环境鼓励研究进展,但通常提供有限的对象交互性、与现实世界环境不同的视觉外观或相对较小的环境尺寸。这使得虚拟场景中学习到的模型无法轻松部署。为了弥合这些学习环境和部署(即真实)环境之间的差距,我们提出了 ReALFRED 基准,该基准采用真实世界的场景、对象和房间布局来学习代理通过理解自由形式的语言指令和交互来完成家庭任务包含大型、多房间和 3D 捕获场景中的对象。具体来说,我们通过更新扩展了 ALFRED 基准,以适应更大的环境空间和更小的视觉域间隙。通过 ReALFRED,我们分析了之前为 ALFRED 基准制定的方法,并观察到它们在所有指标中始终产生较低的性能,从而鼓励社区在更现实的环境中开发方法。我们的代码和数据是公开的。

使用自监督语音模型提高 NAM 到语音合成的清晰度

分类: 声音, 人工智能, 音频和语音处理

作者: Neil Shah, Shirish Karande, Vineet Gandhi

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18541v1

摘要: 我们提出了一种利用自我监督和序列到序列(Seq2Seq)学习技术显着提高非可闻杂音(NAM)到语音转换任务的清晰度的新颖方法。与明确记录真实语音的传统方法不同,我们的方法依赖于自我监督和语音合成来模拟真实语音。尽管使用模拟语音,我们的方法在梅尔倒谱失真 (MCD) 指标上比当前最先进的 (SOTA) 提高了 29.08%。此外,我们还展示了错误率并证明了我们的模型能够熟练地合成感兴趣的新颖声音的语音。此外,我们提出了一种增强现有 CSTR NAM TIMIT Plus 语料库的方法,设置了 42.57% 的单词错误率 (WER) 基准来衡量合成语音的清晰度。语音样本可以在 https://nam2speech.github.io/NAM2Speech/ 找到

使用大语言模型从自然语言文本中提取过程模型信息的通用提示策略

分类: 计算和语言, 人工智能

作者: Julian Neuberger, Lars Ackermann, Han van der Aa, Stefan Jablonski

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18540v1

摘要: 在过去的十年中,广泛的研究工作致力于从文本过程描述中提取信息。尽管自然语言处理 (NLP) 取得了显着进展,但业务流程管理领域内的信息提取仍然主要依赖于基于规则的系统和机器学习方法。迄今为止,数据稀缺阻碍了深度学习技术的成功应用。然而,生成式大语言模型 (LLM) 的快速进展使得无需大量数据即可以非常高的质量解决许多 NLP 任务。因此,我们系统地研究了大语言模型从文本过程描述中提取信息的潜力,目标是检测活动和参与者等过程元素以及它们之间的关系。使用启发式算法,我们证明了提取的信息对于流程模型生成的适用性。基于一种新颖的提示策略,我们表明大语言模型能够超越最先进的机器学习方法,在三个不同的数据集上绝对性能提升高达 8% $F_1$ 分数。我们在八个不同的大语言模型上评估了我们的提示策略,表明它是普遍适用的,同时还分析了某些提示部分对提取质量的影响。示例文本的数量、定义的特异性和格式指令的严格性被认为是提高提取信息准确性的关键。我们的代码、提示和数据都是公开的。

混合Logit模型下约束分类优化的外近似和超模割

分类: 优化与控制, 人工智能

作者: Hoang Giang Pham, Tien Mai

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18532v1

摘要: 在本文中,我们研究了混合logit客户选择模型下的品类优化问题。虽然分类优化几十年来一直是收入管理的一个主要主题,但混合 Logit 模型被认为是建模和预测客户购买行为的最通用和最灵活的方法之一。现有的精确方法主要依赖于混合整数线性规划 (MILP) 或二阶锥体 (CONIC) 重构,这允许使用现成的求解器来精确解决问题。然而,这些方法经常受到弱连续松弛的影响,并且在解决大型实例时速度很慢。我们的工作通过关注可以证明是单调超模和凸的目标函数的组成部分来解决这个问题。这使我们能够导出对非线性目标函数的外部近似的有效切割。然后,我们证明这些有效的切割可以合并到切割平面或分支切割方法中以准确地解决问题。大量的实验表明,我们的方法在解决方案质量和计算时间方面始终优于以前的方法。

越大越好吗?评估和促进非生成医疗任务的大型语言模型

分类: 计算和语言, 人工智能, 机器学习

作者: Yinghao Zhu, Junyi Gao, Zixiang Wang, Weibin Liao, Xiaochen Zheng, Lifang Liang, Yasha Wang, Chengwei Pan, Ewen M. Harrison, Liantao Ma

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18525v1

摘要: 大型语言模型 (LLM) 在医学中的使用正在不断增长,但其处理结构化电子健康记录 (EHR) 数据和非结构化临床记录的能力尚未得到充分研究。这项研究利用知名数据集对各种模型进行了基准测试,包括基于 GPT 的 LLM、基于 BERT 的模型和传统的临床预测模型,用于非生成性医疗任务。我们使用 MIMIC 数据集(ICU 患者记录)和 TJH 数据集(早期的 COVID-19 EHR 数据)评估了 14 个语言模型(9 个基于 GPT 和 5 个基于 BERT)和 7 个传统预测模型,重点关注死亡率和死亡率等任务。再入院预测、疾病层次重建和生物医学句子匹配,比较零样本和微调性能。结果表明,大语言模型在使用精心设计的提示策略时,对结构化 EHR 数据表现出强大的零样本预测能力,经常超越传统模型。然而,对于非结构化医学文本,LLM 的表现并没有优于经过微调的 BERT 模型,后者在监督和非监督任务中都表现出色。因此,虽然大语言模型对于结构化数据的零样本学习是有效的,但经过微调的 BERT 模型更适合非结构化文本,这凸显了根据特定任务要求和数据特征选择模型以优化 NLP 技术在医疗保健中的应用的重要性。

她工作,他工作:对人工智能生成图像中性别偏见的好奇探索

分类: 计算机与社会, 人工智能, 计算机视觉和模式识别, I.2.0; J.5

作者: Amalia Foka

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18524v1

摘要: 本文研究了人工智能生成的建筑工人图像中的性别偏见,强调了男性和女性形象刻画上的差异。该分析以格里塞尔达·波洛克(Griselda Pollock)的视觉文化和性别理论为基础,表明人工智能模型倾向于使女性形象性感化,同时将男性形象描绘得更具权威性和能力。这些发现强调了人工智能反映和延续社会偏见的潜力,强调了对人工智能生成的内容进行批判性参与的必要性。该项目有助于讨论人工智能在创意实践中的伦理影响及其对性别文化观念的更广泛影响。

修补 MOA:优化各种软件开发任务的推理

分类: 软件工程, 人工智能

作者: Asankhaya Sharma

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18521v1

摘要: 本文介绍了修补 MOA(代理混合),这是一种推理优化技术,可显着增强跨不同软件开发任务的大型语言模型 (LLM) 的性能。我们评估了三种推理优化算法 - Best of N、Mixture of Agents 和 Monte Carlo Tree Search,并证明 Patched MOA 可以提高较小模型的性能,以超越更大、更昂贵的模型。值得注意的是,我们的方法将 gpt-4o-mini 模型在 Arena-Hard-Auto 基准测试中的性能提高了 15.52%,以极低的成本超越了 gpt-4-turbo。我们还将修补 MOA 应用于各种软件开发工作流程,显示出任务完成率的持续改进。我们的方法与模型无关,对最终用户透明,并且可以轻松集成到现有的大语言模型管道中。这项工作有助于不断发展的 LLM 优化领域,提供一种经济有效的解决方案来增强模型性能,而无需微调或更大的模型。

TCGPN:用于股票预测的时间相关图预训练网络

分类: 机器学习, 人工智能, 机器学习

作者: Wenbo Yan, Ying Tan

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18519v1

摘要: 最近,时间特征和时间序列之间的相关性的结合已成为时间序列预测的有效方法。时空图神经网络(STGNN)在许多时间相关性预测问题上表现出良好的性能。然而,当应用于缺乏周期性的任务(例如股票数据预测)时,STGNN 的有效性和鲁棒性并不令人满意。 STGNN 受到内存节省的限制,无法处理大量节点的问题。在本文中,我们提出了一种称为时间相关图预训练网络(TCGPN)的新方法来解决这些限制。 TCGPN 利用时间相关融合编码器通过精心设计的时间和相关预训练任务来获得混合表示和预训练方法。整个结构与节点的数量和顺序无关,因此可以通过各种数据增强来获得更好的结果。并且通过多次采样可以显着减少训练期间的内存消耗。在具有最小周期性的真实股市数据集CSI300和CSI500上进行了实验。我们在下游任务中微调简单的 MLP 并实现最先进的结果,验证捕获更鲁棒的时间相关模式的能力。

SLIM:用于广义音频 Deepfake 检测的风格语言学不匹配模型

分类: 声音, 人工智能, 音频和语音处理

作者: Yi Zhu, Surya Koppisetti, Trang Tran, Gaurav Bharaj

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18517v1

摘要: 音频深度伪造检测 (ADD) 对于打击生成人工智能模型合成的语音的滥用至关重要。现有的 ADD 模型存在泛化问题,域内和域外数据之间的性能差异很大。此外,现有模型的黑盒性质限制了它们在现实场景中的使用,在现实场景中模型决策需要解释。为了缓解这些问题,我们引入了一种新的 ADD 模型,该模型明确使用虚假语音中的 StyleLInguistics Mismatch (SLIM) 将其与真实语音分开。 SLIM 首先仅对真实样本进行自监督预训练,以学习真实课堂中的风格语言依赖性。然后将学习到的特征与标准预训练声学特征(例如 Wav2vec)结合使用,以学习真类和假类的分类器。当特征编码器被冻结时,SLIM 在域外数据集上的性能优于基准方法,同时在域内数据上取得有竞争力的结果。 SLIM 学习到的特征使我们能够量化样本中风格和语言内容之间的(错误)匹配,从而促进对模型决策的解释。

芯片设计中基于强化学习的宏单元非重叠布局

分类: 硬件架构, 人工智能

作者: Tao Yu, Peng Gao, Fei Wang, Ru-Yue Yuan

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18499v1

摘要: 由于芯片设计的复杂性日益增加,现有的布局方法在处理宏小区覆盖和优化效率方面仍然存在许多缺点。针对现有芯片设计方法中布局重叠、性能较差、优化效率低的问题,提出一种基于强化学习的端到端布局方法SRLPlacer。首先,通过建立宏单元之间的耦合关系图模型,将布局问题转化为马尔可夫决策过程,学习优化布局的策略。其次,整合标准单元布局后,优化了整个布局流程。通过对公共基准ISPD2005的评估,所提出的SRLPlacer可以有效解决宏小区之间的重叠问题,同时考虑路由拥塞并缩短总线路长度以确保可路由性。

使用 LLM 和目标导向 ASP 构建的可靠常识推理社交机器人

分类: 计算和语言, 人工智能, 计算机科学中的逻辑

作者: Yankai Zeng, Abhiramon Rajashekharan, Kinjal Basu, Huaduo Wang, Joaquín Arias, Gopal Gupta

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18498v1

摘要: GPT 等大型语言模型 (LLM) 的发展使得 ChatGPT 等多种社交机器人的构建成为可能,这些机器人因其模拟人类对话的能力而受到广泛关注。然而,谈话没有目标,很难控制。此外,由于大语言模型更多地依赖于模式识别而不是演绎推理,因此他们可能会给出令人困惑的答案,并且很难将多个主题整合成一个有凝聚力的答案。这些限制常常导致大语言模型偏离主题以保持对话有趣。我们提出了 AutoCompanion,这是一种社交机器人,它使用 LLM 模型将自然语言翻译为谓词(反之亦然),并采用基于答案集编程 (ASP) 的常识推理来与人类进行社交对话。特别是,我们依赖 s(CASP),它是 ASP 的目标导向实现作为后端。本文介绍了框架设计以及如何使用 LLM 解析用户消息并从 s(CASP) 引擎输出生成响应。为了验证我们的建议,我们描述了(真实的)对话,其中聊天机器人的目标是通过谈论电影和书籍来让用户保持娱乐,并且 s(CASP)确保(i)答案的正确性,(ii)连贯性(和精确性)在对话过程中,它会动态地调节对话以实现其特定目的,并且(iii)不偏离主题。

基于文体区分的角色特定引导眼科咨询大语言模型

分类: 计算和语言, 人工智能

作者: Laiyi Fu, Binbin Fan, Hongkai Du, Yanxiang Feng, Chunhua Li, Huping Song

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18483v1

摘要: 眼科咨询对于眼科疾病的诊断、治疗和预防至关重要。然而,不断增长的咨询需求超出了眼科医生的能力。通过利用大型预训练语言模型,我们可以针对特定场景设计有效的对话,协助协商。由于模型大小不断增加并且在咨询过程中经常忽略患者与医生的角色功能,传统的问答任务微调策略是不切实际的。在本文中,我们提出了 EyeDoctor,一种眼科医学询问大语言模型,通过医患角色感知引导和具有外部疾病信息的增强知识库来提高准确性。实验结果表明,EyeDoctor在眼科咨询中实现了更高的问答精度。值得注意的是,与第二佳模型 ChatGPT 相比,EyeDoctor 在多轮数据集上的 Rouge-1 分数提高了 7.25%,F1 分数提高了 10.16%,凸显了医患角色区分和动态知识库扩展对于智能医疗的重要性磋商。 EyeDoc 还作为免费的基于 Web 的服务,源代码可在 https://github.com/sperfu/EyeDoc 上获取。

具有带宽约束的生成模型的扩散驱动语义通信

分类: 机器学习, 人工智能

作者: Lei Guo, Wei Chen, Yuxuan Sun, Bo Ai, Nikolaos Pappas, Tony Quek

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18468v1

摘要: 近年来,由于其卓越的生成能力,扩散模型在人工智能生成内容(AIGC)中得到了广泛的应用。结合语义通信,扩散模型用于去噪、数据重建和内容生成等任务。然而,现有的基于扩散的生成模型没有考虑严格的带宽限制,这限制了其在无线通信中的应用。本文介绍了一种扩散驱动的语义通信框架,具有先进的基于 VAE 的压缩,用于带宽受限的生成模型。我们设计的架构采用扩散模型,其中通过无线信道的信号传输过程充当扩散的前向过程。为了降低带宽要求,我们结合了一个下采样模块和一个基于变分自动编码器的成对上采样模块,并在接收器处重新参数化,以确保恢复的特征符合高斯分布。此外,我们推导了我们所提出的系统的损失函数,并通过综合实验评估其性能。我们的实验结果表明,像素级指标(例如峰值信噪比(PSNR))和语义指标(例如学习感知图像块相似性(LPIPS))有了显着改进。与深度联合源通道编码 (DJSCC) 相比,这些增强在压缩率和 SNR 方面更为深远。

语言模型中的公平定义解释

分类: 计算和语言, 人工智能, 机器学习

作者: Thang Viet Doan, Zhibo Chu, Zichong Wang, Wenbin Zhang

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18454v1

摘要: 语言模型 (LM) 在各种自然语言处理 (NLP) 任务中表现出了卓越的性能。尽管取得了这些进步,LM 仍然可以继承并放大与性别和种族等敏感属性相关的社会偏见,从而限制了它们在现实世界应用中的采用。因此,公平性在 LM 中得到了广泛的探索,并提出了各种公平概念。然而,对于在特定环境中应用哪种公平定义缺乏明确的一致意见(例如,中型 LM 与大型 LM)以及理解这些定义之间的区别的复杂性可能会造成混乱并阻碍进一步的进展。为此,本文提出了一项系统调查,阐明了适用于 LM 的公平性定义。具体来说,我们首先简要介绍 LM 和 LM 中的公平性,然后对 LM 中现有的公平性概念进行全面、最新的概述,并引入一种新颖的分类法,该分类法根据这些概念的基本原则和操作性对这些概念进行分类。区别。我们通过实验进一步说明每个定义,展示它们的实际含义和结果。最后,我们讨论当前的研究挑战和悬而未决的问题,旨在培育创新思想并推进该领域的发展。实现和其他资源可在 https://github.com/LavinWong/Fairness-in-Large-Language-Models/tree/main/definitions 上公开获取。

获取 Web 应用程序攻击检测特征选择方面的安全专家知识

分类: 密码学和安全, 人工智能

作者: Amanda Riverol, Gustavo Betarte, Rodrigo Martínez, Álvaro Pardo

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18445v1

摘要: 本文提出使用互信息值来复制安全专业人员在选择检测 Web 攻击的功能时的专业知识。目标是增强 Web 应用程序防火墙 (WAF) 的有效性。 Web 应用程序经常容易受到各种安全威胁,因此 WAF 对于它们的保护至关重要。 WAF 使用基于规则的方法分析 HTTP 流量,以识别已知的攻击模式并检测和阻止潜在的恶意请求。然而,一个主要挑战是误报的发生,这可能导致合法流量受阻并影响应用程序的正常运行。该问题的解决方法是将用于特征选择的监督学习与用于训练单类 SVM 模型的半监督学习场景相结合。实验结果表明,使用所提出的算法选择的特征训练的模型在性能方面优于基于专家的选择方法。此外,使用一组普通的 OWASP CRS 规则配置的传统的基于规则的 WAF ModSecurity 获得的结果也得到了改进。

视觉变压器的混合非线性量化

分类: 计算机视觉和模式识别, 人工智能

作者: Gihwan Kim, Jemin Lee, Sihyeong Park, Yongin Kwon, Hyungshin Kim

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18437v1

摘要: 大多数量化方法都是为了减小 Vision Transformer 的模型大小而提出的,但大多数都忽略了非线性操作的量化。只有少数作品解决了非线性运算的量化问题,但他们在所有非线性运算中应用了单一量化方法。我们相信,通过对每个非线性操作采用不同的量化方法可以进一步改进这一点。因此,为了将已知方法中误差最小化的量化方法分配给每个非线性层,我们提出了一种混合非线性量化,该量化考虑了通过 SQNR 差值度量测量的逐层量化灵敏度。结果表明,我们的方法在 ViT、DeiT 和 Swin 模型的 8 位和 6 位设置中平均分别优于 I-BERT、FQ-ViT 和 I-ViT 0.6%p 和 19.6%p 。当训练时间有限时,我们的方法比 I-BERT 和 I-ViT 的性能分别高出 0.6%p 和 20.8%p。我们计划在 https://gitlab.com/ones-ai/mixed-non-linear-quantization 发布我们的代码。

调查在智能环境中使用扫地机器人的隐私风险

分类: 机器学习, 人工智能

作者: Benjamin Ulsmaag, Jia-Chun Lin, Ming-Chang Lee

发布时间: 2024-07-26

链接: http://arxiv.org/abs/2407.18433v1

摘要: 扫地机器人越来越受欢迎,广泛应用于各种智能环境中。为了提高用户便利性,制造商还推出了智能手机应用程序,使用户能够自定义清洁设置或访问有关机器人吸尘器的信息。虽然这种集成增强了用户与其机器人吸尘器之间的交互,但它会导致潜在的隐私问题,因为用户的个人信息可能会被暴露。为了解决这些问题,在应用程序、云服务和机器人吸尘器之间实施端到端加密,以保护交换信息的安全。然而,网络标头元数据仍然未加密,并且仍然容易受到网络窃听。在本文中,我们调查了通过此类元数据暴露私人信息的潜在风险。一种流行的机器人吸尘器被部署在真实的智能环境中,在几个选定的清洁事件期间进行被动网络窃听。我们基于关联规则学习的广泛分析表明,仅使用捕获的互联网流量元数据来识别某些事件是可行的,从而可能会暴露私人用户信息并引发隐私问题。

加权风险不变性:不变特征转移下的领域泛化

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Gina Wong, Joshua Gleason, Rama Chellappa, Yoav Wald, Anqi Liu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18428v1

摘要: 预测在多种环境下不变的学习模型是分布外泛化的一种有前途的方法。此类模型经过训练以提取特征 $X_{\text{inv}}$,其中在给定提取特征的情况下,标签的条件分布 $Y \mid X_{\text{inv}}$ 不会因环境而变化。不变模型还应该推广到提取特征 $X_{\text{inv}}$ 的边际分布 $p(X_{\text{inv}})$ 中的变化,我们将这种变化称为 $\ textit{不变协变量平移}$.然而,我们表明,所提出的学习不变模型的方法在不变协变量平移下表现不佳,要么无法学习不变模型$\unicode{x2014}$,甚至对于从简单且经过充分研究的线性高斯模型生成的数据$\unicode{x2014} $或者有限样本性能较差。为了缓解这些问题,我们提出$\textit{加权风险不变性}$ (WRI)。我们的框架基于对训练示例进行适当的重新加权,在不同环境中施加损失的不变性。我们证明,WRI 可证明在线性高斯设置中学习不变模型,即丢弃虚假相关性。我们提出了一种通过同时学习密度 $p(X_{\text{inv}})$ 和模型参数来实现 WRI 的实用算法,并且我们凭经验证明 WRI 在不变协变量平移下优于之前的不变学习方法。

HDL-GPT:高质量 HDL 就是您所需要的

分类: 机器学习, 人工智能

作者: Bhuvnesh Kumar, Saurav Nanda, Ganapathy Parthasarathy, Pawan Patil, Austin Tsai, Parivesh Choudhary

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18423v1

摘要: 本文介绍了硬件描述语言生成预训练变压器 (HDL-GPT),这是一种利用大量开源高清语言 (HDL) 代码存储库来训练优质大型代码模型的新颖方法。本文的核心前提是假设高质量 HDL 是创建具有卓越性能和广泛的零样本泛化能力的模型所需的全部。本文阐明了从开源 HDL 代码中管理和扩充大型语料库所采用的方法,通过仔细的提示和上下文维护将高度可变的质量数据转换为高质量的数据。我们证明,跨 HDL 仔细选择、过滤和增强数据可以产生超越当前最先进模型的强大模型。我们还探讨了不同微调方法对结果质量的影响。我们描述了一系列经过微调的 SOTA LLM 的实验结果,证实了我们的主张。我们在当前基准测试中证明,在 HDL 电路解释、代码生成、形式和模拟测试平台创建、错误分类和修复等任务中,SOTA HDL 模型比 SOTA HDL 模型提高了 50% 到 200%。 HDL-GPT 为电路设计任务的高级模型训练技术的开发开辟了新途径。

非理性马尔可夫决策过程中的黑天鹅假设

分类: 人工智能

作者: Hyunin Lee, David Abel, Ming Jin, Javad Lavaei, Somayeh Sojoudi

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18422v1

摘要: 黑天鹅事件是统计上罕见的事件,但风险极高。定义黑天鹅事件的典型观点被认为源自不可预测的时变环境;然而,社会上对黑天鹅事件缺乏全面的定义。为此,本文挑战标准观点的不完整,并声称由于人类对其价值和可能性的误解,高风险、统计上罕见的事件也可能在不变的环境中发生,我们称之为空间黑天鹅事件。我们首先对黑天鹅事件进行仔细分类,重点关注空间黑天鹅事件,并在数学上形式化黑天鹅事件的定义。我们希望这些定义能够为算法的开发铺平道路,通过合理地纠正人类的感知来防止此类事件的发生

PersonaGym:评估 Persona 代理和大语言模型

分类: 计算和语言, 人工智能, 机器学习

作者: Vinay Samuel, Henry Peng Zou, Yue Zhou, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Ameet Deshpande, Karthik Narasimhan, Vishvak Murahari

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18416v1

摘要: 角色代理是根据指定角色行事的 LLM 代理,已在各种应用程序中展示了令人印象深刻的上下文响应能力。这些角色代理在教育、医疗保健和娱乐等不同领域提供了显着的增强功能,其中模型开发人员可以根据不同的用户需求调整代理响应,从而扩大代理应用的范围。然而,由于评估与每个角色代理相关的各种环境中的自由形式交互中的角色依从性非常复杂,因此评估角色代理的性能非常具有挑战性。我们引入了 PersonaGym,这是第一个用于评估角色代理的动态评估框架,以及 PersonaScore,这是第一个基于决策理论的自动化人类对齐指标,用于对角色代理进行全面的大规模评估。我们使用包含 200 个角色和 10,000 个问题的基准对 6 个开源和闭源大语言模型进行了评估,揭示了在最先进的模型中提升角色代理能力的重大机会。例如,Claude 3.5 Sonnet 在 PersonaScore 上仅比 GPT 3.5 提高了 2.97%,尽管它是一个更先进的模型。重要的是,我们发现模型大小和复杂性的增加并不一定意味着角色代理能力的增强,从而凸显了对忠实且高性能的角色代理的算法和架构发明的迫切需求。

对抗性鲁棒决策转换器:通过 Minimax Returns-to-go 增强 RvS 的鲁棒性

分类: 机器学习, 人工智能

作者: Xiaohang Tang, Afonso Marques, Parameswaran Kamalaruban, Ilija Bogunovic

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18414v1

摘要: Decision Transformer(DT)作为监督学习强化学习(RvS)方法的代表之一,利用强大的 Transformer 架构进行顺序决策,在离线学习任务中取得了强劲的性能。然而,在对抗环境中,这些方法可能不稳健,因为回报取决于决策者和对手的策略。训练以观察到的回报为条件的概率模型来预测行动可能无法泛化,因为在数据集中实现回报的轨迹可能是由于对手的行为较弱且次优而实现的。为了解决这个问题,我们提出了一种最坏情况感知的 RvS 算法,即对抗性鲁棒决策变换器 (ARDT),它学习并调节样本内最小最大返回的策略。 ARDT 将目标回报与通过极小最大期望回归学习到的最坏情况回报对齐,从而增强针对强大的测试时对手的鲁棒性。在对全数据覆盖的顺序博弈进行的实验中,ARDT 可以生成最大最小(纳什均衡)策略,即具有最大对抗鲁棒性的解决方案。在大规模顺序游戏和具有部分数据覆盖的连续对抗性 RL 环境中,ARDT 对强大的测试时对手表现出明显优越的鲁棒性,并且与当代 DT 方法相比,获得了更高的最坏情况回报。

使用类器官智能方法模拟对古典音乐的神经反应

分类: 神经和进化计算, 人工智能, 机器学习, 声音, 音频和语音处理, I.2; I.6; J.3; J.4; J.5

作者: Daniel Szelogowski

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18413v1

摘要: 音乐是一种复杂的听觉刺激,能够引起大脑活动的显着变化,影响记忆、注意力和情绪调节等认知过程。然而,音乐引发的认知过程的潜在机制仍然很大程度上未知。类器官智能和深度学习模型有望模拟和分析这些对古典音乐的神经反应,这是计算神经科学中尚未探索的领域。因此,我们推出了 PyOrganoid 库,这是一种创新工具,有助于模拟类器官学习模型,将复杂的机器学习技术与受生物学启发的类器官模拟相结合。我们的研究以 Pianoid 模型的开发为特色,这是一种“深度类器官学习”模型,利用双向 LSTM 网络根据古典音乐录音的音频特征来预测脑电图反应。该模型证明了使用计算方法复制复杂神经过程的可行性,为音乐感知和认知提供了宝贵的见解。同样,我们的研究结果强调了合成模型在神经科学研究中的实用性,并强调了 PyOrganoid 库作为推进神经科学和人工智能研究的多功能工具的潜力。

SCALE:同质环境中的自我调节集群联邦学习

分类: 分布式、并行和集群计算, 人工智能, 新兴技术, 机器学习, 表现

作者: Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, Zahidur Talukder, Syed Bahauddin

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18387v1

摘要: 联邦学习 (FL) 已成为一种实现分布式机器学习同时保护用户隐私的变革性方法,但它面临着通信效率低下和对集中式基础设施的依赖等挑战,导致延迟和成本增加。本文提出了一种新颖的 FL 方法,该方法通过消除对边缘服务器的依赖、采用基于数据相似性、性能指数和地理接近度的动态集群形成的服务器辅助邻近度评估来克服这些限制。我们的集成方法通过混合去中心化聚合协议提高了运营效率和可扩展性,该协议将本地模型训练与点对点权重交换以及由动态选举的驱动节点管理的集中式最终聚合相结合,从而显着减少了全局通信开销。此外,该方法还包括分散式驱动程序选择、减少网络流量的检查点以及用于保证系统稳健性的健康状态验证机制。使用乳腺癌数据集进行验证,我们的架构不仅证明了通信开销减少了近十倍,而且在减少训练延迟和能耗方面表现出显着改进,同时保持了较高的学习性能,为乳腺癌患者提供了可扩展、高效且保护隐私的解决方案。联邦学习生态系统的未来。

通过事实检测进行稳健的声明验证

分类: 计算和语言, 人工智能

作者: Nazanin Jafari, James Allan

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18367v1

摘要: 索赔验证可能是一项具有挑战性的任务。在本文中,我们提出了一种通过从证据中提取简短事实来增强自动索赔验证的鲁棒性和推理能力的方法。我们的新颖方法 FactDetect 利用大型语言模型 (LLM) 从证据中生成简明的事实陈述,并根据这些事实与主张和证据的语义相关性来标记这些事实。然后将生成的事实与主张和证据结合起来。为了训练轻量级监督模型,我们将事实检测任务作为多任务方法合并到声明验证过程中,以提高性能和可解释性。我们还表明,在声明验证提示中增强 FactDetect 可以提高使用 LLM 的零样本声明验证的性能。当针对具有挑战性的科学声明验证数据集进行评估时,我们的方法在监督声明验证模型中展示了具有竞争力的结果,其 F1 分数提高了 15%。我们还证明,FactDetect 可以通过大语言模型中零样本提示 (AugFactDetect) 的主张和证据进行增强,以进行判决预测。我们表明,在三个具有挑战性的科学声明验证数据集上,AugFactDetect 的性能优于基线,具有统计显着性,与表现最佳的基线相比,平均性能提升 17.3%。

FADAS:迈向联合自适应异步优化

分类: 机器学习, 人工智能, 分布式、并行和集群计算, 优化与控制

作者: Yujia Wang, Shiqiang Wang, Songtao Lu, Jinghui Chen

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18365v1

摘要: 联邦学习(FL)已成为一种广泛采用的隐私保护机器学习训练范例。虽然基于 SGD 的 FL 算法在过去已经取得了相当大的成功,但采用自适应联合优化方法的趋势越来越明显,特别是在训练大型模型时。然而,传统的同步聚合设计对这些自适应联合优化方法的实际部署提出了重大挑战,特别是在存在落后客户端的情况下。为了填补这一研究空白,本文引入了联邦自适应异步优化,称为 FADAS,这是一种将异步更新纳入自适应联邦优化的新方法,并具有可证明的保证。为了进一步提高我们提出的方法在具有显着异步延迟的场景中的效率和弹性,我们还通过延迟自适应学习调整策略扩展了 FADAS。我们严格建立了所提出算法的收敛速度,实证结果证明了 FADAS 相对于其他异步 FL 基线的优越性能。

区块链联邦学习中的 ChatGPT 等生成式 AI:用例、机遇和未来

分类: 机器学习, 人工智能, 分布式、并行和集群计算

作者: Sai Puppala, Ismail Hossain, Md Jahangir Alam, Sajedul Talukder, Jannatul Ferdaus, Mahedi Hasan, Sameera Pisupati, Shanmukh Mathukumilli

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18358v1

摘要: 联邦学习已成为使用分散数据训练机器学习模型的重要方法,而无需共享这些数据。最近,生成人工智能(AI)方法的结合为改善隐私、增强数据和定制模型提供了新的可能性。这项研究探讨了生成式人工智能在联邦学习中的潜在集成,揭示了增强隐私、数据效率和模型性能的各种机会。它特别强调了生成模型(例如生成对抗网络(GAN)和变分自动编码器(VAE))在创建复制真实数据分布的合成数据方面的重要性。生成合成数据有助于联邦学习解决与有限数据可用性相关的挑战,并支持稳健的模型开发。此外,我们还研究了生成式人工智能在联邦学习中的各种应用,以实现更个性化的解决方案。

δ-XAI 简介:一种基于灵敏度的新型局部人工智能解释方法

分类: 机器学习, 人工智能

作者: Alessandro De Carlo, Enea Parimbelli, Nicola Melillo, Giovanna Nicora

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18343v1

摘要: 可解释的人工智能 (XAI) 是将人工智能 (AI) 和机器学习 (ML) 算法整合到临床实践中的争论的核心。高性能人工智能/机器学习模型,例如集成学习器和深度神经网络,通常缺乏可解释性,从而影响了临床医生对其预测的信任。为了解决这个问题,正在开发 XAI 技术,以人类可以理解的术语来描述 AI/ML 预测。一个有前途的方向是敏感性分析(SA)和全局敏感性分析(GSA)的适应,它们本质上根据模型输入对预测的影响对模型输入进行排序。在这里,我们介绍了一种新颖的 delta-XAI 方法,该方法通过扩展 delta 索引(一种 GSA 指标)来提供 ML 模型预测的本地解释。 delta-XAI 指数评估回归和分类问题中每个特征值对单个实例的预测输出的影响。我们将 delta-XAI 索引形式化并提供其实现代码。使用线性回归模型在模拟场景中评估 delta-XAI 方法,并以 Shapley 值作为基准。结果表明,delta-XAI 指数与 Shapley 值总体一致,但在具有高影响力或极端特征值的模型中存在显着差异。 delta-XAI 指数在检测主导特征和处理极端特征值方面表现出更高的灵敏度。定性地讲,delta-XAI 通过利用概率密度函数提供直观的解释,使特征排名对从业者来说更清晰、更易于解释。总体而言,delta-XAI 方法似乎有望可靠地获得 ML 模型预测的局部解释。将在现实临床环境中进行进一步研究,以评估其对人工智能辅助临床工作流程的影响。

结合认知人工智能和生成人工智能在交互式人工智能代理中进行自我解释

分类: 人工智能

作者: Shalini Sushri, Rahul Dass, Rhea Basappa, Hong Lu, Ashok Goel

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18335v1

摘要: 虚拟实验研究助理 (VERA) 是一种基于探究的学习环境,使学习者能够构建复杂生态系统的概念模型,并通过基于代理的模型模拟进行实验。本研究研究了认知人工智能和生成人工智能的融合,以在交互式人工智能代理(例如 VERA)中进行自我解释。从认知人工智能的角度来看,我们赋予 VERA 一个以任务-方法-知识(TMK)语言表示的自己设计、知识和推理的功能模型。从生成AI的角度来看,我们基于VERA TMK模型,使用ChatGPT、LangChain和Chain-of-Thought来回答用户问题。因此,我们将认知人工智能和生成人工智能结合起来,生成有关 VERA 如何工作并产生答案的解释。对 VERA 中对源自早期工作的 66 个问题的解释生成的初步评估似乎很有希望。

情感框架:走向类人情感代理

分类: 人工智能

作者: Matthew Barthet, Roberto Gallotta, Ahmed Khalifa, Antonios Liapis, Georgios N. Yannakakis

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18316v1

摘要: 游戏环境因其交互性而提供了训练虚拟代理的独特机会,它提供了多样化的游戏轨迹和影响标签。尽管有潜力,但没有任何强化学习框架将人类情感模型纳入其观察空间或奖励机制的一部分。为了解决这个问题,我们提出了 \emph{Affectively Framework},这是一组将情感集成为观察空间一部分的 Open-AI Gym 环境。本文介绍了该框架及其三个游戏环境,并提供了基线实验来验证其有效性和潜力。

彻底改变本科学习:CourseGPT 及其生成式 AI 进步

分类: 新兴技术, 人工智能

作者: Ahmad M. Nazar, Mohamed Y. Selim, Ashraf Gaffar, Shakil Ahmed

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18310v1

摘要: 将生成式人工智能 (GenAI) 集成到教育环境中具有增强学习体验的变革潜力。本文介绍了 CourseGPT,这是一种生成式 AI 工具,旨在为教师提供支持并增强本科生的教育体验。 CourseGPT 基于 Mistral AI 的开源大型语言模型 (LLM) 构建,提供持续的教师支持和课程材料的定期更新,丰富了学习环境。通过利用特定于课程的内容(例如幻灯片和补充阅读材料和参考资料),CourseGPT 可以针对学生的询问提供精确、动态生成的答复。与通用 AI 模型不同,CourseGPT 允许教师管理和控制响应,从而扩展课程范围,而无需过多的细节。本文以 CPR E 431 - 信息系统安全基础知识课程为试点,演示了 CourseGPT 的应用。该课程招生规模大、课程内容丰富,是 CourseGPT 的理想测试平台。该工具旨在增强学习体验、加速反馈流程并简化管理任务。该研究评估了 CourseGPT 对学生成绩的影响,重点关注正确性分数、情境回忆和回答的忠实度。结果表明,参数数量较多的 Mixtral-8x7b 模型优于较小的模型,正确性得分为 88.0%,忠实度得分为 66.6%。此外,还收集了以前的学生和助教对 CourseGPT 的准确性、有用性和整体性能的反馈。结果显示,绝大多数人认为 CourseGPT 非常准确,并且有助于解决他们的疑问,许多人称赞其提供及时和相关信息的能力。

LoRA-Pro:低阶适配器是否经过适当优化?

分类: 机器学习, 人工智能, 计算和语言

作者: Zhengbo Wang, Jian Liang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18242v1

摘要: 低秩适应,也称为 LoRA,通过将原始矩阵重新参数化为两个低秩矩阵的乘积,已成为参数高效微调基础模型的重要方法。尽管效率很高,但与完全微调相比,LoRA 的性能通常较差。在本文中,我们提出 LoRA-Pro 来弥补这一性能差距。首先,我们深入研究 LoRA 中的优化过程和全面微调。我们发现,虽然 LoRA 采用低秩近似,但它忽略了近似完全微调的优化过程。为了解决这个问题,我们引入了一个称为“等效梯度”的新概念。这个虚拟梯度使得重新参数化矩阵上的优化过程等同于LoRA,可以用来量化LoRA和全微调之间的差异。等效梯度由矩阵 $A$ 和 $B$ 的梯度得出。为了缩小性能差距,我们的方法最小化了等效梯度与优化过程中完全微调获得的梯度之间的差异。通过解决这个目标,我们得出更新矩阵 $A$ 和 $B$ 的最佳封闭式解决方案。我们的方法限制了优化过程,缩小了 LoRA 与完全微调之间的性能差距。对自然语言处理任务的大量实验验证了我们方法的有效性。

递归内省:教授语言模型代理如何自我改进

分类: 机器学习, 人工智能, 计算和语言

作者: Yuxiao Qu, Tianjun Zhang, Naman Garg, Aviral Kumar

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18219v1

摘要: 在基础模型中实现智能代理行为的核心部分是使它们能够在更多计算或交互可用时反思自己的行为、推理并纠正错误。即使是最强大的专有大语言模型(LLM)也无法完全表现出连续改进其响应的能力,即使在明确告知他们犯了错误的情况下也是如此。在本文中,我们开发了 RISE:Recursive IntroSpEction,这是一种微调大语言模型以引入此功能的方法,尽管之前的工作假设这种功能可能无法实现。我们的方法规定了一个迭代微调过程,该过程试图教导模型在执行先前不成功的尝试来解决硬测试时问题后如何改变其响应,并可选择附加环境反馈。 RISE 将单轮提示的微调视为求解多轮马尔可夫决策过程 (MDP),其中初始状态是提示。受在线模仿学习和强化学习原理的启发,我们提出了多轮数据收集和训练的策略,以使大语言模型具有在后续迭代中递归检测和纠正先前错误的能力。我们的实验表明,RISE 使 Llama2、Llama3 和 Mistral 模型能够通过数学推理任务的更多回合来改进自身,在推理时间计算量相同的情况下,其性能优于几种单回合策略。我们还发现 RISE 具有良好的扩展性,通常可以通过功能更强大的模型获得更大的收益。我们的分析表明,RISE 对响应进行了有意义的改进,以针对具有挑战性的提示得出正确的解决方案,而不会因表达更复杂的分布而破坏一回合能力。

探索大语言模型稳健性的扩展趋势

分类: 机器学习, 人工智能, 计算和语言, 密码学和安全, I.2.7

作者: Nikolhaus Howe, Michał Zajac, Ian McKenzie, Oskar Hollinsworth, Tom Tseng, Pierre-Luc Bacon, Adam Gleave

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18213v1

摘要: 通过扩展模型的大小和训练数据,语言模型的能力可以预见地得到提高。受此推动,越来越多的大型语言模型得到了训练,产生了一系列令人印象深刻的功能。然而,这些模型很容易受到对抗性提示的影响,例如劫持模型以执行不良行为的“越狱”,从而构成重大的滥用风险。先前的工作表明,计算机视觉模型随着模型和数据的扩展而变得更加稳健,这就提出了一个问题:语言模型的稳健性是否也会随着规模的扩大而提高?我们根据经验研究了这个问题,发现较大的模型对对抗性训练的反应要好得多,但在缺乏明确防御的情况下,模型规模几乎没有任何好处。

异步量子强化学习中的可微量子架构搜索

分类: 量子物理学, 人工智能, 分布式、并行和集群计算, 机器学习, 神经和进化计算

作者: Samuel Yen-Chi Chen

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18202v1

摘要: 量子强化学习 (QRL) 的出现是由量子计算 (QC) 和机器学习 (ML) 的进步推动的,特别是通过基于变分量子电路 (VQC) 的量子神经网络 (QNN)。事实证明,这些进步在解决顺序决策任务方面是成功的。然而,由于设计量子电路架构(包括数据编码和参数化电路)方面的挑战,构建有效的 QRL 模型需要大量的专业知识,这会对模型性能产生深远的影响。在本文中,我们建议通过可微量子架构搜索(DiffQAS)来解决这一挑战,使用基于梯度的优化来实现可训练的电路参数和结构权重。此外,我们通过促进并行训练的异步强化学习(RL)方法来提高训练效率。通过数值模拟,我们证明了我们提出的 DiffQAS-QRL 方法在考虑的环境中实现了与手工制作的电路架构相当的性能,展示了在不同场景下的稳定性。该方法为无需广泛的量子知识即可设计 QRL 模型提供了一条途径,确保了稳健的性能并促进了 QRL 的更广泛应用。

通过联合图学习从预训练的单细胞转录组学 Transformer 进行基因调控网络推理

分类: 机器学习, 人工智能

作者: Sindhura Kommu, Yizhi Wang, Yue Wang, Xuan Wang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18181v1

摘要: 从单细胞 RNA 测序 (scRNA-seq) 数据推断基因调控网络 (GRN) 是一项复杂的挑战,需要捕获基因及其调控相互作用之间的复杂关系。在本研究中,我们通过利用基于单细胞 BERT 的预训练 Transformer 模型 (scBERT) 来应对这一挑战,该模型在大量未标记的 scRNA-seq 数据上进行训练,以增强现有 GRN 中的结构化生物学知识。我们引入了一种新颖的联合图学习方法,该方法将通过预训练的单细胞语言模型学习到的丰富上下文表示与使用图神经网络(GNN)编码在 GRN 中的结构化知识相结合。通过整合这两种模式,我们的方法有效地推理了 scRNA-seq 数据提供的基因表达水平限制和 GRN 固有的结构化生物学知识。我们使用特定于细胞类型的地面实况网络在 BEELINE 研究的人类细胞基准数据集上评估我们的方法。结果表明,其性能优于当前最先进的基线,使人们更深入地了解细胞调节机制。

PianoMime:从互联网演示中学习多才多艺、灵巧的钢琴演奏家

分类: 计算机视觉和模式识别, 人工智能, 机器人技术

作者: Cheng Qian, Julen Urain, Kevin Zakka, Jan Peters

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18178v1

摘要: 在这项工作中,我们介绍了 PianoMime,一个使用互联网演示来训练钢琴演奏代理的框架。互联网是训练机器人代理的大规模演示的一个很有前途的来源。尤其是钢琴演奏,Youtube 上充斥着专业钢琴家演奏各种歌曲的视频。在我们的工作中,我们利用这些演示来学习能够演奏任意歌曲的多才多艺的钢琴演奏代理。我们的框架分为三个部分:数据准备阶段,用于从 Youtube 视频中提取信息特征;策略学习阶段,用于从演示中训练特定于歌曲的专家策略;以及策略蒸馏阶段,用于将策略提炼为单个通用代理。我们探索不同的策略设计来代表代理,并评估训练数据量对代理对数据集中不可用的新歌曲的泛化能力的影响。我们表明,我们能够学习对未见过的歌曲 F1 分数高达 56% 的策略。

Quasar-ViT:面向硬件的量化感知架构搜索视觉转换器

分类: 机器学习, 人工智能, 计算机视觉和模式识别

作者: Zhengang Li, Alec Lu, Yanyue Xie, Zhenglun Kong, Mengshu Sun, Hao Tang, Zhong Jia Xue, Peiyan Dong, Caiwen Ding, Yanzhi Wang, Xue Lin, Zhenman Fang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18175v1

摘要: 与卷积神经网络 (CNN) 相比,视觉变换器 (ViT) 已证明其在计算机视觉任务方面具有卓越的准确性。然而,ViT 模型通常是计算密集型的,无法在资源有限的边缘设备上进行有效部署。这项工作提出了 Quasar-ViT,一种面向硬件的 ViT 量化感知架构搜索框架,旨在为硬件实现设计高效的 ViT 模型,同时保持准确性。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用高效的面向硬件的搜索算法,结合硬件延迟和资源建模,在不同的推理延迟目标下从超网中确定一系列最佳子网。最后,我们在 FPGA 平台上提出了一系列模型自适应设计,以支持架构搜索并缩小理论计算减少与实际推理加速之间的差距。我们搜索的模型在 AMD/Xilinx ZCU102 FPGA 上实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 推理速度,对于 ImageNet 数据集分别具有 80.4%、78.6% 和 74.9% 的 top-1 准确度超越之前的作品。

用于开放世界感知的双曲空间中的分类感知连续语义分割

分类: 计算机视觉和模式识别, 人工智能, 机器人技术

作者: Julia Hindel, Daniele Cattaneo, Abhinav Valada

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18145v1

摘要: 语义分割模型通常在一组固定的类上进行训练,限制了它们在开放世界场景中的适用性。类增量语义分割旨在用新兴的新类来更新模型,同时防止对先前学习的类的灾难性遗忘。然而,现有的方法对旧类施加了严格的刚性,降低了它们学习新增量类的有效性。在这项工作中,我们提出了面向分类的庞加莱正则化增量类分割(TOPICS),它按照显式的分类树结构学习双曲空间中的特征嵌入。这种监督为旧类提供了可塑性,根据新类更新祖先,同时在合适的位置集成新类。此外,我们在庞加莱球的几何基础上维护隐式类关系约束。这确保了潜在空间能够不断适应新的约束,同时保持稳健的结构以对抗灾难性遗忘。我们还为自动驾驶场景建立了八种现实的增量学习协议,其中新的类可以源自已知的类或背景。对 Cityscapes 和 Mapillary Vistas 2.0 基准的 TOPICS 进行的广泛评估表明,它实现了最先进的性能。我们在 http://topics.cs.uni-freiburg.de 上公开提供代码和训练模型。

通过熵优势估计的最大熵同策略 Actor-Critic

分类: 机器学习, 人工智能

作者: Jean Seong Bjorn Choe, Jong-Kook Kim

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18143v1

摘要: 熵正则化是一种广泛采用的技术,可以增强策略优化性能和稳定性。熵正则化的一种值得注意的形式是用熵项来增强目标,从而同时优化预期回报和熵。这个框架被称为最大熵强化学习(MaxEnt RL),已经在理论和经验上取得了成功。然而,令人惊讶的是,它在直接政策演员批评环境中的实际应用仍然没有得到充分探索。我们假设这是由于在实践中管理熵奖励的困难造成的。本文提出了一种将熵目标与 MaxEnt RL 目标分离的简单方法,有利于 MaxEnt RL 在 on-policy 设置中的实现。我们的实证评估表明,在 MaxEnt 框架内扩展近端策略优化 (PPO) 和信赖域策略优化 (TRPO) 可以提高 MuJoCo 和 Procgen 任务中的策略优化性能。此外,我们的结果凸显了 MaxEnt RL 增强泛化能力。

Dallah:一种方言感知的多模态阿拉伯语大语言模型

分类: 计算和语言, 人工智能

作者: Fakhraddin Alwajih, Gagan Bhatia, Muhammad Abdul-Mageed

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18129v1

摘要: 最近的进展显着增强了多模态大型语言模型 (MLLM) 在生成和理解图像到文本内容方面的能力。尽管取得了这些成功,但由于其他语言的高质量多式联运资源稀缺,进展主要限于英语。这种限制阻碍了阿拉伯语等语言的竞争模型的开发。为了缓解这种情况,我们引入了一种高效的阿拉伯语多模态助手,称为 Dallah,它利用基于 LLaMA-2 的高级语言模型来促进多模态交互。 Dallah 在阿拉伯语 MLLM 中展示了最先进的性能。通过微调六种阿拉伯方言,Dallah 展示了其处理结合文本和视觉元素的复杂方言交互的能力。该模型在两项基准测试中表现出色:一项评估其在现代标准阿拉伯语 (MSA) 上的表现,另一项专门设计用于评估方言反应。除了在多模式交互任务中表现强劲之外,Dallah 还有潜力为进一步开发方言感知的阿拉伯语 MLLM 铺平道路。

使用扩散模型进行自监督预训练,用于 X 射线图像中的少镜头地标检测

分类: 计算机视觉和模式识别, 人工智能

作者: Roberto Di Via, Francesca Odone, Vito Paolo Pastore

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18125v1

摘要: 在过去的几年中,深度神经网络已广泛应用于医学领域的不同任务,从图像分类和分割到地标检测。然而,这些技术在医学领域的应用常常受到数据稀缺的阻碍,无论是在可用注释还是图像方面。本研究引入了一种基于扩散模型的新的自监督预训练协议,用于 X 射线图像中的地标检测。我们的结果表明,所提出的自监督框架可以通过最少数量的可用带注释训练图像(最多 50 个)提供准确的地标检测,优于 ImageNet 监督预训练和最先进的自监督预训练三个流行的 X 射线基准数据集。据我们所知,这是对地标检测中自监督学习的扩散模型的首次探索,这可能在少样本情况下提供有价值的预训练方法,以缓解数据稀缺性。

MapTune:通过强化学习引导库调整推进 ASIC 技术映射

分类: 硬件架构, 人工智能

作者: Mingju Liu, Daniel Robinson, Yingjie Li, Cunxi Yu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18110v1

摘要: 技术映射涉及将逻辑电路映射到单元库。传统上,使用完整的技术库,导致巨大的搜索空间和潜在的开销。受随机抽样技术映射案例研究的启发,我们提出了 MapTune 框架,该框架通过利用强化学习在单元选择过程中做出特定设计的选择来解决这一挑战。通过从环境中学习,MapTune 改进了单元选择过程,从而减少了搜索空间并可能提高了地图质量。 MapTune 的有效性是根据各种基准、不同的技术库和技术映射器进行评估的。实验结果表明,MapTune 在不同的电路设计、技术库和映射器中实现了更高的映射精度并减少了延迟/面积。论文还讨论了帕累托最优探索并确认了永久延迟区域权衡。在基准套件 ISCAS 85/89、ITC/ISCAS 99、VTR8.0 和 EPFL 基准上进行,后技术映射和后尺寸调整结果质量 (QoR) 得到显着改善,平均面积延迟积 ( ADP)在 MapTune 中所有不同的探索设置中提高了 22.54%。四种不同的技术(7nm、45nm、130nm 和 180nm)和两种不同的映射器始终保持着改进。

用于卵巢癌亚型分型的多分辨率组织病理学斑块图

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者: Jack Breen, Katie Allen, Kieran Zucker, Nicolas M. Orsi, Nishant Ravikumar

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18105v1

摘要: 计算机视觉模型越来越能够对卵巢上皮癌亚型进行分类,但它们与病理学家的不同之处在于以单一分辨率处理小组织斑块。多分辨率图形模型利用多个放大倍数下的斑块的空间关系,了解每个斑块的上下文。在这项研究中,我们对卵巢癌亚型的图形模型进行了迄今为止最彻底的验证。使用五倍交叉验证对来自利兹教学医院 NHS Trust 治疗的 434 名患者的一组 1864 个完整幻灯片图像 (WSI) 调整和训练了七个模型。在 Transcanadian 研究中,使用来自 30 名患者的 100 个 WSI 的平衡保留测试集和来自 80 名患者的 80 个 WSI 的外部验证集对交叉验证模型进行了集成和评估。表现最好的模型是使用 10x+20x 放大数据的图形模型,在交叉验证、保留测试和外部验证中分别给出了 73%、88% 和 99% 的平衡精度。然而,这仅超过了外部验证中基于注意力的多实例学习的性能,达到了 93% 的平衡准确率。图模型受益于使用 UNI 基础模型而不是 ImageNet 预训练的 ResNet50 进行特征提取,这对性能的影响比改变后续分类方法要大得多。组合基础模型和多分辨率图网络的准确性为这些模型的临床适用性迈出了一步,该任务达到了新的最高报告性能,但仍需要进一步验证以确保模型的稳健性和可用性。

物联网联邦学习中的隐私威胁与对策:系统回顾

分类: 密码学和安全, 人工智能

作者: Adel ElZemity, Budi Arief

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18096v1

摘要: 物联网 (IoT) 环境中的联邦学习 (FL) 可以通过利用去中心化数据来增强机器学习,但与此同时,由于物联网设备的受限性质,它可能会带来严重的隐私和安全问题。这是我们在本文中旨在解决的研究挑战。我们系统地分析了最近的文献,以识别物联网环境中 FL 的隐私威胁,并评估可用于减轻这些威胁的防御措施。使用系统文献综述(SLR)方法,我们检索了五个出版物数据库(Scopus、IEEE Xplore、Wiley、ACM 和 Science Direct),整理了 2017 年至 2024 年 4 月期间发表的相关论文,这一时期从 FL 引入到现在。在 PRISMA 协议的指导下,我们选择了 49 篇论文进行系统综述。我们分析了这些论文,特别关注隐私威胁和防御措施——特别是在物联网背景下——使用专门定制的包含和排除标准来突出最新进展和关键见解。我们识别了各种隐私威胁,包括推理攻击、中毒攻击和窃听,以及差分隐私和安全多方计算等防御措施。对这些防御措施在保护隐私方面的有效性进行了评估,同时又不影响物联网设置中 FL 的功能完整性。我们的审查强调了针对物联网环境量身定制稳健高效的隐私保护策略的必要性。值得注意的是,需要针对重放、规避和模型窃取攻击的策略。探索轻量级防御措施和区块链等新兴技术可能有助于提高物联网中 FL 的隐私性,从而创建可以在可变网络条件下运行的 FL 模型。

PEFT-U:针对用户个性化的参数高效微调

分类: 计算和语言, 人工智能

作者: Christopher Clarke, Yuzhao Heng, Lingjia Tang, Jason Mars

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18078v1

摘要: 最近出现的大型语言模型(LLM)预示着人类与人工智能交互的新时代。这些复杂的模型,以 Chat-GPT 及其后继者为代表,在语言理解方面表现出了卓越的能力。然而,随着这些大语言模型经历了指数级增长,仍然没有得到充分研究的一个关键维度是这些模型的个性化。 GPT-3 等大型基础模型专注于创建服务于广泛任务和用户的通用模型。这种方法强调模型的泛化能力,将用户视为一个集体而不是不同的个体。虽然对于许多常见应用都很实用,但这种一刀切的方法往往无法满足丰富的人类多样性和个人需求。为了探讨这个问题,我们引入了 PEFT-U 基准:一个用于构建和评估用户个性化 NLP 模型的新数据集。 \datasetname{} 由一系列以用户为中心的任务组成,其中包含多样化和个性化的表达式,其中用户的偏好对于相同的输入可能会有所不同。使用 PEFT-U,我们探索了高效个性化大语言模型的挑战,以适应不同以用户为中心的任务背景下的用户特定偏好。

使用大语言模型对法语文本进行难度估计和简化

分类: 计算和语言, 人工智能

作者: Henri Jamet, Yash Raj Shrestha, Michalis Vlachos

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18061v1

摘要: 我们利用生成大型语言模型进行语言学习应用,重点是估计外语文本的难度并将其简化到较低的难度级别。我们将这两项任务都视为预测问题,并使用标记示例、迁移学习和大型语言模型开发难度分类模型,与以前的方法相比,展示了更高的准确性。为了简化,我们评估了简化质量和意义保留之间的权衡,比较了大型语言模型的零样本和微调性能。我们证明,通过有限的微调可以获得有意义的文本简化。我们的实验是在法语文本上进行的,但我们的方法与语言无关,并且可以直接适用于其他外语。

GaussianSR:用于任意尺度图像超分辨率的高保真二维高斯分布

分类: 计算机视觉和模式识别, 人工智能

作者: Jintong Hu, Bin Xia, Bin Chen, Wenming Yang, Lei Zhang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18046v1

摘要: 隐式神经表示(INR)极大地推进了图像任意尺度超分辨率(ASSR)领域的发展。大多数现有的基于 INR 的 ASSR 网络首先使用编码器从给定的低分辨率图像中提取特征,然后通过多层感知器解码器渲染超分辨率结果。尽管这些方法已经显示出有希望的结果,但它们的性能受到编码特征中离散潜在代码的有限表示能力的限制。在本文中,我们提出了一种名为 GaussianSR 的新型 ASSR 方法,它通过 2D 高斯分布 (2DGS) 克服​​了这一限制。与将像素视为离散点的传统方法不同,GaussianSR 将每个像素表示为连续的高斯场。通过渲染相互堆叠的高斯场,编码的特征同时被细化和上采样。结果,建立了远程依赖关系以增强表示能力。此外,还开发了一个分类器来动态地将高斯核分配给所有像素,以进一步提高灵活性。 GaussianSR 的所有组件(即编码器、分类器、高斯核和解码器)都是端到端联合学习的。实验表明,GaussianSR 用比现有方法更少的参数实现了卓越的 ASSR 性能,同时享受可解释和内容感知的特征聚合。

联合蒸馏中峰值控制的 Logits 中毒攻击

分类: 机器学习, 人工智能

作者: Yuhan Tang, Aoxu Zhang, Zhiyuan Wu, Bo Gao, Tian Wen, Yuwei Wang, Sheng Sun

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18039v1

摘要: 联合蒸馏 (FD) 提供了一种创新的分布式机器学习方法,利用知识蒸馏实现高效、灵活的跨设备知识传输,而无需将大量模型参数上传到中央服务器。尽管 FD 已经流行起来,但其对中毒攻击的脆弱性仍未得到充分研究。为了解决这个问题,我们之前引入了 FDLA(联合蒸馏 Logits 攻击),这是一种操纵 Logits 通信来误导和降低客户端模型性能的方法。然而,FDLA 对不同身份参与者的影响以及知识转移各个阶段恶意修改的影​​响仍有待探索。为此,我们提出了PCFDLA(峰值控制联合蒸馏Logits攻击),这是一种先进且更隐蔽的FD Logits中毒攻击方法。 PCFDLA 通过仔细控制 logits 的峰值来创建高度误导性但不显眼的修改,从而增强 FDLA 的有效性。此外,我们引入了一种新的指标来更好地评估攻击效果,证明 PCFDLA 保持隐身性,同时与之前的版本相比,对受害者模型的破坏性明显更大。各种数据集的实验结果证实了 PCFDLA 对模型准确性的卓越影响,巩固了其在联合蒸馏系统中的潜在威胁。

RestoreAgent:通过多模态大语言模型的自主图像恢复代理

分类: 计算机视觉和模式识别, 人工智能, 计算和语言

作者: Haoyu Chen, Wenbo Li, Jinjin Gu, Jingjing Ren, Sixiang Chen, Tian Ye, Renjing Pei, Kaiwen Zhou, Fenglong Song, Lei Zhu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18035v1

摘要: 移动设备捕获的自然图像通常会遭受多种类型的退化,例如噪声、模糊和低光。传统的图像恢复方法需要手动选择特定的任务、算法和执行序列,这不仅耗时,而且可能会产生次优的结果。一体式模型虽然能够处理多项任务,但通常仅支持有限的范围,并且由于其广泛的数据分布拟合,常常会产生过于平滑、低保真度的结果。为了应对这些挑战,我们首先定义了一个新的管道来恢复具有多重降级的图像,然后引入RestoreAgent,一个利用多模态大语言模型的智能图像恢复系统。 RestoreAgent 自主评估输入图像的退化类型和程度,并通过以下方式执行恢复:(1) 确定适当的恢复任务,(2) 优化任务序列,(3) 选择最合适的模型,以及 (4) 执行恢复。实验结果证明RestoreAgent在处理复杂降解方面的优越性能,超越了人类专家。此外,系统模块化设计有利于新任务和模型的快速集成,增强了其针对各种应用的灵活性和可扩展性。

AttentionHand:文本驱动的可控手部图像生成,用于野外 3D 手部重建

分类: 计算机视觉和模式识别, 人工智能

作者: Junho Park, Kyeongbo Kong, Suk-Ju Kang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18034v1

摘要: 最近,针对 3D 手重建以使用各种形式的人机交互进行了大量研究。然而,由于极度缺乏野外 3D 手部数据集,野外 3D 手部重建具有挑战性。尤其是当手部处于交互手等复杂姿势时,外观相似性、自手遮挡、深度模糊等问题使其变得更加困难。为了克服这些问题,我们提出了 AttentionHand,一种文本驱动的可控手部图像生成的新方法。由于 AttentionHand 可以生成与 3D 手部标签良好对齐的各种野外手部图像,因此我们可以获得新的 3D 手部数据集,并可以缓解室内和室外场景之间的域差距。我们的方法需要易于使用的四种模式(即 RGB 图像、来自 3D 标签的手部网格图像、边界框和文本提示)。这些模态通过编码阶段嵌入到潜在空间中。然后,通过文本注意阶段,关注给定文本提示中的手相关标记,以突出显示潜在嵌入的手相关区域。在突出显示的嵌入被馈送到视觉注意阶段之后,嵌入中与手相关的区域通过使用基于扩散的管道调节全局和局部手网格图像来参与。在解码阶段,最终特征被解码为新的手部图像,该图像与给定的手部网格图像和文本提示很好地对齐。结果,AttentionHand 在文本到手部图像生成模型中达到了最先进的水平,并且通过使用 AttentionHand 生成的手部图像进行额外训练,提高了 3D 手部网格重建的性能。

通过自我观察学习心理状态估计:心理理论深度学习模型中意图和信念表征之间的发展协同作用

分类: 神经和进化计算, 人工智能, 机器学习, 机器人技术

作者: Francesca Bianco, Silvia Rigato, Maria Laura Filippetti, Dimitri Ognibene

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18022v1

摘要: 心智理论 (ToM) 是将信念、意图或心理状态归因于他人的能力,是人类社会互动的一个重要特征。在复杂的环境中,人类的感官系统达到了极限,我们对周围世界状态的信念强烈地驱动着我们的行为。了解他人的心理状态,例如信仰和意图,可以在自然环境中进行更有效的社交互动。然而,这些变量无法直接观察到,这使得理解 ToM 成为不同领域(包括心理学、机器学习和机器人技术)感兴趣的具有挑战性的探索。在本文中,我们通过展示学习预测低水平心理状态(例如意图、目标)和归因高水平心理状态(即信念)之间的发展协同作用来为这个主题做出贡献。具体来说,我们假设学习信念归因可以通过观察自己涉及信念的决策过程来发生,例如,在部分可观察的环境中。使用简单的前馈深度学习模型,我们表明,当学习预测他人的意图和行为时,如果同时学习信念归因,则可以更早地获得更准确的预测。此外,我们表明,即使被观察的行为者具有与观察者不同的体现,学习性能也会提高,并且在观察信念驱动的行为块时增益会更高。我们提出,我们的计算方法可以帮助理解人类社会认知发展,并与未来自适应社交机器人的设计相关,这些机器人能够在新的自然环境和任务中自主地理解、协助人类互动伙伴并向其学习。

量子随机平滑应用于时间序列分析的二次优势

分类: 量子物理学, 人工智能, 机器学习

作者: Nicola Franco, Marie Kempkes, Jakob Spiegelberg, Jeanette Miriam Lorenz

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18021v1

摘要: 随着量子机器学习的持续快速发展,确保量子算法的鲁棒性和效率的重要性怎么强调也不为过。我们的研究提出了对量子随机平滑的分析,以及如何匹配数据编码和扰动建模方法以获得有意义的鲁棒性证书。通过利用集成 Grover 算法的创新方法,实现了相对于经典随机平滑的二次采样优势。该策略需要基础状态编码,从而限制了有意义的扰动的空间。我们在此展示了受约束的 $k$ 距离汉明权重扰动如何是一个合适的噪声分布,并阐明了如何在量子计算机上构建它们。所提出框架的有效性在使用词袋预处理解决方案的时间序列分类任务中得到了证明。特别是在具有大量样本的情况下,二次样本减少的优点得到了恢复。这可能允许量子计算机有效地将随机平滑扩展到经典方法无法达到的更复杂的任务。

元胞自动机和异构拓扑网络的敏感性分析:部分局部元胞自动机和同质同质随机布尔网络

分类: 元胞自动机和晶格气体, 人工智能, 新兴技术, 神经和进化计算

作者: Tom Eivind Glover, Ruben Jahren, Francesco Martinuzzi, Pedro Gonçalves Lind, Stefano Nichele

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.18017v1

摘要: 基本元胞自动机 (ECA) 是一个经过充分研究的计算宇宙,尽管其配置简单,但能够进行令人印象深刻的计算多样性。从历史上看,以有用的方式获取这种计算本身就很困难,但如果与水库计算(RC)相结合,这将变得更加可行。此外,RC 和 ECA 可实现节能 AI,使该组合成为边缘 AI 的一个有前景的概念。在这项工作中,我们将 ECA 与部分局部 CA (PLCA) 和同质同质随机布尔网络 (HHRBN) 的基底进行对比。相比之下,它们是 ECA 的拓扑异构对应物。这代表了 ECA 向更具生物学合理性的底物迈出了一步。我们通过在 RC 基准(5 位内存)上进行测试来分析这些基板,使用时间德里达图来估计灵敏度并评估缺陷崩溃率。我们发现,与直觉相反,无序拓扑并不一定意味着无序计算。拓扑缺陷的计算“力”会导致更高的塌陷率(阶数),但如果考虑在内,对初始条件的敏感性也会增加。这些观察结果表明临界范围正在缩小。

边缘辅助车辆的个性化和情境感知路线规划

分类: 人工智能, 机器人技术

作者: Dinesh Cyril Selvaraj, Falko Dressler, Carla Fabiana Chiasserini

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17980v1

摘要: 传统的路线规划服务通常为所有驾驶员提供相同的路线,主要关注一些标准化因素,例如行驶距离或时间,而忽略了驾驶员的个人偏好。随着自动驾驶汽车预计在未来几年出现,车辆将依赖规划者决定的路线,因此需要结合每个驾驶员的具体偏好,确保个性化的导航体验。在这项工作中,我们提出了一种基于图神经网络(GNN)和深度强化学习(DRL)的新方法,旨在定制路线以满足个人喜好。通过分析单个驾驶员的历史轨迹,我们对他们的驾驶行为进行分类,并将其与相关道路属性相关联,作为驾驶员偏好的指标。 GNN 能够有效地将道路网络表示为图结构数据,而 DRL 能够利用奖励机制做出决策,根据出行成本、拥堵程度和驾驶员满意度等因素来优化路线选择。我们使用现实世界的道路网络评估我们提出的基于 GNN 的 DRL 框架,并展示其适应驾驶员偏好的能力,为个人驾驶员提供一系列量身定制的路线选项。结果表明,我们的框架可以选择适合驾驶员偏好的路线,与通用路线规划器相比,性能提升高达 17%,并且相对于最短距离,将出行时间减少 33%(下午)和 46%(晚上)。基于的方法。

关联看似无关的事物:对算术推理任务中生成模型泛化的原则性理解

分类: 机器学习, 人工智能

作者: Xingcheng Xu, Zibo Zhao, Haipeng Zhang, Yanqing Yang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17963v1

摘要: 大型语言模型 (LLM) 在众多任务中表现出了令人印象深刻的多功能性,但它们的泛化能力仍然知之甚少。为了研究这些行为,算术任务是重要的场所。在之前的研究中,看似无关的谜团仍然存在——(1)具有适当位置嵌入的模型可以正确执行更长的未见过的算术运算,例如加法,但它们的有效性在乘法等更复杂的任务中有所不同; (2) 无论使用何种位置编码,模型在特定模数(例如模 100)下的模加法中对于较长未见情况表现良好,但在非常接近的模数(例如模 101)下表现不佳。我们认为,以前的研究只是治标不治本,而不是解决根本原因——他们过度关注改进模型组件,而忽视了可能是真正驱动因素的任务属性的差异。我们针对不同算术场景的统一理论框架证实了这一点。例如,与乘法不同,数字加法任务具有平移不变性,它自然地与相对位置编码对齐,并且这种组合导致加法成功推广到看不见的较长域。模 100 和模 101 运算中的差异源自基数。与 101 不同,模 100 与十进制(基数 10)兼容,因此该任务实际上不需要超出个位数和十位数的看不见的信息。使用类 GPT 模型进行的大量实验验证了我们的理论预测。这些发现加深了我们对泛化机制的理解,并促进更高效的数据模型训练和面向目标的人工智能对齐。

通过 Tseitin 意识修剪布尔 d-DNNF 电路

分类: 人工智能, 计算机科学中的逻辑

作者: Vincent Derkinderen

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17951v1

摘要: d-DNNF 形式的布尔电路可实现易于处理的概率推理。然而,作为这项工作的一个关键见解,我们表明常用的 d-DNNF 编译方法引入了不相关的子电路。我们将这些子电路称为 Tseitin 工件,因为它们是由于 Tseitin 转换步骤而引入的,这是一个完善的过程,可将任何电路转换为多个 d-DNNF 知识编译器所需的 CNF 格式。我们讨论如何检测和消除 Tseitin 变量和 Tseitin 伪影,从而形成更简洁的电路。我们凭经验观察到,当删除 Tseitin 变量和伪影时,平均大小减少了 77.5%。 Tseitin 伪影的额外修剪平均减少了 22.2% 的大小。这显着改善了受益于更简洁电路的下游任务,例如概率推理任务。

使用 Yolo-v9 进行实时美国手语检测

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Amna Imran, Meghana Shashishekhara Hulikal, Hamza A. A. Gardi

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17950v1

摘要: 本文重点关注实时美国手语检测。 YOLO是一种基于卷积神经网络(CNN)的模型,于2015年首次发布。近年来,它因其实时检测能力而受到欢迎。我们的研究专门针对 2024 年发布的 YOLO-v9 模型。由于该模型是新推出的,因此在其上做的工作并不多,尤其是在手语检测方面。我们的论文深入了解了 YOLO-v9 的工作原理,并且比以前的模型更好。

多策略优化下的正向文本重构

分类: 计算和语言, 人工智能

作者: Shutong Jia, Biwei Cao, Qingqing Gao, Jiuxin Cao, Bo Liu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17940v1

摘要: 与情感转移不同,积极重构寻求在保留原始含义的同时,用积极的表达方式替代消极的观点。随着预训练语言模型 (PLM) 的出现,通过微调 PLM 可以获得可接受的结果。然而,生成流畅、多样化且任务受限的重构文本仍然是一个重大挑战。为了解决这个问题,本文提出了\textbf{m}ulti-\textbf{s}策略\textbf{o}优化\textbf{f}框架(MSOF)。从积极重构的目标出发,我们首先设计积极情感奖励和内容保留奖励,以鼓励模型在保证语义的完整性和一致性的同时改造原文的消极表达。然后,引入不同的解码优化方法来提高文本生成的质量。最后,基于正重构的建模公式,我们提出了一种多维度重排序方法,从策略一致性、文本相似度和流畅性三个维度进一步选择候选句子。在两个 Seq2Seq PLM(BART 和 T5)上进行的广泛实验表明,我们的框架在无约束和受控的正重构任务上取得了显着改进。

不同人工神经网络用于比特币价格预测的比较

分类: 机器学习, 人工智能

作者: Silas Baumann, Karl A. Busch, Hamza A. A. Gardi

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17930v1

摘要: 本研究调查了不同序列长度对使用人工神经网络(ANN)预测加密货币回报准确性的影响。利用平均绝对误差(MAE)作为阈值标准,我们的目标是通过排除小于该阈值的回报来提高预测准确性,从而减少与较小回报相关的误差。后续评估重点关注超过此阈值的预测收益的准确性。我们比较了四个序列长度:168 小时(7 天)、72 小时(3 天)、24 小时和 12 小时,每个序列的返回预测间隔为 2 小时。我们的研究结果揭示了序列长度对预测准确性的影响,并强调了金融预测模型中优化序列配置的潜力。

仿射变换的深度图像质量指标的不变性

分类: 计算机视觉和模式识别, 人工智能

作者: Nuria Alabau-Bosque, Paula Daudén-Oliver, Jorge Vila-Tomás, Valero Laparra, Jesús Malo

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17927v1

摘要: 深层架构是当前预测主观图像质量的最先进技术。通常,这些模型的评估依据是它们与数据库中人类观点的关联能力,以及数字媒体中可能出现的一系列扭曲。然而,这些监督仿射变换可以更好地代表自然条件下实际发生的图像变化。与数字变换相反,人类对这些自然变换特别不敏感。在这项工作中,我们通过评估仿射变换的不变性来评估最先进的深度图像质量指标,特别是:旋转、平移、缩放和光谱照明的变化。我们提出了一种为任何感知指标分配不可见阈值的方法。该方法涉及将任意度量测量的距离转换为基于可用的主观评级数据库的通用距离表示。我们在心理物理学上测量该通用表示中的绝对检测阈值,并将其表达为每个度量的每个仿射变换的物理单位。通过这样做,我们可以将分析的指标与实际的人类阈值进行直接比较。我们发现,在基于隐形阈值的强大测试下,没有任何最先进的指标显示出类似人类的结果。这意味着专门调整模型来预测一般扭曲的可见性可能会忽略人类视觉的其他属性,例如不变性或不可见阈值。

函数调用的阴暗面:越狱大型语言模型的途径

分类: 密码学和安全, 人工智能

作者: Zihui Wu, Haichang Gao, Jianping He, Ping Wang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17915v1

摘要: 大型语言模型 (LLM) 已展现出非凡的功能,但其强大功能也伴随着重要的安全考虑。虽然人们对聊天模式下大语言模型的安全性进行了广泛的研究,但其函数调用功能的安全隐患在很大程度上被忽视了。本文揭示了 LLM 函数调用过程中的一个关键漏洞,引入了一种新颖的“越狱函数”攻击方法,该方法利用对齐差异、用户强制和缺乏严格的安全过滤器。我们对包括 GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-pro 在内的 6 个最先进的 LLM 进行的实证研究表明,这种攻击的平均成功率超过 90%,令人震惊。我们全面分析了函数调用为何容易受到此类攻击,并提出了防御策略,包括使用防御提示。我们的研究结果强调了大语言模型的函数调用能力迫切需要增强安全措施,通过识别以前未探索的风险、设计有效的攻击方法并提出实用的防御措施,为人工智能安全领域做出贡献。我们的代码可在 https://github.com/wooozihui/jailbreakfunction 获取。

ReCorD:推理和纠正 HOI 生成的扩散

分类: 多媒体, 人工智能, 计算机视觉和模式识别

作者: Jian-Yu Jiang-Lin, Kang-Yang Huang, Ling Lo, Yi-Ning Huang, Terence Lin, Jhih-Ciang Wu, Hong-Han Shuai, Wen-Huang Cheng

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17911v1

摘要: 扩散模型利用自然语言指导多媒体内容的创建,彻底改变了图像生成。尽管此类生成模型取得了重大进展,但在描述详细的人与物体交互方面仍然存在挑战,特别是在姿势和物体放置准确性方面。我们引入了一种名为推理和校正扩散(ReCorD)的免训练方法来应对这些挑战。我们的模型将潜在扩散模型与视觉语言模型结合起来,以改进生成过程,确保 HOI 的精确描述。我们提出了一个交互感知推理模块来改进交互的解释,以及一个交互校正模块来细化输出图像,以实现更精确的 HOI 生成。通过细致的姿势选择和对象定位过程,ReCorD 在生成的图像中实现了卓越的保真度,同时有效地降低了计算要求。我们在三个基准上进行了全面的实验,以展示在解决文本到图像生成任务方面的重大进展,展示 ReCorD 通过在 HOI 分类评分以及 FID 和 Verb CLIP-Score 方面优于现有方法来准确渲染复杂交互的能力。项目网站位于 https://alberthkyhky.github.io/ReCorD/

空间或时空干扰下离策略评估的因果深度集

分类: 机器学习, 人工智能, 机器学习

作者: Runpeng Dai, Jianing Wang, Fan Zhou, Shikai Luo, Zhiwei Qin, Chengchun Shi, Hongtu Zhu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17910v1

摘要: 离线政策评估(OPE)广泛应用于制药和电子商务等领域,用于根据离线数据集评估新产品或政策的有效性。本文介绍了一种因果深度集框架,该框架放宽了几个关键的结构假设,主要是平均场假设,该假设在处理时空干扰的现有 OPE 方法中普遍存在。这些传统假设在现实环境中经常被证明是不够的,从而限制了当前 OPE 方法有效解决复杂干扰效应的能力。作为回应,我们主张实施排列不变性(PI)假设。这种创新方法实现了平均场函数的数据驱动、自适应学习,提供了比传统平均更灵活的估计方法。此外,我们提出了将 PI 假设纳入 OPE 的新颖算法,并彻底检验了其理论基础。我们的数值分析表明,这种新颖的方法可以比现有的基线算法产生更精确的估计,从而大大提高 OPE 方法的实际适用性和有效性。我们提出的方法的 Python 实现可以在 https://github.com/BIG-S2/Causal-Deepsets 上找到。

使用深度学习修复进行 3D 孔填充

分类: 图形, 人工智能

作者: Marina Hernández-Bautista, F. J. Melero

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17896v1

摘要: 当前的工作提出了一种新颖的方法,用于在缺乏有意义的几何数据的地方完成由 3D 数字化技术生成的 3D 表面。这些三维 (3D) 模型中的数据不完整或缺失可能会导致渲染错误或有缺陷,从而限制其在可视化、几何计算和 3D 打印等各种应用中的实用性。传统的表面估计方法通常会产生令人难以置信的结果,尤其是在处理复杂表面时。为了解决这个问题,我们提出了一种结合基于神经网络的 2D 修复来有效重建 3D 表面的技术。我们定制的神经网络在包含超过 100 万张曲率图像的数据集上进行训练。这些图像将顶点的曲率显示为二维平面表示。此外,我们使用从粗到细的表面变形技术来提高重建图像的准确性并确保表面适应性。这种策略使系统能够从输入数据中学习和概括模式,从而开发出精确且全面的三维表面。我们的方法在形状完成过程中表现出色,能够有效地填充三维表面中的复杂孔,具有卓越的真实性和精度。

主题建模的迭代方法

分类: 机器学习, 人工智能

作者: Albert Wong, Florence Wing Yau Cheng, Ashley Keung, Yamileth Hercules, Mary Alexandra Garcia, Yew-Wei Lim, Lien Pham

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17892v1

摘要: 主题建模在总结文本数据(例如社交媒体帖子和文章)方面变得越来越流行。然而,主题建模通常是一次性完成的。评估由此产生的主题的质量具有挑战性。尚未制定有效的方法或措施来评估结果或进一步增强这些主题。在这项研究中,我们建议使用迭代过程来执行主题建模,当过程完成时,会产生结果主题的完整性感。使用 BERTopic 包(主题建模中的一种流行方法),我们演示了如何迭代应用建模过程来获得一组主题,这些主题在使用聚类比较的三个选定度量之一作为决策标准时无法进一步改进。该演示是使用 COVIDSenti-A 数据集的子集进行的。早期的成功使我们相信,将这种方法与其他主题建模算法结合使用的进一步研究是可行的。

揭开永无止境的生命周期和活化流程的故事

分类: 数据库, 人工智能, 软件工程

作者: Stephan A. Fahrenkrog-Petersen, Saimir Bala, Luise Pufahl, Jan Mendling

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17881v1

摘要: 业务流程管理 (BPM) 已广泛用于发现、建模、分析和优化组织流程。 BPM 使用假设明确定义的开始和结束的分析技术来查看这些流程。然而,并非所有流程都遵循此逻辑,因此 BPM 分析技术无法正确捕获它们的行为。本文从概念层面解决了这一研究问题。更具体地说,我们引入了针对一个或多个实体的生命周期过程的活力化业务流程的概念。我们展示了许多行业中生命周期过程的存在,以及它们适当的概念化为合适的建模和分析技术的定义铺平了道路。本文提供了一系列分析要求,以及生命周期和激活过程的概念化。

HG-PIPE:使用混合粒度管道的 Vision Transformer 加速

分类: 硬件架构, 人工智能, 68T07

作者: Qingyu Guo, Jiayong Wan, Songqiang Xu, Meng Li, Yuan Wang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17879v1

摘要: 使用现场可编程门阵列 (FPGA) 的视觉变压器 (ViT) 加速前景广阔,但也充满挑战。现有基于 FPGA 的 ViT 加速器主要依赖于时态架构,该架构通过重用相同的硬件块来处理不同的算子,并承受大量的内存访问开销。流水线架构(无论是粗粒度还是细粒度)都会在空间上展开 ViT 计算,以提高内存访问效率。然而,它们通常受到严重的硬件资源限制和 ViT 的全局计算依赖性引起的管道泡沫的影响。在本文中,我们介绍了 HG-PIPE,这是一种用于高吞吐量和低延迟 ViT 处理的流水线 FPGA 加速器。 HG-PIPE采用混合粒度流水线架构来降低片上缓冲区成本,并将计算数据流和并行设计相结合以消除流水线气泡。 HG-PIPE 进一步引入了仔细的近似来实现具有丰富的查找表(LUT)的线性和非线性运算符,从而减轻了资源限制。在 ZCU102 FPGA 上,HG-PIPE 的吞吐量比现有技术加速器(例如 AutoViTAcc)高 2.78 倍,资源效率高 2.52 倍。 HG-PIPE采用VCK190 FPGA,在单设备上实现端到端ViT加速,达到7118张/秒,比V100 GPU快2.81倍。

使用 LLM 生成的上下文描述改进特定领域的 ASR

分类: 计算和语言, 人工智能

作者: Jiwon Suh, Injae Na, Woohwan Jung

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17874v1

摘要: 端到端自动语音识别 (E2E ASR) 系统通过对大量数据集进行训练,显着改进了语音识别。尽管取得了这些进步,他们仍然难以准确识别特定领域的单词,例如专有名词和技术术语。为了解决这个问题,我们提出了一种利用最先进的 Whisper 的方法,无需修改其架构,保留其泛化性能,同时使其能够有效地利用描述。此外,我们提出了两种额外的训练技术来改进特定领域的 ASR:解码器微调和上下文扰动。我们还提出了一种方法,当描述不可用时,使用大型语言模型(LLM)生成具有简单元数据的描述。我们的实验表明,所提出的方法显着提高了现实数据集上特定领域 ASR 的准确性,大语言模型生成的描述在有效性上优于人工制作的描述。

使用大型语言模型进行财务报表分析

分类: 统计金融, 人工智能, 计算和语言, 一般财务, 投资组合管理

作者: Alex Kim, Maximilian Muhn, Valeri Nikolaev

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17866v1

摘要: 我们调查大语言模型是否能够以类似于专业分析师的方式成功地进行财务报表分析。我们向 GPT4 提供标准化和匿名的财务报表,并指示模型对其进行分析以确定未来收益的方向。即使没有任何叙述性或特定行业的信息,大语言模型在预测收益变化的能力方面也优于金融分析师。当分析师陷入困境时,大语言模型比人类分析师表现出相对优势。此外,我们发现 LLM 的预测精度与经过严格训练的最先进 ML 模型的性能相当。 LLM 预测并非源于其训练记忆。相反,我们发现大语言模型可以对公司未来的业绩产生有用的叙述性见解。最后,我们基于 GPT 预测的交易策略比基于其他模型的策略产生更高的夏普比率和阿尔法。总而言之,我们的结果表明大语言模型可能在决策中发挥核心作用。

Mew:通过高效多重网络进行多重免疫荧光图像分析

分类: 计算机视觉和模式识别, 人工智能

作者: Sukwon Yun, Jie Peng, Alexandro E. Trevino, Chanyoung Park, Tianlong Chen

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17857v1

摘要: 基于图形的多重免疫荧光 (mIF) 图像方法的最新进展极大地推动了该领域的发展,为患者水平的表型分析提供了更深入的见解。然而,当前基于图的方法遇到两个主要挑战:(1)细胞异质性,现有方法无法充分解决图固有的归纳偏差,特别是在细胞连接中观察到的同质特征; (2)可扩展性,处理来自高维图像的细胞图在管理大量细胞方面面临困难。为了克服这些限制,我们引入了 Mew,这是一种新颖的框架,旨在通过多路复用网络的镜头有效处理 mIF 图像。 Mew 创新性地构建了一个包含两个不同层的多重网络:用于几何信息的 Voronoi 网络和用于捕获细胞均匀性的 Cell 型网络。该框架配备了可扩展且高效的图神经网络(GNN),能够在训练期间处理整个图。此外,Mew 集成了一个可解释的注意力模块,可以自动识别图像分类的相关层。对来自不同机构的真实患者数据集进行的广泛实验突显了 Mew 卓越的功效和效率,标志着 mIF 图像分析的重大进步。 Mew 的源代码可以在这里找到:\url{https://github.com/UNITES-Lab/Mew}

基于 Shapley 值的多模态信息提取对比对齐

分类: 人工智能, 计算和语言, 多媒体

作者: Wen Luo, Yu Xia, Shen Tianshu, Sujian Li

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17854v1

摘要: 社交媒体的兴起和多模式通信的指数级增长需要先进的多模式信息提取 (MIE) 技术。然而,现有的方法主要依赖于直接的图像-文本交互,由于图像和文本之间的语义和模态差距,这种范式经常面临重大挑战。在本文中,我们引入了一种新的图像-上下文-文本交互范例,其中利用大型多模态模型(LMM)来生成描述性文本上下文来弥合这些差距。根据这种范式,我们提出了一种新颖的基于 Shapley 值的对比对齐(Shap-CA)方法,该方法可以对齐上下文文本和上下文图像对。 Shap-CA 最初应用合作博弈论中的 Shapley 值概念来评估上下文、文本和图像集中每个元素对总体语义和模态重叠的贡献。在这种定量评估之后,采用对比学习策略来增强上下文文本/图像对内的交互贡献,同时最小化这些对之间的影响。此外,我们设计了一个用于选择性跨模态融合的自适应融合模块。在四个 MIE 数据集上进行的广泛实验表明,我们的方法明显优于现有的最先进方法。

用于帕金森病分类的基于语音的创新深度学习方法:系统评价

分类: 声音, 人工智能, 计算和语言, 机器学习, 音频和语音处理

作者: Lisanne van Gelderen, Cristian Tejedor-García

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17844v1

摘要: 帕金森病 (PD) 是全球第二大常见的神经退行性疾病,经常出现早期言语障碍。人工智能 (AI) 特别是深度学习 (DL) 的最新进展通过语音数据分析显着增强了 PD 诊断。然而,主要出于隐私和道德问题,研究进展受到可公开访问的基于语音的 PD 数据集有限的限制。本综述涵盖了用于基于语音的局部放电分类的最新的基于深度学习的人工智能方法,重点关注 2020 年至 2024 年 3 月期间发表的 33 篇科学著作的性能、可用​​资源和相关挑战。这些深度学习方法被分为端到端(E2E) )学习、迁移学习(TL)和深度声学特征(DAF)提取。在 E2E 方法中,尽管 Transformer 越来越受欢迎,但卷积神经网络 (CNN) 仍然很流行。 E2E 方法面临数据和计算资源有限等挑战,尤其是 Transformer。 TL 通过提供更强大的 PD 诊断和更好的跨语言通用性来解决这些问题。 DAF 提取旨在通过检查深度特征对其他 DL 方法和更传统的机器学习 (ML) 方法的具体影响来提高结果的可解释性和可解释性。然而,与 E2E 和 TL 方法相比,它的性能通常较差。这篇评论还讨论了与偏见、可解释性和隐私相关的未解决问题,强调了未来研究的必要性。

DragText:重新思考基于点的图像编辑中的文本嵌入

分类: 计算机视觉和模式识别, 人工智能

作者: Gayoon Choi, Taejin Jeong, Sujung Hong, Jaehoon Joo, Seong Jae Hwang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17843v1

摘要: 基于点的图像编辑可以通过内容拖动实现精确、灵活的控制。然而,文本嵌入在编辑过程中的作用尚未得到彻底研究。尚未探索的一个重要方面是文本和图像嵌入之间的交互。在本研究中,我们表明,在扩散模型中对输入图像进行渐进编辑期间,文本嵌入保持不变。随着图像嵌入越来越偏离其初始状态,图像和文本嵌入之间的差异提出了重大挑战。此外,我们发现文本提示显着影响拖动过程,特别是在保持内容完整性和实现所需操作方面。为了利用这些见解,我们提出了 DragText,它结合拖动过程来优化文本嵌入,以与修改后的图像嵌入配对。同时,我们规范了文本优化过程,以保持原始文本提示的完整性。我们的方法只需几行代码就可以与现有的基于扩散的拖动方法无缝集成。

通过基础模型(重新)探索大气科学的机会:案例研究

分类: 机器学习, 人工智能

作者: Lujia Zhang, Hanzhe Cui, Yurong Song, Chenyue Li, Binhang Yuan, Mengqian Lu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17842v1

摘要: 大气科学中大多数最先进的人工智能应用都基于经典的深度学习方法。然而,此类方法无法自动集成多个复杂的程序来构建智能代理,因为每个功能都是由从独立气候数据集中学习的单独模型启用的。基础模型,特别是多模式基础模型的出现,具有处理异构输入数据和执行复杂任务的能力,为克服这一挑战提供了巨大的机会。在本报告中,我们想要探讨一个中心问题——最先进的基础模型,即 GPT-4o,如何执行各种大气科学任务。为此,我们进行了案例研究,将任务分为四大类,包括气候数据处理、物理诊断、预报和预测、适应和缓解。对于每项任务,我们都会综合评估 GPT-4o 的性能并进行具体讨论。我们希望这份报告能够为未来人工智能在大气科学中的应用和研究提供新的思路。

网约车平台的长期公平性

分类: 人工智能, 机器学习

作者: Yufan Kang, Jeffrey Chan, Wei Shao, Flora D. Salim, Christopher Leckie

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17839v1

摘要: 网约车等双边市场的匹配最近受到了广泛关注。然而,现有的网约车研究主要集中在优化效率,而忽视了网约车的公平问题。网约车的公平问题,包括司机之间的巨大收入差异以及不同地点的乘客等待时间的差异,对经济和道德方面都有潜在影响。最近关注网约车公平性的研究利用传统优化方法和马尔可夫决策过程来平衡效率和公平性。然而,这些现有研究存在一些问题,例如传统优化的短视决策以及传统优化和基于马尔可夫决策过程的方法在相对较长的时期内公平性的不稳定。为了解决这些问题,我们提出了一个动态马尔可夫决策过程模型来缓解目前网约车面临的公平性问题,并寻求效率和公平之间的平衡,具有两个明显的特征:(i)预测模块来预测请求数量将来将从不同地点提出,以使所提出的方法能够基于整个时间线考虑长期公平性,而不是仅基于历史和当前数据模式考虑公平性; (ii) 多目标多智能体 Q Learning 的定制标量函数,旨在平衡效率和公平。对公开的真实世界数据集进行的广泛实验表明,我们提出的方法优于现有的最先进方法。

UMano:基于物理模型的混合 CNN-Transformer 框架,用于水下单目深度估计

分类: 计算机视觉和模式识别, 人工智能

作者: Jian Wang, Jing Wang, Shenghui Rong, Bo He

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17838v1

摘要: 水下单目深度估计是水下场景 3D 重建等任务的基础。然而,由于光和介质的影响,水下环境经历了独特的成像过程,这给从单幅图像准确估计深度带来了挑战。现有方法未能考虑水下环境的独特特征,导致估计结果不充分且泛化性能有限。此外,水下深度估计需要提取和融合局部和全局特征,现有方法尚未充分探索这一点。本文提出了一种名为 UMano 的水下单目深度估计端到端学习框架,它将水下图像形成模型特征融入网络架构中,有效利用水下图像的局部和全局特征。实验结果表明,该方法对于水下单目深度估计是有效的,并且在定量和定性分析方面均优于现有方法。

用于可解释的视觉语言对齐的统一词汇表示

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Yifan Li, Yikai Wang, Yanwei Fu, Dongyu Ru, Zheng Zhang, Tong He

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17827v1

摘要: 自从 CLIP 的开创性工作以来,视觉语言对齐 (VLA) 受到了广泛的关注。尽管 CLIP 表现良好,但典型的直接潜在特征对齐在其表示和相似性得分方面缺乏清晰度。另一方面,词汇表示(其元素表示样本与词汇表中单词之间的相似性的向量)是自然的稀疏表示并且可解释,为各个单词提供精确匹配。然而,由于没有真实的监督和错误发现问题,词汇表示很难学习,因此需要复杂的设计才能有效地训练。在本文中,我们介绍了 LexVLA,这是一种更具可解释性的 VLA 框架,通过学习两种模态的统一词汇表示而无需复杂的设计。我们使用 DINOv2 作为其局部倾向特征的视觉模型,并使用 Llama 2(一种生成语言模型)来利用其上下文词汇预测能力。为了避免错误发现,我们提出了过度使用惩罚,以防止词汇表示错误地频繁激活无意义的单词。我们证明,这两个预训练的单模态模型可以通过在适度的多模态数据集上进行微调来很好地对齐,并避免复杂的训练配置。在跨模态检索基准上,在 CC-12M 多模态数据集上训练的 LexVLA 优于在较大数据集(例如 YFCC15M)上微调的基线以及在更大数据集(例如 1.1B 数据,包括CC-12M)。我们进行了大量的实验来分析 LexVLA。

NC-NCD:用于节点分类的新颖类发现

分类: 机器学习, 人工智能

作者: Yue Hou, Xueyuan Chen, He Zhu, Romei Liu, Bowen Shi, Jiaheng Liu, Junran Wu, Ke Xu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17816v1

摘要: 新类别发现 (NCD) 涉及利用从先前建立的类别中获取的知识来识别未标记数据中的新类别。然而,现有的 NCD 方法常常难以保持新旧类别表现之间的平衡。以类增量的方式发现未标记的新类别更实用,但也更具挑战性,因为它经常受到旧类别的灾难性遗忘或无法学习新类别的阻碍。此外,在连续可扩展的图结构数据上实现 NCD 仍然是一个尚未探索的领域。为了应对这些挑战,我们首次引入了一种更实用的 NCD 节点分类场景(即 NC-NCD),并提出了一种具有原型重放和蒸馏功能的新型自训练框架(称为 SWORD),并应用于我们的 NC-NCD环境。我们的方法使模型能够在学习标记节点后对未标记的新类别节点进行聚类,同时保留旧类别的性能而不依赖于旧类别节点。 SWORD 通过采用自我训练策略来学习新类别并通过联合使用特征原型和知识蒸馏来防止忘记旧类别来实现这一目标。对四个常见基准的大量实验证明了 SWORD 相对于其他最先进方法的优越性。

增强模型性能:视觉语言指令调整的另一种方法

分类: 计算机视觉和模式识别, 人工智能

作者: Vedanshu, MM Tripathi, Bhavnesh Jaint

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17813v1

摘要: 大语言模型 (LLM) 与视觉语言 (VL) 任务的集成是人工智能领域的变革性发展,凸显了 LLM 作为多功能通用聊天机器人的潜力。然而,当前这一演变的趋势侧重于视觉和语言的整合,以创建可以在更加多样化和现实世界的环境中运行的模型。我们提出了一种称为“瓶颈适配器”的新颖方法,专门用于增强这些复杂模型的多模态功能,通过称为多模态模型调优(MMT)的过程实现整个多模态 LLM 框架的联合优化。我们的方法利用轻量级适配器来连接图像编码器和 LLM,而不需要大型、复杂的神经网络。与传统的模块化训练方案不同,我们的方法采用端到端优化机制,当与适配器结合使用时,可以使用更小的参数集进行联合优化。我们的方法表现出稳健的性能,准确度为 90.12%,优于人类水平的性能 (88.4%) 和 LaVIN-7B (89.41%)。

EEG-SSM:利用状态空间模型进行痴呆症检测

分类: 机器学习, 人工智能, 人机交互

作者: Xuan-The Tran, Linh Le, Quoc Toan Nguyen, Thomas Do, Chin-Teng Lin

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17801v1

摘要: 状态空间模型 (SSM) 因其有效处理长数据序列、减少将时间序列分割为较短间隔以进行模型训练和推理的需要而受到关注。传统上,SSM 仅捕获时间序列数据的时间动态,而忽略了同样重要的光谱特征。本研究介绍了 EEG-SSM,这是一种基于状态空间模型的新型方法,用于使用 EEG 数据进行痴呆症分类。我们的模型具有两项主要创新:EEG-SSM 时间分量和 EEG-SSM 频谱分量。时间组件旨在有效处理不同长度的脑电图序列,而频谱组件通过集成脑电图信号的频域信息来增强模型。这些组件的协同作用使 EEG-SSM 能够熟练地管理多元 EEG 数据的复杂性,显着提高不同时间分辨率下的准确性和稳定性。 EEG-SSM 在对健康控制 (HC)、额颞叶痴呆 (FTD) 和阿尔茨海默氏病 (AD) 组进行分类方面表现出高达 91.0% 的准确率,在相同数据集上的表现优于现有模型。 EEG-SSM 的发展代表了状态空间模型在痴呆症筛查中的应用的进步,为临床神经科学提供了更精确和更具成本效益的工具。

对单峰模型和视觉语言预训练模型的对抗性漏洞的统一理解

分类: 计算机视觉和模式识别, 人工智能

作者: Haonan Zheng, Xinyang Deng, Wen Jiang, Wenrui Li

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17797v1

摘要: 随着视觉语言预训练(VLP)模型展现出强大的多模态交互能力,神经网络的应用场景不再局限于单模态领域,而是扩展到更复杂的多模态V+L下游任务。单峰模型的安全漏洞已被广泛研究,而 VLP 模型的安全漏洞仍然具有挑战性。我们注意到,在 CV 模型中,对图像的理解来自注释信息,而 VLP 模型旨在直接从原始文本中学习图像表示。受这种差异的启发,我们开发了特征引导攻击(FGA),这是一种使用文本表示来指导干净图像的扰动的新颖方法,从而生成对抗性图像。 FGA与单模态领域的许多先进攻击策略正交,促进丰富的研究成果从单模态到多模态场景的直接应用。通过在FGA中适当引入文本攻击,我们构建了带有文本攻击的特征指导(FGA-T)。通过两种攻击方式的交互,FGA-T对VLP模型取得了优异的攻击效果。此外,结合数据增强和动量机制显着提高了 FGA-T 的黑盒可转移性。我们的方法展示了跨各种数据集、下游任务以及黑盒和白盒设置的稳定有效的攻击能力,为探索 VLP 模型的鲁棒性提供了统一的基线。

研究人工神经网络中与学习无关的抽象推理

分类: 人工智能, 计算机视觉和模式识别

作者: Tomer Barak, Yonatan Loewenstein

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17791v1

摘要: 人类有能力解决复杂的抽象推理测试。这种能力是否反映了一种适用于任何新的未学问题的独立于学习的推理机制,或者它是否是一生中广泛训练的表现,这是一个悬而未决的问题。在人类身上解决这个问题是具有挑战性的,因为不可能控制他们之前的训练。然而,假设人工神经网络 (ANN) 的认知处理与人类相似,则 ANN 抽象推理所需的训练程度可以为人类解决这个问题提供信息。先前的研究表明,人工神经网络可以解决抽象推理测试。然而,这一成功需要大量的培训。在这项研究中,我们研究了人工神经网络的学习无关的抽象推理。具体来说,我们在没有任何预训练的情况下评估了它们的性能,人工神经网络的权重是随机初始化的,并且仅在问题解决过程中发生变化。我们发现朴素的 ANN 模型可以解决重要的视觉推理测试,类似于用于评估人类学习独立推理的测试。我们进一步研究了支持这种能力的机制。我们的结果表明,不需要大量训练的、独立于学习的抽象推理是可能的。

AgentScope 中的超大规模多智能体模拟

分类: 多代理系统, 人工智能

作者: Xuchen Pan, Dawei Gao, Yuexiang Xie, Zhewei Wei, Yaliang Li, Bolin Ding, Ji-Rong Wen, Jingren Zhou

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17789v1

摘要: 大型语言模型(LLM)的最新进展为在超大规模模拟中应用多智能体系统开辟了新途径。然而,在现有平台上进行多智能体模拟时仍然存在一些挑战,例如可扩展性有限、效率低下、智能体多样性不令人满意以及管理流程费力等。为了应对这些挑战,我们为 AgentScope(一个用户友好的多智能体平台)开发了一些新功能和组件,增强了其支持超大规模多智能体模拟的便利性和灵活性。具体来说,我们提出了一种基于参与者的分布式机制作为底层技术基础设施,以实现巨大的可扩展性和高效率,并为模拟各种现实场景提供灵活的环境支持,从而实现多个代理的并行执行、集中式工作流编排以及两者之间的交互。 -智能体之间的智能体和智能体-环境交互。此外,我们在 AgentScope 中集成了易于使用的可配置工具和自动后台生成管道,简化了创建具有多样化且详细的后台设置的代理的过程。最后但并非最不重要的一点是,我们提供了一个基于 Web 的界面,可以方便地监视和管理可能跨多个设备部署的大量代理。我们进行了全面的模拟,以证明 AgentScope 中提出的增强功能的有效性,并提供详细的观察和讨论,以突出在大规模模拟中应用多智能体系统的巨大潜力。源代码发布在 GitHub 上:https://github.com/modelscope/agentscope,以激发大规模多智能体模拟的进一步研究和开发。

HC-GST:基于异构感知分布一致性的图自训练

分类: 社交和信息网络, 人工智能

作者: Fali Wang, Tianxiang Zhao, Junjie Xu, Suhang Wang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17787v1

摘要: 图自训练(GST)选择伪标签并将其分配给未标记的节点,在解决图中标签稀疏性方面很受欢迎。然而,最近对同质图的研究表明,GST 方法可以引入并放大训练节点和测试节点之间的分布变化,因为它们倾向于将伪标签分配给它们擅长的节点。由于 GNN 通常在同质节点上表现更好,因此可能会向同质伪节点转变,而这一点尚未得到充分探索。我们对异性图的初步实验验证了这些方法可以导致同质率分布的变化,从而导致 \textit{训练偏差} 提高同质节点的性能,同时降低异质节点的性能。因此,我们研究了在异亲图上自我训练期间减少同质比率分布变化的新问题。一个关键的挑战是在没有大量标记数据的情况下准确计算同质率及其分布。为了解决这些问题,我们提出了一种新颖的基于异质性感知分布一致性的图自训练(HC-GST)框架,该框架使用软标签估计同质性比率,并优化选择向量以将伪节点与全局同质性比率分布对齐。对同性图和异性图的大量实验表明,HC-GST 有效地减少了训练偏差并增强了自我训练性能。

视觉变压器可以轻到什么程度

分类: 计算机视觉和模式识别, 人工智能

作者: Jen Hong Tan

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17783v1

摘要: 在本文中,我们探索了一种使用专家混合(MoE)来简化而不是增强视觉转换器的策略。 MoE 层中的每个专家都是一个 SwiGLU 前馈网络,其中 V 和 W2 在整个层中共享。没有采用复杂的注意力或卷积机制。采用深度缩放来逐步减小隐藏层的大小,并逐步增加专家的数量。使用分组查询注意力。我们研究了所提出的在小数据集上进行和不进行预训练的方法,并研究了迁移学习在这种规模上是否有效。我们发现,即使参数大小为 0.67M,该架构也具有竞争力。

通过可扩展的模态对齐推进多模态传感

分类: 信号处理, 人工智能

作者: Shenghong Dai, Shiqi Jiang, Yifan Yang, Ting Cao, Mo Li, Suman Banerjee, Lili Qiu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17777v1

摘要: 传感技术广泛用于理解物理世界,在过去几十年中探索了多种模式。尽管在多模态学习方面已经做了相当多的工作,但它们都需要将所有模态的数据配对。如何利用部分配对的多模态数据仍然是一个悬而未决的问题。为了应对这一挑战,我们引入了 Babel 框架,包括神经网络架构、数据准备和处理以及训练策略。 Babel 是一个可扩展的预训练多模态传感神经网络,目前调整了六种传感模态,即 Wi-Fi、毫米波、IMU、LiDAR、视频和深度。为了克服完整配对数据的稀缺性,Babel 的关键思想是通过设计可扩展的网络架构,将 N 模态对齐转换为一系列双模态对齐。这一概念也是通过一系列新技术实现的,包括利用可用单模态网络的预训练模态塔,以及平衡新合并模态与先前建立的模态对齐的贡献的自适应训练策略。评估表明,与顶级多模态感知框架、单模态感知网络和多模态大语言模型等各种基线相比,Babel 在八个人类活动识别数据集上具有出色的性能。 Babel 不仅有效地融合了多种可用模态(准确率提高了 22%),而且还增强了单个模态的性能(平均准确率提高了 12%)。案例研究还强调了 Babel 所支持的令人兴奋的应用场景,包括跨模态检索(即传感成像)和桥接大语言模型以实现传感理解。

KiVA:用于测试大型多模态模型的受儿童启发的视觉类比

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17773v1

摘要: 本文研究了大型多模态模型 (LMM) 中的视觉类比推理与成人和儿童的比较。 “视觉类比”是从一幅图像推断出来并应用于另一幅图像的抽象规则。虽然存在用于测试 LMM 视觉推理的基准,但它们需要高级技能,并且忽略了即使是幼儿也能进行的基本视觉类比。受发展心理学的启发,我们提出了一个包含 1,400 个日常物体视觉变换的新基准,以测试 LMM 的视觉类比推理能力,并将其与儿童和成人进行比较。我们将评估分为三个阶段:识别发生了什么变化(例如颜色、数字等)、变化方式(例如添加一个对象)以及将规则应用于新场景。我们的研究结果表明,虽然 GPT-4V、LLaVA-1.5 和 MANTIS 等模型可以有效地识别“什么”,但它们很难量化“如何”并将此规则外推到新对象。相比之下,儿童和成人在所有三个阶段都表现出更强的类比推理能力。此外,经过测试的最强模型 GPT-4V 在涉及颜色和大小等简单视觉属性的任务中表现更好,这与更快的成人响应时间相关。相反,数字、旋转和反射等更复杂的任务需要对 3D 物理世界进行广泛的认知处理和理解,从而带来更重大的挑战。总而言之,这些发现凸显了主要由 2D 图像和文本组成的数据训练模型的局限性。

Mpox 检测高级版:通过综合数据快速应对流行病

分类: 计算机视觉和模式识别, 人工智能

作者: Yudara Kularathne, Prathapa Janitha, Sithira Ambepitiya, Prarththanan Sothyrajah, Thanveer Ahamed, Dinuka Wijesundara

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17762v1

摘要: 使用计算机视觉快速开发疾病检测模型对于应对流行病或生物恐怖主义事件等医疗紧急情况至关重要。在这些场景中,传统的数据收集方法通常太慢,需要创新方法从最少的数据快速、可靠地生成模型。我们的研究引入了一种新方法,通过构建全面的计算机视觉模型来仅使用合成数据来检测 Mpox 病变。最初,这些模型生成了一组多样化的合成图像,代表菲茨帕特里克等级(白皙、棕色、深色皮肤)定义的不同肤色的不同身体部位(面部、背部、胸部、腿部、颈部、手臂)的 Mpox 病变。随后,我们使用该合成数据集训练和测试了视觉模型,以评估扩散模型在生成高质量训练数据方面的功效及其对视觉模型的医学图像识别性能的影响。结果是有希望的;该视觉模型的准确率达到了 97%,Mpox 病例的精确度和召回率达到了 96%,正常和其他皮肤病病例的指标也达到了 96%,这表明其能够正确识别真阳性并最大限度地减少假阳性。该模型对于痘痘病例的 F1 得分为 96%,对于正常和其他皮肤疾病的 F1 得分为 98%,反映了平衡的精确率与召回率关系,从而确保了其预测的可靠性和鲁棒性。我们提出的 SynthVision 方法表明,有可能以最少的数据输入来开发准确的计算机视觉模型,以应对未来的医疗紧急情况。

TwIPS:大型语言模型驱动的短信应用程序,可简化自闭症用户对话的细微差别

分类: 人机交互, 人工智能

作者: Rukhshan Haroon, Fahad Dogar

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17760v1

摘要: 自闭症患者在传达和解释情绪基调和非字面细微差别方面经常遇到困难。许多人还隐藏自己的沟通方式,以避免被他人误解,并在此过程中花费大量时间和精力。为了解决基于文本的通信中的这些挑战,我们推出了 TwIPS,这是一种由大型语言模型 (LLM) 提供支持的原型短信应用程序,它可以帮助用户:a) 破译传入消息的语气和含义,b) 确保情绪基调他们的信息符合他们的意图,并且 c) 为可能被他人误解和负面接收的信息提出替代措辞。我们利用基于 AI 的模拟和对话脚本,在实验室环境中与 8 位自闭症参与者一起评估 TwIPS。我们的研究结果表明,TwIPS 为参与者提供了一种寻求澄清的便捷方式,提供了语气指标的更好替代方案,并促进了对写作技巧和风格的建设性反思。我们还研究了自闭症用户如何在即时消息传递中利用语言进行自我表达和解释,并收集反馈以增强我们的原型。最后,我们讨论了如何平衡用户自主权与人工智能中介、在人工智能系统中建立适当的信任级别,以及在人工智能辅助沟通的背景下自闭症用户的定制需求

具有成本效益的病理学视觉和语言分析教学学习

分类: 人工智能, 计算和语言, 计算机视觉和模式识别

作者: Kaitao Chen, Mianxin Liu, Fang Yan, Lei Ma, Xiaoming Shi, Lilong Wang, Xiaosong Wang, Lifeng Zhu, Zhe Wang, Mu Zhou, Shaoting Zhang

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17734v1

摘要: 视觉语言模型的出现促进了人工智能模型与人类之间的互动对话。然而,将这些模型应用于临床必须应对大规模训练数据、财务和计算资源方面的严峻挑战。在这里,我们提出了一种经济有效的对话病理学教学学习框架,名为 CLOVER。 CLOVER只训练轻量级模块,并使用指令调优,同时冻结大语言模型的参数。我们不使用昂贵的 GPT-4,而是在 GPT-3.5 上提出精心设计的提示,用于构建基于生成的指令,强调从互联网来源获得的病理知识的实用性。为了增强指令的使用,我们在数字病理学的背景下构建了一组高质量的基于模板的指令。根据两个基准数据集,我们的研究结果揭示了病理学视觉问答中混合形式指令的强度。广泛的结果显示了 CLOVER 在回答开放式和封闭式问题方面的成本效益,其中 CLOVER 的性能优于强大的基线,后者拥有 37 倍多的训练参数并使用 GPT-4 生成的指令数据。通过指令调整,CLOVER 在外部临床数据集中展现了小样本学习的鲁棒性。这些发现表明,经济高效的 CLOVER 建模可以加速快速对话应用程序在数字病理学领域的采用。

通过世界动力学建模增强代理学习

分类: 人工智能, 计算和语言

作者: Zhiyuan Sun, Haochen Shi, Marc-Alexandre Côté, Glen Berseth, Xingdi Yuan, Bang Liu

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17695v1

摘要: 虽然大型语言模型(LLM)越来越多地部署在语言理解和交互式决策等任务中,但它们令人印象深刻的性能很大程度上归功于它们嵌入的全面和深入的领域知识。然而,这些知识的范围在不同领域可能有所不同。现有的方法通常假设大语言模型已经对其环境拥有如此全面和深入的了解,而忽视了他们对现实世界动态的理解中的潜在差距。为了弥补这一差距,我们引入了发现、验证和进化(DiVE),这是一个框架,可以从少量的演示中发现世界动态,验证这些动态的正确性,并根据当前情况发展新的、先进的动态。通过广泛的评估,我们分析了每个组件对性能的影响,并将 DiVE 自动生成的动态与人工注释的世界动态进行比较。我们的结果表明,在 DiVE 指导下的大语言模型可以做出更好的决策,在 Crafter 环境中获得与人类玩家相当的奖励。

检查政治偏见对立场分类中大型语言模型性能的影响

分类: 计算和语言, 人工智能

作者: Lynnette Hui Xian Ng, Iain Cruickshank, Roy Ka-Wei Lee

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17688v1

摘要: 大型语言模型 (LLM) 在执行基于自然语言查询的任务方面表现出了卓越的能力。然而,这些在精选数据集上训练的模型本质上体现了从种族到国家和性别的偏见。目前尚不确定这些偏见是否会影响大语言模型在某些任务上的表现。在这项研究中,我们调查了大语言模型在立场分类任务中的政治偏见,特别检查这些模型是否表现出更准确地对政治立场进行分类的趋势。利用三个数据集、七个大语言模型和四个不同的激励方案,我们分析了大语言模型在政治导向的声明和目标上的表现。我们的研究结果表明,大语言模型在各种政治立场分类任务中的表现存在统计上的显着差异。此外,我们观察到这种差异主要体现在数据集级别,模型和提示方案在不同立场分类数据集上显示出统计上相似的性能。最后,我们观察到,当陈述所针对的目标更加模糊时,大语言模型的立场分类准确性较差。

用理论保证的真实拥挤距离克服NSGA-II的困难

分类: 神经和进化计算, 人工智能

作者: Weijie Zheng, Benjamin Doerr

发布时间: 2024-07-25

链接: http://arxiv.org/abs/2407.17687v1

摘要: NSGA-II 被证明在处理两个以上的目标时会遇到困难,推论的原因是独立考虑不同目标计算的拥挤距离。 NSGA-III和SMS-EMOA的最新理论效率也支持了推论,因为这两种算法都考虑了非支配排序后第二个准则中目标的依赖性,但结构复杂或计算困难。然而,仍然存在一个问题,即对原始拥挤距离进行简单修改是否有帮助。本文提出了这样一种变体,称为真实拥挤距离。该变体继承了对每个目标的分量求和的简单结构。对于每个目标,它首先按目标值降序对解集进行排序,并使用当前解与排序列表中较早位置的解之间的最小归一化 L1 距离作为分量。将所有组成部分相加即可得出真实拥挤距离的值。我们将这种 NSGA-II 变体称为 NSGA-II-T,它用真实的拥挤距离替换原始的拥挤距离,并在每次移除后顺序更新拥挤距离值。我们证明,与原始 NSGA-II 的指数运行时间相比,NSGA-II-T 可以有效地覆盖多目标 mOneMinMax 和 mOJZJ 的完整 Pareto 前沿。此外,我们还证明,理论上它比具有顺序生存选择的原始 NSGA-II 能够更好地逼近 OneMinMax 的 Pareto 前沿。此外,它是第一个结构简单的 NSGA-II 变体,在理论保证的情况下在许多目标上表现良好。

CRASAR-U-DROIDs:用于在地理校正 sUAS 图像中进行建筑物对准和损坏评估的大型基准数据集

分类: 计算机视觉和模式识别, 人工智能, 机器人技术

作者: Thomas Manzini, Priyankari Perali, Raisa Karnik, Robin Murphy

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17673v1

摘要: 本文件介绍了机器人辅助搜索和救援中心 - 无人航空系统 - 灾难响应高架检查数据集 (CRASAR-U-DROID),用于从小型无人航空系统 (sUAS) 地理空间图像收集的建筑损坏评估和空间对齐。该数据集的动机是在灾难响应中越来越多地使用小型无人机,以及之前缺乏利用高分辨率地理空间小型无人机图像进行机器学习和计算机视觉模型的工作,缺乏与操作用例的一致性,并希望能够进一步实现sUAS 和卫星图像之间的研究。 CRASAR-U-DRIODs 数据集包含来自十 (10) 场联邦宣布的灾难(飓风伊恩、飓风艾达、飓风哈维、飓风伊达利亚、飓风劳拉、飓风迈克尔、Musset Bayou 火灾、梅菲尔德龙卷风、基拉韦厄火山喷发和尚普兰塔倒塌)占地 67.98 平方公里(26.245 平方英里),包含 21,716 个建筑物多边形和损坏标签以及 7,880 个调整注释。图像被平铺并与叠加的建筑物多边形一起呈现给由 130 名注释者组成的池,他们根据关节损伤量表提供人类对损伤的判断。然后通过两阶段审查过程对这些注释进行审查,其中首先单独审查建筑物多边形损坏标签,然后由委员会再次审查。此外,建筑物多边形已在空间上对齐,以与图像精确重叠,从而能够训练性能更高的机器学习模型。 CRASAR-U-DRIODs 似乎是最大的 sUAS 正射影像标记数据集。

垂直联合学习中的尖峰神经网络:性能权衡

分类: 机器学习, 人工智能

作者: Maryam Abbasihafshejani, Anindya Maiti, Murtuza Jadliwala

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17672v1

摘要: 联合机器学习支持跨多个客户端进行模型训练,同时维护数据隐私。垂直联合学习(VFL)专门处理客户端具有相同样本的不同特征集的情况。由于联邦学习模型旨在提高效率和适应性,因此正在利用尖峰神经网络 (SNN) 等创新神经网络架构来实现边缘的快速、准确处理。 SNN 因其相对于人工神经网络 (ANN) 的效率而闻名,但迄今为止尚未对其在 VFL 中的适用性进行分析。在本文中,我们研究了在垂直联合学习环境中使用 SNN 模型的好处和权衡。我们实现了两种不同的联邦学习架构——有模型分割和没有模型分割——它们具有不同的隐私和性能影响。我们使用 CIFAR-10 和 CIFAR-100 基准数据集以及 VGG9 和 ResNET 分类模型的 SNN 实现来评估设置。比较评估表明,SNN 模型的准确性与 VFL 应用中的传统 ANN 相当,尽管其能源效率明显更高。

SMA-Hyper:用于交通事故预测的时空多视图融合超图学习

分类: 机器学习, 人工智能

作者: Xiaowei Gao, James Haworth, Ilya Ilyankou, Xianghui Zhang, Tao Cheng, Stephen Law, Huanfa Chen

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17642v1

摘要: 交通事故预测是城市可持续管理的关键,需要有效应对城市动态、复杂的时空特征。当前的数据驱动模型经常与数据稀疏性作斗争,并且通常忽视不同城市数据源的集成及其内部的高阶依赖关系。此外,它们经常依赖于预定义的拓扑或权重,限制了它们在时空预测中的适应性。为了解决这些问题,我们引入了时空多视图自适应超图学习(SMA-Hyper)模型,这是一种专为交通事故预测而设计的动态深度学习框架。在先前研究的基础上,这种创新模型结合了双重自适应时空图学习机制,通过超图和动态适应不断变化的城市数据来实现高阶跨区域学习。它还利用对比学习来增强稀疏数据集中的全局和局部数据表示,并采用预先注意机制来融合事故数据和城市功能特征的多个视图,从而丰富对风险因素的上下文理解。对伦敦交通事故数据集的广泛测试表明,SMA-Hyper 模型在各种时间范围和多步输出上显着优于基线模型,证实了其多视图融合和自适应学习策略的有效性。结果的可解释性进一步凸显了其通过利用复杂的时空城市数据来改善城市交通管理和安全的潜力,提供了适应不同城市环境的可扩展框架。

CoMoTo:不成对的跨模态病变蒸馏改善了断层合成中的乳腺病变检测

分类: 计算机视觉和模式识别, 人工智能

作者: Muhammad Alberb, Marawan Elbatel, Aya Elgebaly, Ricardo Montoya-del-Angel, Xiaomeng Li, Robert Martí

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17620v1

摘要: 数字乳腺断层合成 (DBT) 是一种先进的乳腺成像方式,与传统乳腺 X 线摄影相比,可提供卓越的病变检测精度,但代价是读取时间较长。使用深度学习加速 DBT 病变检测受到有限的数据可用性和巨大的注释成本的阻碍。该问题的一个可能解决方案是利用更广泛使用的方式(例如乳房 X 线摄影)提供的信息来增强 DBT 病变检测。在本文中,我们提出了一种新颖的框架 CoMoTo,用于改进 DBT 中的病变检测。我们的框架利用不配对的乳房 X 光检查数据来增强 DBT 模型的训练,通过消除推理过程中对乳房 X 光检查的需要来提高实用性。具体来说,我们提出了两个新颖的组件:特定于病变的知识蒸馏(LsKD)和模内点对齐(ImPA)。 LsKD 有选择地将病变特征从乳房 X 光检查教师模型提取到 DBT 学生模型,而忽略背景特征。 ImPA 通过确保在向学生提炼知识之前教师内部的病变特征保持一致,进一步丰富了 LsKD。我们的综合评估表明,CoMoTo 优于传统的预训练和图像级 KD,在低数据设置下将性能提高了 7% 的平均灵敏度。我们的代码可在 https://github.com/Muhammad-Al-Barbary/CoMoTo 获取。

质量保证:重新思考成像 AI 中的注释策略

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Tim Rädsch, Annika Reinke, Vivienn Weru, Minu D. Tizabi, Nicholas Heller, Fabian Isensee, Annette Kopp-Schneider, Lena Maier-Hein

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17596v1

摘要: 本文并未描述新方法。相反,它研究了基于人工智能的图像分析的可靠基准测试和最终实际应用的重要基础:生成高质量的参考注释。先前的研究主要集中在众包作为外包注释的一种手段。然而,迄今为止,注释公司很少受到关注,特别是其内部质量保证 (QA) 流程。因此,我们的目标是评估注释公司采用的质量保证对注释质量的影响,并设计最大化数据注释效率的方法。基于来自四家标注公司和 Amazon Mechanical Turk (MTurk) 的 924 名标注者和 34 名 QA 人员获得的总共 57,648 张实例分割图像,我们得出以下见解: (1) 标注公司在数量方面表现更好与广泛使用的平台 MTurk 相比的质量和质量。 (2) 注释公司的内部质量保证仅提供边际改进(如果有的话)。然而,改进标签指令而不是投资质量检查可以大大提高注释性能。 (3) 内部 QA 的好处取决于具体的图像特征。我们的工作可以使研究人员从固定注释预算中获得更多价值,并改变注释公司进行内部质量保证的方式。

CityX:无界 3D 城市的可控程序内容生成

分类: 计算机视觉和模式识别, 人工智能

作者: Shougao Zhang, Mengqi Zhou, Yuxi Wang, Chuanchen Luo, Rongyu Wang, Yiwei Li, Xucheng Yin, Zhaoxiang Zhang, Junran Peng

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17572v1

摘要: 由于涉及大量的 3D 资源、多样的城市风格以及严格的布局限制,生成逼真的大型 3D 虚拟城市仍然是一个复杂的挑战。现有方法在程序内容生成方面提供了有希望的尝试,以使用 Blender 代理创建大规模场景。然而,他们面临着关键问题,例如难以扩大生成能力和在语义布局级别实现细粒度控制。为了解决这些问题,我们提出了一种新颖的多模式可控程序内容生成方法,名为 CityX,该方法在多种布局条件(包括 OSM、语义地图和卫星图像)的指导下增强现实、无界的 3D 城市生成。具体来说,所提出的方法包含用于集成各种 PCG 插件的通用协议和用于将指令转换为可执行 Blender 动作的多代理框架。通过这个有效的框架,CityX 展示了通过弥合生成资产的质量与行业要求之间的差距来构建 3D 场景生成创新生态系统的潜力。大量的实验证明了我们的方法在多模态条件引导下创建高质量、多样化、无界城市的有效性。我们的项目页面:https://cityx-lab.github.io。

基于路由器机制的域鲁棒轻量级奖励模型探索

分类: 机器学习, 人工智能, 计算和语言

作者: Hyuk Namgoong, Jeesu Jung, Sangkeun Jung, Yoonhyung Roh

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17546v1

摘要: 大型语言模型的最新进展在很大程度上依赖于来自人类反馈的强化学习的大型奖励模型以进行微调。然而,跨不同领域使用单一奖励模型可能并不总是最佳的,在引入新领域数据时通常需要从头开始重新训练。为了应对这些挑战,我们探索利用基于路由器机制以特定领域方式运行的小语言模型。我们的三种方法是:1)通过模块化内部路由器和专家,利用专家混合形成单一奖励模型,2)使用外部路由器从多个特定领域模型中选择适当的奖励模型,3)框架减少参数通过使用适配器将奖励模型和路由器适配器加载到单个小语言模型上来调整大小。实验验证强调了我们方法的有效性,证明了与基线方法相当的性能,同时还减少了总参数大小。

流畅的师生红队

分类: 计算和语言, 人工智能

作者: T. Ben Thompson, Michael Sklar

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17447v1

摘要: 许多公开可用的语言模型都经过安全调整,以减少有毒或引发责任的文本的可能性。用户或安全分析师试图通过对抗性提示来越狱或重新组合这些模型,从而导致遵守请求。一种攻击方法是将离散优化技术应用于提示。然而,由此产生的攻击字符串通常是乱码文本,由于测量的高度复杂性而很容易被防御者过滤,并且可能会因看不见的任务和/或经过良好调整的模型而失败。在这项工作中,我们改进了现有算法(主要是 GCG 和 BEAST),以开发针对 Llama-2 和 Phi-3 等安全调整模型的强大且流畅的攻击。我们的技术以一种新的基于蒸馏的方法为中心,该方法鼓励受害者模型在输出概率或内部激活方面模拟有毒的微调。为了鼓励人类流畅的攻击,我们为目标添加了多模型困惑度惩罚和重复惩罚。我们还通过允许令牌插入、令牌交换和令牌删除以及使用更长的攻击序列来增强优化器的强度。由此产生的过程能够可靠地越狱最困难的目标模型,其提示看起来与人类编写的提示类似。在 Advbench 上,我们对 Llama-2-7B、Llama-3-8B 和 Vicuna-7B 的攻击成功率达到 $>93$%,同时保持模型测量的困惑度 $<33$;我们对 Phi-3 的攻击成功率达到了 95%,尽管复杂度更高。我们还发现了一种普遍优化的单一流畅提示,可以使 Llama-2-7B、Phi-3-mini 和 Vicuna-7B 上以前未见过的任务的合规性达到 88$% 以上,并转移到其他黑盒模型。

用于计算工作流程中异常检测的大型语言模型:从监督微调到上下文学习

分类: 软件工程, 人工智能, 计算和语言

作者: Hongwei Jin, George Papadimitriou, Krishnan Raghavan, Pawel Zuk, Prasanna Balaprakash, Cong Wang, Anirban Mandal, Ewa Deelman

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17545v1

摘要: 计算工作流程中的异常检测对于确保系统可靠性和安全性至关重要。然而,传统的基于规则的方法很难检测新的异常情况。本文利用大型语言模型 (LLM) 学习复杂数据模式的能力来进行工作流异常检测。研究了两种方法:1)监督微调(SFT),其中预训练的大语言模型对句子分类的标记数据进行微调,以识别异常;2)上下文学习(ICL),其中提示包含任务描述和示例指导大语言模型进行少量异常检测,无需进行微调。本文评估了 SFT 模型的性能、效率和泛化能力,并探索了零样本和少样本 ICL 提示以及通过思想链提示增强可解释性。跨多个工作流数据集的实验证明了大语言模型在复杂执行中有效异常检测的巨大潜力。

MathViz-E:领域专用工具使用代理的案例研究

分类: 软件工程, 人工智能

作者: Arya Bulusu, Brandon Man, Ashish Jagmohan, Aditya Vempaty, Jennifer Mari-Wyka, Deepak Akkil

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17544v1

摘要: 最近人们对利用大语言模型通过多步骤推理、规划和工具使用来控制软件系统产生了浓厚的兴趣。虽然已经取得了一些有希望的结果,但在特定领域的应用提出了一些普遍问题,包括专业领域工具的控制、缺乏用于培训和评估的现有数据集以及自动化系统评估和改进的非平凡性。在本文中,我们提出了一个案例研究,在特定领域的背景下研究这些问题。具体来说,我们提出了一个用于数学教学的自动化数学可视化器和求解器系统。该系统协调数学求解器和数学绘图工具,通过简单的自然语言命令生成准确的可视化结果。我们描述了专门数据集的创建,并开发了一个自动评估器,通过将系统的输出与真实表达式进行比较来轻松评估我们系统的输出。我们已经开源了拟议系统的数据集和代码。

数据集分布影响模型公平性:单任务学习与多任务学习

分类: 机器学习, 人工智能, 计算机与社会

作者: Ralf Raumanns, Gerard Schouten, Josien P. W. Pluim, Veronika Cheplygina

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17543v1

摘要: 数据集中的偏差对模型预测公平性的影响是各个领域正在进行的研究主题。我们使用基于 ResNet 的 CNN 评估皮肤病变分类的性能,重点关注训练数据中的患者性别差异和三种不同的学习策略。我们提出了一种线性编程方法,用于生成具有不同患者性别和类别标签的数据集,并考虑到这些变量之间的相关性。我们使用三种不同的学习策略评估模型性能:单任务模型、强化多任务模型和对抗性学习方案。我们的观察包括:1)特定性别的训练数据产生更好的结果,2)单任务模型表现出性别偏见,3)强化方法不能消除性别偏见,4)对抗模型消除了仅涉及女性患者的情况下的性别偏见,5) 包含男性患者的数据集增强了男性亚组的模型性能,即使女性患者占多数。为了概括这些发现,在未来的研究中,我们将检查更多的人口统计属性,例如年龄,以及其他可能的混杂因素,例如肤色和皮损中的伪影。我们在 GitHub 上提供所有数据和模型。

我本来可以问这个:重新提出无法回答的问题

分类: 计算和语言, 人工智能

作者: Wenting Zhao, Ge Gao, Claire Cardie, Alexander M. Rush

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17469v1

摘要: 当从不熟悉的文档中查找信息时,用户经常提出文档无法回答的问题。虽然现有的大型语言模型(LLM)可以识别这些无法回答的问题,但它们不会帮助用户重新表述他们的问题,从而降低了其整体效用。我们策划了 CouldAsk,这是一个评估基准,由用于基于文档的问答的现有和新数据集组成,专门用于研究重新制定无法回答的问题。我们在 CouldAsk 上评估最先进的开源和专有大语言模型。结果表明这些模型在重新制定问题方面的能力有限。具体来说,GPT-4 和 Llama2-7B 成功重新表述问题的成功率分别只有 26% 和 12%。错误分析显示,62% 的不成功的重新表述源于模型仅仅重新表述问题,甚至生成相同的问题。我们公开发布了基准测试和重现实验的代码。

WildHallucinations:通过现实世界的实体查询评估大语言模型中的长篇事实性

分类: 计算和语言, 人工智能

作者: Wenting Zhao, Tanya Goyal, Yu Ying Chiu, Liwei Jiang, Benjamin Newman, Abhilasha Ravichander, Khyathi Chandu, Ronan Le Bras, Claire Cardie, Yuntian Deng, Yejin Choi

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17468v1

摘要: 虽然大语言模型 (LLM) 的幻觉普遍存在,这是一个重大挑战,但现有的事实性评估基准并未涵盖 LLM 现实世界用户寻求信息的不同知识领域。为了弥补这一差距,我们引入了 WildHallucinations,这是一个评估事实性的基准。它通过提示大语言模型生成有关从用户聊天机器人对话中挖掘的实体的信息来实现这一点。然后,根据从网络搜索收集的系统整理的知识源,自动对这些代进行事实检查。值得注意的是,这些现实世界实体中有一半没有关联的维基百科页面。我们评估了 15 个大语言模型在 7,919 个实体上的 118,785 代。我们发现大语言模型始终对没有维基百科页面的实体产生更多幻觉,并且在不同领域表现出不同的幻觉率。最后,在相同的基础模型下,添加检索组件只能稍微减少幻觉,但不能消除幻觉。

SoNIC:具有自适应共形推理和约束强化学习的安全社交导航

分类: 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习, 系统与控制, 系统与控制

作者: Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17460v1

摘要: 强化学习(RL)使社交机器人能够在没有人类设计的规则或干预的情况下生成轨迹,这使得它比硬编码系统更有效地推广到复杂的现实世界场景。然而,社交导航是一项安全关键任务,需要机器人避免与行人发生碰撞,而之前基于强化学习的解决方案在复杂环境中的安全性能不足。为了增强强化学习策略的安全性,据我们所知,我们提出了第一个算法 SoNIC,它将自适应保形推理 (ACI) 与约束强化学习 (CRL) 相结合,以学习社交导航的安全策略。更具体地说,我们的方法通过 ACI 生成的不合格分数增强 RL 观察,并为代理提供明确的指导,以利用不确定性指标,通过将安全约束与空间松弛相结合来避开安全关键区域。我们的方法在安全性和遵守社会规范方面都大大优于最先进的基线,并且对分布外场景表现出更强的鲁棒性。我们的代码和视频演示可在我们的项目网站上找到:https://sonic-social-nav.github.io/。

为什么机器不能道德:图灵的停机问题和人工智能的道德限制

分类: 计算机与社会, 人工智能

作者: Massimo Passamonti

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16890v1

摘要: 在本文中,我认为,明确的道德机器(其道德原则是通过自下而上的方法推断出来的)无法复制类人的道德推理,因此不能被视为道德主体。通过利用艾伦图灵的计算理论,我证明了由于停机问题,这些机器在计算上难以处理道德推理。我通过将道德问题形式化为“算法道德问题”并探索道德心理学的双过程模型来解决机器伦理的前沿问题。虽然图灵机的性质理论上允许人工智能体进行递归道德推理,但停机问题带来了关键的限制,该问题表明不可能确定地预测计算过程是否会停止。一项涉及军用无人机的思想实验说明了这个问题,表明人工智能体可能由于停机问题而无法在行动之间做出决定,这限制了该智能体在所有情况下做出决策的能力,从而损害了其道德机构。

科学发现的自动解释选择

分类: 人工智能

作者: Markus Iser

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17454v1

摘要: 自动推理是新兴但快速发展的可解释人工智能(XAI)领域的一项关键技术。可解释性有助于建立对人工智能系统的信任,而不仅仅是预测的准确性和稳健性。在本文中,我们提出了一个科学发现周期,将机器学习与自动推理相结合,以生成和选择解释。我们提出了一种解释选择问题的分类法,它借鉴了社会学和认知科学的见解。这些选择标准包含了现有的概念,并用新的属性对其进行了扩展。

HumanVid:揭秘相机控制的人体图像动画的训练数据

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17438v1

摘要: 人体图像动画涉及从角色照片生成视频,允许用户控制和释放视频和电影制作的潜力。虽然最近的方法使用高质量的训练数据产生了令人印象深刻的结果,但这些数据集的不可访问性阻碍了公平和透明的基准测试。此外,这些方法优先考虑 2D 人体运动,而忽视了视频中摄像机运动的重要性,导致控制有限和视频生成不稳定。为了揭开训练数据的神秘面纱,我们推出了 HumanVid,这是第一个针对人体图像量身定制的大规模高质量数据集动画,结合了精心制作的现实世界和合成数据。对于真实世界的数据,我们从互联网上收集了大量无版权的真实世界视频。通过精心设计的基于规则的过滤策略,我们确保包含高质量视频,从而收集了 2 万个 1080P 分辨率的以人为中心的视频。人体和相机运动注释是使用 2D 位姿估计器和基于 SLAM 的方法完成的。对于合成数据,我们收集了 2,300 个无版权的 3D 头像资产,以扩充现有的可用 3D 资产。值得注意的是,我们引入了一种基于规则的相机轨迹生成方法,使合成管道能够纳入多样化且精确的相机运动注释,这在现实世界的数据中很少见。为了验证 HumanVid 的有效性,我们建立了一个名为 CamAnimate 的基线模型,CamAnimate 是相机可控人体动画的缩写,它将人类和相机运动都视为条件。通过广泛的实验,我们证明了在 HumanVid 上进行的这种简单的基线训练在控制人体姿势和相机运动方面实现了最先进的性能,树立了新的基准。代码和数据将在 \url{https://github.com/zhenzhiwang/HumanVid/} 上公开提供。

$A^*$ 用于凸集图

分类: 优化与控制, 人工智能, 机器人技术

作者: Kaarthik Sundar, Sivakumar Rathinam

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17413v2

摘要: 我们提出了一种新颖的算法,它将现有的基于凸规划的方法与启发式信息相融合,以找到凸集图中最短路径问题(SPP-GCS)的最优性保证和接近最优路径。我们的方法受到 $A^$ 的启发,从指定的顶点子集启动一个最佳优先的过程,并迭代地扩展它,直到进一步的增长既不可能又无益。传统上,获得优化问题的边界解涉及求解松弛、将松弛解修改为可行解,然后比较两个解以建立边界。然而,对于 SPP-GCS,我们证明逆转这一过程可能更有利,特别是考虑到欧几里得旅行成本。换句话说,我们首先使用$A^$找到SPP-GCS的可行解,然后求解限制于$A^*$探索的顶点的凸松弛以获得松弛解,最后比较解得出界限。我们提出数值结果,以强调我们的算法在求解的凸程序的大小和计算时间方面相对于现有方法的优势。

(通过)视觉提示通过循环超网络找到良好的结构稀疏性

分类: 计算机视觉和模式识别, 人工智能

作者: Tianjin Huang, Fang Meng, Li Shen, Fan Liu, Yulong Pei, Mykola Pechenizkiy, Shiwei Liu, Tianlong Chen

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17412v1

摘要: 大规模神经网络在视觉和语言处理等不同领域表现出了卓越的性能,尽管代价是大量的计算资源。正如压缩文献所示,结构模型剪枝是一种提高模型效率的重要算法,这要归功于其加速友好的稀疏模式。结构剪枝的关键问题之一是如何估计通道重要性。与此同时,以数据为中心的人工智能研究表明,基于提示的技术可以在不同的下游任务中实现大型语言模型的令人印象深刻的泛化。在本文中,我们研究了一种迷人的可能性 - \textit{利用视觉提示来捕获通道重要性并得出高质量的结构稀疏性}。为此,我们提出了一种新颖的算法框架,即\texttt{PASS}。它是一个量身定制的超网络,以视觉提示和网络权重统计数据作为输入,并以循环方式输出逐层通道稀疏性。这种设计考虑了层之间固有的通道依赖性。跨多个网络架构和六个数据集的综合实验证明了 \texttt{PASS} 在定位良好结构稀疏性方面的优越性。例如,在相同的 FLOPs 水平下,\texttt{PASS} 子网络在 Food101 数据集上的准确度提高了 $1%\sim 3%$;或者在具有 $80%$ 准确度的类似性能的情况下,\texttt{PASS} 子网络比基线获得 $0.35\times$ 的加速。

依赖 Transformer 语法:将依赖结构集成到 Transformer 语言模型中

分类: 计算和语言, 人工智能

作者: Yida Zhao, Chao Lou, Kewei Tu

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17406v1

摘要: Synctic Transformer 语言模型旨在通过同时建模语法树和句子来实现更好的泛化。虽然之前的工作重点是向 Transformer 添加基于选区的结构,但我们引入了 Dependency Transformer Grammars (DTG),这是一类新的 Transformer 语言模型,具有显式的基于依赖关系的归纳偏差。 DTG 通过修改注意力掩码来模拟具有受限注意力模式的依赖关系转换系统,通过相对位置编码合并堆栈信息,并通过令牌嵌入和操作嵌入的组合来增强依赖弧表示。当在用依存树注释的句子数据集上进行训练时,DTG 可以实现更好的泛化,同时保持与 Transformer 语言模型基线相当的困惑度。 DTG 的性能也优于最近基于选区的模型,这表明依赖性可以更好地指导 Transformer 语言模型。我们的代码发布于https://github.com/zhaoyd1/Dep_Transformer_Grammars。

使用大型语言模型生成基于语法的游戏描述

分类: 人工智能

作者: Tsunehiko Tanaka, Edgar Simo-Serra

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17404v1

摘要: 为了降低游戏设计开发的障碍,人们开始探索通过计算过程生成游戏设计的自动化游戏设计。在自动化游戏设计中,基于机器学习的技术(例如进化算法)已经取得了成功。受益于深度学习的显着进步,计算机视觉和自然语言处理的应用在关卡生成方面取得了进展。然而,由于游戏设计中的数据量有限,深度学习的应用对于游戏描述生成等任务已经不足。为了开创一种在自动化游戏设计中处理有限数据的新方法,我们专注于大语言模型(LLM)的上下文学习。大语言模型可以从一些演示示例中捕获任务的特征,并应用在预训练期间获得的功能。我们将游戏描述的语法引入大语言模型的推理过程,从而有效地构建游戏设计空间。语法帮助大语言模型捕捉游戏描述生成这一复杂任务的特征。此外,我们提出了一种解码方法,通过利用语法迭代地改进生成的输出。我们的实验表明,这种方法在生成游戏描述方面表现良好。

使用图神经网络对关系域进行系统推理

分类: 人工智能, 机器学习

作者: Irtaza Khalid, Steven Schockaert

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17396v1

摘要: 开发能够学习推理的模型是一个众所周知的挑战性问题。我们专注于关系领域的推理,其中使用图神经网络(GNN)似乎是一个自然的选择。然而,之前关于 GNN 推理的研究表明,当测试示例需要比训练过程中看到的推理链更长的推理链时,此类模型往往会失败。这表明 GNN 缺乏系统地从训练样本中进行归纳的能力,这将从根本上限制它们的推理能力。一种常见的解决方案是依赖神经符号方法,这种方法能够通过设计以系统的方式进行推理。不幸的是,此类方法的可扩展性通常受到限制,并且它们往往依赖于过于强烈的假设,例如可以通过检查单个关系路径来回答查询。在本文中,我们重新审视了 GNN 推理的想法,表明只要提供正确的归纳偏差,系统泛化是可能的。特别是,我们认为节点嵌入应该被视为认知状态,并且 GNN 应该相应地参数化。我们基于这个观点提出了一个简单的 GNN 架构,并表明它能够实现最先进的结果。我们还引入了一个基准,要求模型聚合来自多个关系路径的证据。我们证明现有的神经符号方法在这个基准上失败了,而我们考虑的 GNN 模型却学会了准确地推理。

使用 BERT 和编辑距离进行拼写错误纠正的综合方法

分类: 计算和语言, 人工智能, 机器学习

作者: Amirreza Naziri, Hossein Zeinali

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17383v1

摘要: 写作作为人类交流的一种无所不在的形式,几乎渗透到当代生活的方方面面。因此,书面沟通中的不准确或错误可能会导致深远的后果,从经济损失到潜在的危及生命的情况。拼写错误是最常见的写作错误之一,由于各种因素,经常会遇到拼写错误。这项研究旨在使用神经网络识别并纠正文本中的各种拼写错误,特别是利用 Transformers 的双向编码器表示 (BERT) 掩码语言模型。为了实现这一目标,我们在对不同类型的拼写错误进行分类后,编制了一个包含非真实单词和真实单词错误的综合数据集。随后,采用了多个预训练的 BERT 模型。为了确保纠正拼写错误的最佳性能,我们提出了一种利用 BERT 掩码语言模型和 Levenshtein 距离的组合方法。我们的评估数据结果表明,本文提出的系统在识别和纠正拼写错误方面表现出卓越的能力,通常超过为波斯语定制的现有系统。

与AI从业者和AI合规专家共同设计AI影响评估报告模板

分类: 人机交互, 人工智能, K.4.1, K.4.2, H.5.3, D.2.9, K.4.1; K.4.2; H.5.3; D.2.9

作者: Edyta Bogucka, Marios Constantinides, Sanja Šćepanović, Daniele Quercia

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17374v1

摘要: 在不断发展的人工智能监管格局中,公司进行影响评估并通过综合报告记录其合规性至关重要。然而,当前的报告缺乏法规依据,并且经常关注与人工智能系统相关的隐私等特定方面,而没有解决这些系统的实际用途。此外,还没有与人工智能从业者和人工智能合规专家一起设计和评估这些报告的系统性工作。为了弥补这一差距,我们与 14 名人工智能从业者和 6 名人工智能合规专家进行了迭代协同设计流程,并提出了一个基于欧盟人工智能法案、NIST 的人工智能风险管理框架和 ISO 42001 人工智能管理系统的影响评估报告模板。我们通过为一家大型科技公司基于人工智能的会议伙伴制作影响评估报告来评估该模板。对同一家公司的 8 名人工智能从业者和来自工业界和学术界的 5 名人工智能合规专家进行的用户研究表明,我们的模板有效地为影响评估提供了必要的信息,并记录了人工智能系统的广泛影响。参与者设想不仅在部署前阶段使用该模板以确保合规性,而且还可以将其作为指导人工智能使用设计阶段的工具。

MuST:用于手术相位识别的多尺度变压器

分类: 计算机视觉和模式识别, 人工智能

作者: Alejandra Pérez, Santiago Rodríguez, Nicolás Ayobi, Nicolás Aparicio, Eugénie Dessevres, Pablo Arbeláez

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17361v1

摘要: 手术视频中的阶段识别对于增强计算机辅助手术系统至关重要,因为它可以自动理解连续的手术阶段。现有方法通常依赖于固定时间窗口进行视频分析来识别动态手术阶段。因此,他们很难同时捕获充分理解复杂外科手术所需的短期、中期和长期信息。为了解决这些问题,我们提出了用于手术阶段识别的多尺度变换器(MuST),这是一种基于变换器的新颖方法,它将多项帧编码器与时间一致性模块相结合,以捕获手术视频的多个时间尺度的信息。我们的多项帧编码器通过围绕感兴趣的帧以递增的步幅对序列进行采样来计算时间尺度层次结构中的相互依赖性。此外,我们在帧嵌入上采用长期 Transformer 编码器,以进一步增强长期推理。 MuST 在三个不同的公共基准测试中取得了比之前最先进的方法更高的性能。

基于原始数据包的计算机网络网络安全威胁检测人工智能方法初步研究

分类: 计算机视觉和模式识别, 人工智能, 密码学和安全, I.5.4; C.2.0; I.2.1

作者: Aleksander Ogonowski, Michał Żebrowski, Arkadiusz Ćwiek, Tobiasz Jarosiewicz, Konrad Klimaszewski, Adam Padee, Piotr Wasiuk, Michał Wójcik

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17339v1

摘要: 计算机网络中的大多数入侵检测方法都是基于流量特征的。然而,这种方法可能无法充分利用深度学习算法直接从原始数据包中提取特征和模式的潜力。此外,由于需要等待处理管道完成,它阻碍了实时监控,并引入了对其他软件组件的依赖。在本文中,我们研究了能够直接从网络流量中的原始数据包数据实时检测攻击的深度学习方法。我们提出了一种新颖的方法,将数据包堆叠到窗口中并单独识别,并使用适合计算机视觉模型处理的 2D 图像表示。我们的调查利用 CIC IDS-2017 数据集,其中包括良性流量和普遍的现实世界攻击,为我们的研究提供了全面的基础。

用于老年人痴呆症诊断的增强深度学习方法和 MRI 选择技术

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者: Nikolaos Ntampakis, Konstantinos Diamantaras, Ioanna Chouvarda, Vasileios Argyriou, Panagiotis Sarigianndis

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17324v2

摘要: 痴呆症是一种使人衰弱的神经系统疾病,影响着全世界数百万人,给诊断带来了巨大的挑战。在这项工作中,我们介绍了一种使用 3D 脑部磁共振成像 (MRI) 扫描对痴呆症和非痴呆症老年患者进行分类的新方法。我们的方法采用独特的技术来选择性地处理 MRI 切片,重点关注最相关的大脑区域并排除信息较少的部分。该方法得到基于置信度的分类委员会的补充,该委员会由三个自定义深度学习模型组成:Dem3D ResNet、Dem3D CNN 和 Dem3D EfficientNet。这些模型协同工作,利用它们的集体优势来提高决策的准确性。在开放获取成像研究系列 (OASIS) 数据集上进行测试,我们的方法达到了 94.12% 的令人印象深刻的准确率,超越了现有的方法。此外,对阿尔茨海默病神经影像计划(ADNI)数据集的验证证实了我们方法的稳健性和普遍性。可解释的人工智能(XAI)技术和全面的消融研究的使用进一步证实了我们技术的有效性,为决策过程和我们方法的重要性提供了见解。这项研究在痴呆症诊断方面取得了重大进展,为临床应用提供了高度准确和高效的工具。

大语言模型在检测误导性可视化方面有多好(或多坏)?

分类: 人机交互, 人工智能, 计算和语言, 计算机视觉和模式识别

作者: Leo Yu-Ho Lo, Huamin Qu

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17291v1

摘要: 在这项研究中,我们解决了日益严重的误导性图表问题,这是一个破坏信息传播完整性的普遍问题。误导性图表可能会扭曲查看者对数据的看法,导致基于错误信息的误解和决策。开发有效的误导图表自动检测方法是一个紧迫的研究领域。多模式大语言模型 (LLM) 的最新进展为应对这一挑战提供了一个有希望的方向。我们探索了这些模型在分析复杂图表和评估不同提示策略对模型分析的影响方面的能力。我们利用之前研究从互联网上收集的误导性图表数据集,精心制作了从简单到复杂的九个不同的提示,以测试四个不同的多模式大语言模型检测超过 21 个不同图表问题的能力。通过三个实验——从最初的探索到详细的分析——我们逐渐深入了解了如何有效地促使大语言模型识别误导性图表,并制定了策略来解决在我们将检测范围从最初的 5 个问题扩大到 21 个问题时遇到的可扩展性挑战。在最后的实验中。我们的研究结果表明,多模式大语言模型拥有强大的图表理解能力和数据解释批判性思维能力。利用多模式大语言模型通过支持批判性思维和增强可视化素养来对抗误导性信息具有巨大的潜力。这项研究证明了大语言模型在解决误导性图表的紧迫问题方面的适用性。

作为自回归 Token-to Voken 生成方式彻底改变文本到图像检索

分类: 多媒体, 人工智能, 计算机视觉和模式识别

作者: Yongqi Li, Hongru Cai, Wenjie Wang, Leigang Qu, Yinwei Wei, Wenjie Li, Liqiang Nie, Tat-Seng Chua

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17274v1

摘要: 文本到图像检索是多媒体处理中的一项基本任务,旨在检索语义相关的跨模式内容。传统研究通常将此任务视为判别问题,通过交叉注意机制(一塔框架)或在公共嵌入空间(两塔框架)中匹配文本和图像。最近,生成式跨模态检索已经成为一个新的研究方向,它为图像分配唯一的字符串标识符,并生成目标标识符作为检索目标。尽管潜力巨大,但现有的生成方法由于以下问题而受到限制:标识符中的视觉信息不足、与高级语义不一致以及与检索目标的学习差距。为了解决上述问题,我们提出了一种自回归 voken 生成方法,称为 AVG。 AVG将图像标记为voken,即视觉标记,并创新地将文本到图像的检索任务表述为标记到voken的生成问题。 AVG 将图像离散化为一系列 vokens 作为图像的标识符,同时保持与图像的视觉信息和高级语义的对齐。此外,为了弥合生成训练和检索目标之间的学习差距,我们结合了判别训练来修改 token-to-voken 训练期间的学习方向。大量实验表明,AVG 在有效性和效率方面均取得了优异的结果。

SCIsegV2:脊髓损伤髓内病变分割的通用工具

分类: 计算机视觉和模式识别, 人工智能

作者: Enamundram Naga Karthik, Jan Valošek, Lynn Farner, Dario Pfyffer, Simon Schading-Sassenhausen, Anna Lebret, Gergely David, Andrew C. Smith, Kenneth A. Weber II, Maryam Seif, RHSCIR Network Imaging Group, Patrick Freund, Julien Cohen-Adad

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17265v1

摘要: 脊髓损伤 (SCI) 是一种毁灭性的疾病,会导致永久性瘫痪和感觉运动功能丧失,可能导致脊髓内形成病变。从磁共振成像 (MRI) 扫描获得的成像生物标志物可以预测 SCI 患者的功能恢复情况,并帮助选择最佳治疗策略。目前,大多数研究采用手动量化这些 MRI 衍生的生物标志物,这是一项主观且乏味的任务。在这项工作中,我们提出了(i)一种用于自动分割髓内 SCI 病变的通用工具,称为 \texttt{SCIsegV2},以及(ii)一种自动计算分割病变组织桥宽度的方法。组织桥代表病变附近幸存的脊柱组织,这与 SCI 患者的功能恢复相关。该工具在来自 7 个地点的异质数据集上进行了训练和验证,这些数据集包括来自不同 SCI 阶段(急性、亚急性和慢性)和病因(创伤性 SCI、缺血性 SCI 和退行性脊髓型颈椎病)的患者。自动量化的组织桥与手动计算的组织桥没有显着差异,这表明所提出的自动工具可用于导出相关的 MRI 生物标志物。 \texttt{SCIsegV2} 和自动组织桥计算是开源的,可通过 \texttt{sct_deepseg -task seg_sc_lesion_t2w_sci} 和 \ 在 Spinal Cord Toolbox(v6.4 及更高版本)中使用texttt{sct_analyze_lesion} 函数分别。

使用基于章节的命名实体和注意力模型改进 ICD 编码

分类: 计算和语言, 人工智能

作者: Abhijith R. Beeravolu, Mirjam Jonkman, Sami Azam, Friso De Boer

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17230v1

摘要: 自然语言处理 (NLP) 的最新进展带来了各个领域的自动化。然而,临床 NLP 通常依赖于可能无法准确反映现实世界场景的基准数据集。自动 ICD 编码是一项重要的 NLP 任务,通常使用过时且不平衡的数据集,例如 MIMIC-III,由于存在许多误报,现有方法产生的微平均 F1 分数在 0.4 到 0.7 之间。我们的研究引入了一种增强的 ICD 编码方法,通过使用基于章节的命名实体和注意力模型来提高 F1 分数。该方法将出院摘要分类为 ICD-9 章节,并使用特定章节的数据开发注意力模型,从而无需考虑外部数据来进行代码识别。对于分类,我们使用第四章来消除偏差并影响关键实体和权重,而无需神经网络,创建准确的阈值并为人类验证提供可解释性。验证后,我们使用具有注意力的双向门控循环单元(GRU)和具有多头注意力架构的变压器,为第四章中的三个频繁代码和三个非频繁代码开发注意力模型。这些模型的平均 Micro-F1 分数为 0.79 和 0.81,表明 ICD 编码的性能显着提高。

LEAN-GitHub:为多功能 LEAN 证明器编译 GitHub LEAN 存储库

分类: 人工智能, 计算和语言

作者: Zijian Wu, Jiayu Wang, Dahua Lin, Kai Chen

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17227v1

摘要: 最近,大型语言模型在辅助形式数学推理方面取得了有希望的结果。然而,由于形式定理证明数据的稀缺,它们的性能受到限制,这需要从原始形式语言语料库中提取额外的工作。与此同时,大量人类编写的正式语言语料库仍未得到充分利用。为了解决这个问题,我们提出了 LEAN-GitHub,这是一个由从 GitHub 上几乎所有 Lean 4 存储库中提取的大规模正式数据组成的数据集。在此数据集上微调 InternLM-math-plus 后,我们的模型在 Lean 4 miniF2F 测试中单次传递的准确率达到 48.8%,64 次传递的准确率达到 54.5%,超过了最先进方法的 52%。它还在另外两个针对不同数学领域/水平的 Lean 4 基准测试(ProofNet 和 Putnam)上达到了最先进的水平。这些结果表明,我们提出的数据集有利于对广泛的数学主题进行形式推理。我们在 https://GitHub 上开源了我们的模型。 com/InternLM/InternLM-Math 以及我们的数据 https://huggingface.co/datasets/InternLM/Lean-GitHub

连续时间线性二次强化学习中 Actor-Critic 算法的次线性遗憾

分类: 机器学习, 人工智能

作者: Yilie Huang, Yanwei Jia, Xun Yu Zhou

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17226v1

摘要: 我们研究了一类连续时间线性二次(LQ)扩散控制问题的强化学习(RL),其中状态过程的波动性取决于状态变量和控制变量。我们采用无模型方法,既不依赖于模型参数的知识,也不依赖于模型参数的估计,并设计了一种演员批评算法来直接学习最佳策略参数。我们的主要贡献包括引入新颖的探索计划和对所提出的算法进行遗憾分析。我们提供了策略参数到最优参数的收敛速度,并证明该算法在达到对数因子时实现了 $O(N^{\frac{3}{4}})$ 的后悔界限。我们进行了仿真研究来验证理论结果并证明所提出算法的有效性和可靠性。我们还对我们的方法与最近适应状态和控制相关波动率设置的基于模型的随机 LQ RL 研究的方法进行了数值比较,证明了前者在后悔界限方面具有更好的性能。

测试联网自动驾驶汽车驾驶理论知识和技能的大型语言模型

分类: 人工智能, 网络和互联网架构, 机器人技术

作者: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17211v1

摘要: 处理长尾角情况是自动驾驶汽车 (AV) 面临的主要挑战。虽然大型语言模型(LLM)具有出色的泛化和解释能力,在处理极端情况方面具有巨大的潜力,并且在自动驾驶应用方面受到越来越多的研究兴趣,但仍然存在需要解决的技术障碍,例如严格的模型性能和巨大的计算资源LLM 的要求。在本文中,我们研究了一种应用远程或边缘大语言模型来支持自动驾驶的新方法。这种LLM辅助驾驶系统的一个关键问题是评估LLM对驾驶理论和技能的理解,确保他们有资格承担CAV的安全关键驾驶辅助任务。我们为多个专有LLM模型(OpenAI GPT模型、百度Ernie和阿里QWen)和开源LLM模型(清华MiniCPM-2B和MiniCPM-Llama3-V2.5)设计并运行了超过500个多项选择的驾驶理论测试理论测试题。模型精度、成本和处理延迟是通过实验测量的。实验结果表明,虽然模型 GPT-4 通过改进的领域知识通过了测试,Ernie 的准确率为 85%(略低于 86% 通过阈值),但包括 GPT-3.5 在内的其他 LLM 模型未通过测试。对于带有图像的测试题,多模态模型 GPT4-o 具有 96% 的优异准确率结果,MiniCPM-Llama3-V2.5 的准确率达到 76%。虽然GPT-4在CAV驾驶辅助应用中具有更强的潜力,但使用模型GPT4的成本要高得多,几乎是使用GPT3.5的50倍。结果可以帮助决定将现有的大语言模型用于 CAV 应用并平衡模型性能和成本。

教育中的非语言即时性分析:多模态计算模型

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 68T45, 68T10, 68U10, 91E45, I.2.10; I.5.4; K.3.1

作者: Uroš Petković, Jonas Frenkel, Olaf Hellwich, Rebecca Lazarides

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17209v1

摘要: 本文介绍了一种用于分析教育环境中非语言社会行为的新颖计算方法。该模型整合了多模态行为线索,包括面部表情、手势强度和空间动态,通过 RGB 课堂视频评估教师的非语言即时性 (NVI)。构建了来自德国教室的 400 个 30 秒视频片段的数据集,用于模型训练和验证。手势强度回归器与人类评分中位数的相关性为 0.84,感知距离回归器为 0.55,NVI 模型为 0.44。该模型展示了为非语言行为评估提供宝贵支持的潜力,接近个体评估者的准确性。根据问卷数据和训练有素的观察者评分进行验证,我们的模型显示出与相关教育成果的中等到强相关性,表明它们在反映有效教学行为方面的功效。这项研究推进了非语言交流行为的客观评估,为教育研究开辟了新的途径。

迈出一步并重新考虑:用于自我改进的神经组合优化的序列解码

分类: 机器学习, 人工智能

作者: Jonathan Pirnay, Dominik G. Grimm

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17206v1

摘要: 神经组合优化 (NCO) 中的构造性方法将组合优化问题视为有限马尔可夫决策过程,其中通过神经策略网络引导的一系列决策逐步构建解决方案。为了训练政策,最近的研究正在转向“自我改进”的学习方法,以解决强化学习和监督方法的局限性。在这里,策略以监督方式迭代训练,从当前策略导出的解决方案充当伪标签。从策略中获得这些解决方案的方式决定了伪标签的质量。在本文中,我们提出了一种简单且与问题无关的序列解码方法,用于基于无替换采样序列的自我改进学习。我们逐步遵循找到的最佳解决方案,并从中间部分解决方案重复采样过程。通过修改策略以忽略先前采样的序列,我们迫使它仅考虑未见过的替代方案,从而增加解决方案的多样性。旅行商和有能力车辆路径问题的实验结果证明了其强大的性能。此外,我们的方法在作业车间调度问题上优于以前的 NCO 方法。

ALPI:具有代理注入的自动标记器,仅使用 2D 标签进行 3D 对象检测

分类: 计算机视觉和模式识别, 人工智能

作者: Saad Lahlali, Nicolas Granger, Hervé Le Borgne, Quoc-Cuong Pham

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17197v1

摘要: 3D 物体检测在自动驾驶汽车、机器人和增强现实等各种应用中发挥着至关重要的作用。然而,训练 3D 检测器需要昂贵的精确注释,这阻碍了将注释扩展到大型数据集。为了应对这一挑战,我们提出了一种弱监督的 3D 注释器,它仅依赖于图像中的 2D 边界框注释以及尺寸先验。一个主要问题是,由于不同 3D 姿势与其相同的 2D 投影之间的模糊性,仅使用 2D 框来监督 3D 检测模型并不可靠。我们引入了一个简单但有效且通用的解决方案:我们通过构造来构建带有注释的 3D 代理对象,并将它们添加到训练数据集中。我们的方法只需要尺寸先验来适应新的类别。为了更好地将 2D 监督与 3D 检测结合起来,我们的方法通过 2D 损失的新颖表达来确保深度不变性。最后,为了检测更具挑战性的实例,我们的注释器遵循离线伪标签方案,逐渐改进其 3D 伪标签。对 KITTI 数据集的大量实验表明,我们的方法不仅在汽车类别上的表现与之前的工作相当或更高,而且在更具挑战性的类别上也达到了接近完全监督方法的性能。我们通过第一个在更具挑战性的 nuScenes 数据集上进行实验,进一步证明了我们方法的有效性和鲁棒性。我们还提出了一种设置,其中弱标签是从在 MS-COCO 上预训练的 2D 检测器获得的,而不是人工注释。

事件和发生的标签噪声下的鲁棒深霍克斯过程

分类: 机器学习, 人工智能, 60G55, I.2.6

作者: Xiaoyu Tan, Bin Li, Xihe Qiu, Jingjing Huang, Yinghui Xu, Wei Chu

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17164v1

摘要: 将深度神经网络与霍克斯过程相结合,显着提高了金融、健康信息学和信息技术领域的预测能力。然而,这些模型在现实环境中经常面临挑战,特别是由于大量的标签噪声。这个问题在医疗领域备受关注,电子病历更新延迟或误诊可能会产生标签噪声,从而导致预测风险增加。我们的研究表明,深度霍克斯过程模型在处理标签噪声时表现出鲁棒性降低,特别是当它影响事件类型和时间时。为了应对这些挑战,我们首先研究标签噪声对近似强度函数的影响,并提出一种新颖的框架,即鲁棒深霍克斯过程(RDHP),以克服标签噪声对霍克斯模型强度函数的影响,同时考虑到事件及其发生。我们使用多个带有合成噪声的开源基准测试了 RDHP,并在具有固有标签噪声的现实环境中对阻塞性睡眠呼吸暂停低通气综合征 (OSAHS) 进行了案例研究。结果表明,即使存在与事件及其时间相关的噪声,RDHP 也可以有效地执行分类和回归任务。据我们所知,这是第一项成功解决深度霍克斯过程模型中的事件和时间标签噪声的研究,为医疗应用(特别是诊断 OSAHS)提供了一个有前景的解决方案。

多语言口述历史档案自动语音识别双语和三语 Wav2Vec 模型的比较分析

分类: 计算和语言, 人工智能

作者: Jan Lehečka, Josef V. Psutka, Luboš Šmídl, Pavel Ircing, Josef Psutka

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17160v1

摘要: 在本文中,我们将单语言 Wav2Vec 2.0 模型与各种多语言模型进行比较,看看我们是否可以提高包含大量混合语言句子的独特口述历史档案的语音识别性能。我们的主要目标是推进对这个独特数据集的研究,这是我们文化遗产中极其有价值的一部分。我们的结果表明,在大多数情况下,单语语音识别模型优于多语言模型,即使在处理充满非母语人士混合语言句子的口述历史档案时也是如此。我们还在公共 CommonVoice 数据集上进行了相同的实验来验证我们的结果。我们通过向公众发布我们的预训练模型来为研究界做出贡献。

XMeCap:具有子图像适应性的模因字幕生成

分类: 计算机视觉和模式识别, 人工智能

作者: Yuyan Chen, Songzhou Yan, Zhihong Zhu, Zhixu Li, Yanghua Xiao

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17152v1

摘要: 幽默深深植根于社会意义和文化细节,对机器提出了独特的挑战。尽管自然语言处理取得了进步,但现实世界的幽默往往在多模态环境中蓬勃发展,并被模因独特地封装起来。本文特别强调多图像对模因字幕的影响。之后,我们介绍了 \textsc{XMeCap} 框架,这是一种基于创新奖励模型的监督微调和强化学习的新颖方法,该模型考虑了视觉和文本之间的全局和局部相似性。我们的结果以当代模型为基准,表明单图像和多图像模因以及不同模因类别的标题生成都有显着改进。 \textsc{XMeCap} 单图像模因的平均评估分数为 75.85,多图像模因的平均评估分数为 66.32,分别比最佳基线高出 3.71% 和 4.82%。这项研究不仅建立了模因相关研究的新前沿,而且强调了机器在多模式环境中理解和产生幽默的潜力。

SDoH-GPT:使用大型语言模型提取健康的社会决定因素 (SDoH)

分类: 计算和语言, 人工智能

作者: Bernardo Consoli, Xizhi Wu, Song Wang, Xinyu Zhao, Yanshan Wang, Justin Rousseau, Tom Hartvigsen, Li Shen, Huanmei Wu, Yifan Peng, Qi Long, Tianlong Chen, Ying Ding

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17126v1

摘要: 从非结构化医疗记录中提取健康的社会决定因素 (SDoH) 在很大程度上依赖于劳动密集型注释,这些注释通常是特定于任务的,阻碍了可重用性并限制了共享。在本研究中,我们介绍了 SDoH-GPT,这是一种简单有效的小样本大型语言模型 (LLM) 方法,利用对比示例和简洁的指令来提取 SDoH,而无需依赖大量的医学注释或昂贵的人工干预。它分别实现了时间和成本的十倍和二十倍的减少,并且与人类注释者的一致性通过 Cohen 的 kappa 测量高达 0.92。 SDoH-GPT 和 XGBoost 的创新组合充分利用了两者的优势,确保高精度和计算效率,同时始终保持 0.90+ AUROC 分数。对三个不同数据集的测试证实了其稳健性和准确性。这项研究强调了利用大语言模型彻底改变医疗笔记分类的潜力,展示了他们在显着减少时间和成本的情况下实现高度准确分类的能力。

用于持续学习的参数高效微调:神经切线核视角

分类: 机器学习, 人工智能

作者: Jingren Liu, Zhong Ji, YunLong Yu, Jiale Cao, Yanwei Pang, Jungong Han, Xuelong Li

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17120v1

摘要: 持续学习的参数高效微调(PEFT-CL)在使预训练模型适应顺序任务,同时减轻灾难性遗忘问题方面表现出了希望。然而,理解这种范式中决定持续性能的机制仍然难以捉摸。为了解决这种复杂性,我们对 PEFT-CL 动力学进行了严格的分析,以使用神经正切核 (NTK) 理论导出连续场景的相关指标。借助 NTK 作为数学分析工具,我们将测试时遗忘的挑战重新定义为训练期间可量化的泛化差距,确定了影响这些差距和 PEFT-CL 性能的三个关键因素:训练样本大小、任务-水平特征正交性和正则化。为了应对这些挑战,我们引入了 NTK-CL,这是一种新颖的框架,它消除了特定于任务的参数存储,同时自适应地生成与任务相关的特征。 NTK-CL 与理论指导相一致,将每个样本的特征表示增加了三倍,从理论上和经验上减少了任务相互作用和特定任务泛化差距的程度。基于 NTK 分析,我们的方法对任务级特征正交性施加自适应指数移动平均机制和约束,保持任务内 NTK 形式,同时减弱任务间 NTK 形式。最终,通过适当的正则化微调可优化参数,NTK-CL 在既定的 PEFT-CL 基准上实现了最先进的性能。这项工作为理解和改进 PEFT-CL 模型提供了理论基础,深入了解特征表示、任务正交性和泛化之间的相互作用,有助于开发更高效的持续学习系统。

EverAdapt:持续适应动态机器故障诊断环境

分类: 机器学习, 人工智能, 计算工程、金融和科学

作者: Edward, Mohamed Ragab, Yuecong Xu, Min Wu, Yuecong Xu, Zhenghua Chen, Abdulla Alseiari, Xiaoli Li

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17117v1

摘要: 无监督域适应 (UDA) 已成为数据驱动的故障诊断中的关键解决方案,可解决模型在不断变化的环境中表现不佳的域转移问题。然而,在不断变化的环境下,UDA 在适应新领域时往往会在以前见过的领域表现不佳,这个问题被称为灾难性遗忘。为了解决这个限制,我们引入了 EverAdapt 框架,专门为动态环境中的连续模型适应而设计。 EverAdapt 的核心是一种新颖的连续批量归一化 (CBN),它利用源域统计数据作为参考点来标准化跨域的特征表示。 EverAdapt不仅保留了以前领域的统计信息,而且可以有效地适应新的场景。作为 CBN 的补充,我们设计了一个类条件域对齐模块,用于有效集成目标域,并设计了一个样本高效重放策略来增强记忆保留。对真实世界数据集的实验证明了 EverAdapt 在动态环境中保持稳健的故障诊断方面的优越性。我们的代码可用:https://github.com/mohamedr002/EverAdapt

神经决斗强盗

分类: 机器学习, 人工智能, 机器学习

作者: Arun Verma, Zhongxiang Dai, Xiaoqiang Lin, Patrick Jaillet, Bryan Kian Hsiang Low

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17112v1

摘要: 上下文决斗老虎机用于对老虎机问题进行建模,其中学习者的目标是使用观察到的对过去上下文中所选手臂的噪声偏好反馈来找到给定上下文的最佳手臂。然而,现有算法假设奖励函数是线性的,这在许多现实生活中的应用中可能是复杂且非线性的,例如在线推荐或对网络搜索结果进行排名。为了克服这一挑战,我们使用神经网络使用先前选择的手臂的偏好反馈来估计奖励函数。我们提出了基于上置信界和汤普森采样的算法,具有亚线性遗憾保证,可以在每轮中有效地选择臂。然后,我们将理论结果扩展到具有二元反馈的上下文强盗问题,这本身就是一个不平凡的贡献。从合成数据集得出的问题实例的实验结果证实了我们的理论结果。

PiPa++:通过自监督学习实现领域自适应语义分割的统一

分类: 计算机视觉和模式识别, 人工智能

作者: Mu Chen, Zhedong Zheng, Yi Yang

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17101v1

摘要: 无监督域自适应分割旨在提高目标域上模型的分割精度,而不依赖于这些域的标记数据。当标记的目标域数据稀缺或不可用时,这种方法至关重要。它寻求对齐源域(其中有标记数据)和目标域(其中仅存在未标记数据)的特征表示,从而使模型能够很好地推广到目标域。当前的图像和视频级域适应已经使用不同的专门框架、训练策略和优化来解决,尽管它们之间存在潜在的联系。在本文中,我们提出了一个统一的框架 PiPa++,它利用“比较”的核心思想来(1)明确鼓励学习具有类内紧凑性和类间可分离性的判别性像素特征,(2)促进鲁棒性针对不同上下文或波动的相同补丁的特征学习,以及(3)能够在动态环境下学习时间连续性。通过设计的任务智能对比采样策略,PiPa++能够根据任务需求挖掘更多信息量的训练样本。大量的实验证明了我们的方法在图像级和视频级域自适应基准上的有效性。此外,所提出的方法与其他 UDA 方法兼容,可以在不引入额外参数的情况下进一步提高性能。

通过 k-稀疏注意力实现稳健的知识追踪模型

分类: 机器学习, 人工智能

作者: Shuyan Huang, Zitao Liu, Xiangyu Zhao, Weiqi Luo, Jian Weng

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17097v1

摘要: 知识追踪(KT)是根据学生的历史交互序列来预测学生未来表现的问题。凭借捕获上下文长期依赖性的先进能力,注意力机制成为许多基于深度学习的 KT(DLKT)模型的重要组成部分之一。尽管这些注意力 DLKT 模型取得了令人印象深刻的性能,但其中许多模型往往容易面临过度拟合的风险,尤其是在小规模教育数据集上。因此,在本文中,我们提出了 \textsc{sparseKT},一个简单而有效的框架来提高基于注意力的 DLKT 方法的鲁棒性和泛化性。具体来说,我们结合了一个 k-选择模块来仅选择具有最高注意力分数的项目。我们提出两种稀疏化启发式:(1)软阈值稀疏注意力和(2)top-$K$稀疏注意力。我们表明,我们的 \textsc{sparseKT} 能够帮助注意力 KT 模型摆脱不相关的学生交互,并且与三个公开可用的现实世界教育数据集上的 11 个最先进的 KT 模型相比,具有可比的预测性能。为了鼓励可重复的研究,我们在 \url{https://github.com/pykt-team/pykt-toolkit}\footnote{我们将我们的模型合并到 \textsc{pyKT} 基准测试中,网址为 \网址{https://pykt.org/}.}。

OVR:视频中开放词汇时间重复计数的数据集

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Andrew Zisserman

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17085v1

摘要: 我们引入了视频中时间重复注释的数据集。数据集 OVR(发音为 over)包含超过 72K 视频的注释,每个注释指定重复次数、重复的开始和结束时间,以及重复内容的自由格式描述。这些注释是为来自 Kinetics 和 Ego4D 的视频提供的,因此涵盖了 Exo 和 Ego 的观看条件,以及各种各样的动作和活动。此外,OVR 几乎比以前的视频重复数据集大一个数量级。我们还提出了一种基于基线 Transformer 的计数模型 OVRCounter,它可以定位和计算长达 320 帧的视频中的重复次数。该模型在 OVR 数据集上进行训练和评估,并在使用或不使用文本指定要计数的目标类别的情况下评估其性能。该性能还与之前的重复计数模型进行了比较。该数据集可从以下网址下载:https://sites.google.com/view/openvocabreps/

当文本和图像不混合时:用于异常检测的偏差校正语言图像相似度分数

分类: 计算机视觉和模式识别, 人工智能

作者: Adam Goodge, Bryan Hooi, Wee Siong Ng

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17083v1

摘要: 对比语言-图像预训练(CLIP)通过图像和文本输入嵌入的对齐在各种下游任务中取得了显着的性能,并为异常检测带来了巨大的希望。然而,我们的实证实验表明,文本输入的嵌入意外地紧密地聚集在一起,远离图像嵌入,这与模型对齐图像-文本输入对的对比训练目标相反。我们表明,这种现象会引起“相似性偏差”——由于图像和正常标签文本嵌入之间的相似性偏差,会出现假阴性和假阳性错误。为了解决这种偏差,我们提出了一种称为 BLISS 的新颖方法,它通过使用辅助的外部文本输入集直接解释这种相似性偏差。 BLISS 很简单,它不需要关于异常行为的强烈归纳偏差,也不需要昂贵的训练过程,并且即使在正常数据的访问极其有限的情况下,它也明显优于基准图像数据集上的基线方法。

调查森林图:获得对特定研究主题的不同见解

分类: 计算和语言, 人工智能, 数字图书馆

作者: Jinghong Li, Wen Gu, Koichi Ota, Shinobu Hasegawa

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17081v1

摘要: 随着论文数量的指数级增长和人工智能研究的趋势,使用生成式人工智能进行信息检索和问答已成为开展研究调查的流行方式。然而,不熟悉特定领域的新手研究人员可能不会显着提高与生成式人工智能交互的效率,因为他们还没有在该领域形成发散性思维。本研究旨在开发一个深入的调查森林图,通过指出多篇论文之间的引用线索,引导新手研究者对研究主题进行发散性思考,帮助新手研究者拓展调查视角。

时态网络的课程负挖掘

分类: 机器学习, 人工智能

作者: Ziyue Chen, Tongya Zheng, Mingli Song

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17070v1

摘要: 时态网络可以有效地捕获网络随时间不断变化的交互,例如社交网络和电子商务网络。近年来,研究人员主要致力于开发时态图神经网络(TGNN)的特定模型架构,以提高时态节点和边的表示质量。然而,在 TGNN 的训练过程中,对负样本质量的关注有限。与静态网络相比,时间网络对负采样提出了两个具体的挑战:正稀疏性和正偏移。正稀疏性是指在每个时间戳的众多负样本中存在单个正样本,而正偏移涉及不同时间戳上正样本的变化。为了有力地解决训练 TGNN 时的这些挑战,我们引入了课程负挖掘(CurNM),这是一种模型感知课程学习框架,可以自适应调整负样本的难度。在此框架内,我们首先建立一个动态更新的负数池,平衡随机负数、历史负数和硬负数,以解决正稀疏性带来的挑战。其次,我们实现了一个时间感知的负选择模块,该模块专注于从最近活动边缘的解开因素中学习,从而准确地捕获不断变化的偏好。对 12 个数据集和 3 个 TGNN 进行的大量实验表明,我们的方法明显优于基线方法。此外,彻底的消融研究和参数敏感性实验验证了我们方法的有用性和稳健性。我们的代码可在 https://github.com/zziyue83/CurNM 获取。

PatchFinder:针对开源软件中已披露漏洞的安全补丁跟踪的两阶段方法

分类: 软件工程, 人工智能

作者: Kaixuan Li, Jian Zhang, Sen Chen, Han Liu, Yang Liu, Yixiang Chen

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17065v1

摘要: 开源软件(OSS)漏洞日益普遍,凸显了安全补丁的重要性。然而,在 NVD 等广泛使用的安全平台中,大量 CVE 记录仍然缺乏补丁的跟踪链接。尽管已经提出了基于等级的方法用于安全补丁跟踪,但它们严重依赖于单步框架中的手工功能,这限制了它们的有效性。在本文中,我们提出了 PatchFinder,这是一个具有端到端相关性学习的两阶段框架,用于更好地跟踪安全补丁。在初始检索阶段,我们采用混合补丁检索器来根据代码更改和 CVE 的描述来考虑词汇和语义匹配,通过提取那些提交作为候选来缩小搜索空间与 CVE 描述类似。之后,在重新排名阶段,我们在监督微调范式下设计了一个端到端架构,用于学习 CVE 描述和提交之间的语义相关性。通过这种方式,我们可以根据候选者的相关性分数自动对候选者进行排名,同时保持较低的计算开销。我们根据 532 个 OSS 项目的 4,789 个 CVE 评估了我们的系统。结果非常有希望:PatchFinder 的 Recall@10 达到 80.63%,平均倒数排名 (MRR) 为 0.7951。此外,所需的手动工作量@10减少到2.77,比当前领先方法提高了1.94倍。在实践中应用PatchFinder时,我们初步识别出533个补丁提交并提交给官方,其中482个已获得CVE编号机构确认。

大型视觉语言模型的高效图像压缩

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 图像和视频处理

作者: Binzhe Li, Shurun Wang, Shiqi Wang, Yan Ye

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17060v1

摘要: 近年来,大型视觉语言模型(LVLM)在多模态任务中表现出了令人印象深刻的性能和有前景的泛化能力,从而在各种应用场景中取代人类成为视觉信息的接收者。在本文中,我们率先提出了一种由预编辑模块和端到端编解码器组成的可变比特率图像压缩框架,以实现不同 LVLM 的有前景的速率精度性能。特别是,我们不是针对特定任务或几个代表性任务优化自适应预编辑网络,而是提出了一种针对 LVLM 量身定制的新优化策略,该策略是基于具有令牌级失真和排名的表示和区分能力而设计的。预编辑模块和可变比特率端到端图像编解码器通过基于大型模型语义标记的损失进行联合训练,从而增强了对各种数据和任务的泛化能力。 {实验结果表明,与最先进的编码标准多功能视频编码相比,所提出的框架可以有效地实现更好的速率精度性能。}同时,多模态任务的实验揭示了鲁棒性和泛化能力拟议的框架。

多元径向基函数神经网络的时间序列缺失插补

分类: 机器学习, 人工智能

作者: Chanyoung Jung, Yun Jang

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17040v1

摘要: 研究人员一直致力于解决时间序列数据中缺失值的问题。人们提出了许多模型,努力估计数据的分布。径向基函数神经网络(RBFNN)最近在估计数据分布方面表现出了卓越的性能。在本文中,我们提出了一种基于 RBFNN 的时间序列插补模型。我们的插补模型从时间戳中学习本地信息以创建连续函数。此外,考虑到缺失值的缺失项,我们考虑了时间间隙以促进学习信息。我们将该模型命名为缺失插补多元 RBFNN (MIM-RBFNN)。然而,MIM-RBFNN 依赖于基于局部信息的学习方法,这在利用时间信息方面存在困难。因此,我们提出了一种扩展,称为具有连续函数的缺失值插补递归神经网络(MIRNN-CF),使用 MIM-RBFNN 生成的连续函数。我们使用两个具有非随机缺失和随机缺失模式的现实数据集来评估性能,并进行比较 MIM-RBFNN 和 MIRNN-CF 的消融研究。

深高斯过程中的稀疏诱导点:通过去噪扩散变分推理增强建模

分类: 机器学习, 人工智能, 机器学习

作者: Jian Xu, Delu Zeng, John Paisley

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17033v1

摘要: 深度高斯过程 (DGP) 为贝叶斯深度学习提供了强大的范例。在 DGP 中,选择一组称为诱导点的稀疏积分位置来近似模型的后验分布。这样做是为了降低计算复杂性并提高模型效率。然而,推断诱导点的后验分布并不简单。后验近似的传统变分推理方法常常会导致显着的偏差。为了解决这个问题,我们提出了一种称为去噪扩散变分推理(DDVI)的替代方法,该方法使用去噪扩散随机微分方程(SDE)来生成诱导变量的后验样本。我们依靠去噪扩散模型的得分匹配方法来用神经网络来近似得分函数。此外,通过将 SDE 的经典数学理论与近似过程和真实过程之间 KL 散度的最小化相结合,我们为 DGP 的边际似然函数提出了一种新颖的显式变分下界。通过对各种数据集的实验以及与基线方法的比较,我们凭经验证明了 DDVI 对于 DGP 模型诱导点后验推理的有效性。

通过多光谱成像加强环境监测:用于湖滨废物语义分割的 WasteMS 数据集

分类: 计算机视觉和模式识别, 人工智能, 多媒体

作者: Qinfeng Zhu, Ningxin Weng, Lei Fan, Yuanzhi Cai

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17028v2

摘要: 湖滨绿地环境监测对于环境保护至关重要。与人工检查相比,计算机视觉技术在现场部署时提供了更有效的解决方案。多光谱成像提供不同光谱下物体的多种信息,有助于区分废物和湖滨草坪环境。本研究介绍了WasteMS,这是第一个为湖滨废物语义分割而建立的多光谱数据集。 WasteMS 包括在各种照明条件下捕获的草坪环境中的各种废物类型。我们实施了严格的注释流程来标记图像中的浪费。代表性语义分割框架用于使用 WasteMS 评估分割准确性。讨论了使用 WasteMS 对湖滨草坪上的废物进行分类时遇到的挑战。 WasteMS 数据集可在 https://github.com/zhuqinfeng1999/WasteMS 获取。

从内部冲突到语言模型的语境适应

分类: 计算和语言, 人工智能, 68T50, I.2.7

作者: Sara Vera Marjanović, Haeun Yu, Pepa Atanasova, Maria Maistro, Christina Lioma, Isabelle Augenstein

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17023v1

摘要: 知识密集型语言理解任务需要语言模型(LM)整合相关上下文,减轻其固有的弱点,例如不完整或过时的知识。然而,研究表明 LM 经常忽​​略所提供的上下文,因为它可能与预训练期间学到的预先存在的 LM 记忆发生冲突。此外,冲突的知识可能已经存在于 LM 的参数中,称为内存内冲突。现有的著作仅孤立地研究了这两种类型的知识冲突。我们推测内存内冲突(的程度)反过来会影响 LM 对上下文内存冲突的处理。为了研究这个问题,我们引入了 DYNAMICQA 数据集,其中包括具有时间动态性质的事实,其中事实可以随着时间频率的变化而变化,以及有争议的动态事实,这些事实可以根据观点而变化。 DYNAMICQA 是第一个包含现实世界知识冲突并提供研究不同类型知识冲突之间联系的背景。通过所提出的数据集,我们评估了测量内存内冲突的不确定性的使用,并引入了一种新颖的连贯说服(CP)分数来评估上下文影响 LM 语义输出的能力。我们广泛的实验表明,相对于时间和有争议的事实,不太可能改变的静态事实更容易通过附加上下文进行更新。

Pensieve 讨论:具有 AI 的可扩展小组 CS 辅导系统

分类: 计算机与社会, 人工智能, 人机交互

作者: Yoonseok Yang, Jack Liu, J. D. Zamfirescu-Pereira, John DeNero

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.17007v1

摘要: 计算机科学 (CS) 领域的小组辅导是有效的,但也带来了为每个小组提供专门辅导员并鼓励小组成员之间大规模协作的挑战。我们推出了 Pensieve Discuss,这是一个软件平台,它将支架式编程问题的同步编辑与在线人工和人工智能导师集成在一起,旨在改善学生在小组辅导课程中的协作和体验。我们在 CS1 课程中对 800 名学生进行了一个学期的部署,展示了一贯的高协作率、对 AI 导师的帮助和正确性的积极反馈、对小组辅导体验的满意度提高以及问题量的大幅增加。与缺乏人工智能导师和同步编辑功能的界面相比,我们的系统更受欢迎。我们的经验表明,小组辅导课程是未来教育人工智能研究的重要途径。

SepsisLab:通过不确定性量化和主动传感进行早期脓毒症预测

分类: 机器学习, 人工智能, 人机交互, 68T07 (primary) 92C50 (secondary), H.2.8; I.2.1; J.3

作者: Changchang Yin, Pin-Yu Chen, Bingsheng Yao, Dakuo Wang, Jeffrey Caterino, Ping Zhang

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16999v1

摘要: 败血症是美国院内死亡的主要原因。早期脓毒症发病预测和诊断可以显着提高脓毒症患者的生存率。现有的预测模型通常是在高质量数据上进行训练,缺失信息很少,而缺失值在现实临床场景中广泛存在(尤其是在入院的最初几个小时),这导致准确性显着下降和预测模型的不确定性。处理缺失值的常用方法是插补,即用观测数据的估计值替换不可用的变量。插补结果的不确定性可以传播到脓毒症预测输出,这在脓毒症预测或不确定性量化的现有工作中尚未进行研究。在本研究中,我们首先将这种传播的不确定性定义为预测输出的方差,然后引入不确定性传播方法来量化传播的不确定性。此外,对于由于观察有限而信心不足的潜在高风险患者,我们提出了一种强大的主动传感算法,通过积极推荐临床医生观察信息最丰富的变量来增加信心。我们在公开数据(即 MIMIC-III 和阿姆斯特丹UMCdb)和俄亥俄州立大学韦克斯纳医学中心(OSUWMC)的专有数据中验证了所提出的模型。实验结果表明,传播的不确定性在入院之初占主导地位,并且所提出的算法优于最先进的主动传感方法。最后,我们基于预先训练的模型实现了脓毒症实验室系统,用于早期脓毒症预测和主动传感。临床医生和潜在脓毒症患者可以从该系统的脓毒症早期预测和诊断中受益。

用于渐近安全语言模型输出的基于投票者的随机拒绝方法框架

分类: 人工智能, 计算和语言, 机器学习

作者: Jake R. Watts, Joel Sokol

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16994v1

摘要: 本文提出了一种新方法,通过利用 LLM 的随机性来防止不安全或低质量的大语言模型 (LLM) 输出。我们提出了一个系统,LLM 检查员可以对生成的输出的可接受性进行投票,如果达到不批准的阈值,则重新生成它,直到有足够的检查员批准为止。我们进一步提出了成本和故障率的估计器,并基于这些估计器和针对应用定制的实验数据,我们提出了一种以尽可能低的成本实现所需故障率的算法。我们证明,在这些模型下,当根据算法选择选民数量和阈值时,失败率作为成本的函数呈指数下降,并且即使数据有限,模型也能合理地估计此类系统在运行中的实际性能。

Diffree:使用扩散模型进行文本引导的形状自由对象修复

分类: 计算机视觉和模式识别, 人工智能

作者: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16982v1

摘要: 本文解决了仅使用文本引导的图像的对象添加的重要问题。这是具有挑战性的,因为新对象必须无缝集成到图像中,并具有一致的视觉上下文,例如照明、纹理和空间位置。虽然现有的文本引导图像修复方法可以添加对象,但它们要么无法保持背景一致性,要么在指定边界框或用户乱写的蒙版时涉及繁琐的人工干预。为了应对这一挑战,我们引入了 Diffree,一种文本到图像 (T2I) 模型,可以仅通过文本控制来实现文本引导的对象添加。为此,我们通过使用先进的图像修复技术删除对象来策划 OABench,这是一个精致的合成数据集。 OABench 包含 74K 个真实世界元组,其中包括原始图像、删除了对象的修复图像、对象蒙版和对象描述。 Diffree 使用带有附加掩模预测模块的稳定扩散模型在 OABench 上进行训练,可以独特地预测新对象的位置,并仅在文本的指导下实现对象添加。大量实验表明,Diffree 擅长以高成功率添加新对象,同时保持背景一致性、空间适当性以及对象相关性和质量。

Case-Enhanced Vision Transformer:使用基于 ViT 的相似性度量改进图像相似性的解释

分类: 计算机视觉和模式识别, 人工智能

作者: Ziwei Zhao, David Leake, Xiaomeng Ye, David Crandall

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16981v1

摘要: 这篇简短的论文介绍了案例增强视觉变换器(CEViT)的初步研究,这是一种相似性测量方法,旨在提高图像数据相似性评估的可解释性。初步实验结果表明,将 CEViT 集成到 k 最近邻 (k-NN) 分类中可产生与最先进的计算机视觉模型相当的分类精度,同时增加了说明类之间差异的功能。 CEViT 的解释可能会受到先前案例的影响,以说明与这些案例相关的相似之处。

使语言模型与文本反馈保持一致

分类: 计算和语言, 人工智能, 机器学习

作者: Saüc Abadal Lloret, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16970v1

摘要: 我们提出了 ALT(与文本反馈对齐),这是一种将语言模型与文本中表达的用户偏好保持一致的方法。我们认为文本提供了更大的表现力,使用户能够提供比简单的比较偏好更丰富的反馈,并且这种更丰富的反馈可以导致更高效和有效的对齐。 ALT 通过根据文本反馈调节模型的生成来调整模型。我们的方法仅依赖于语言建模技术,并且需要最少的超参数调整,尽管它仍然具有基于 RL 的对齐算法的主要优点,并且可以有效地从文本反馈中学习。我们探索文本反馈在不同任务中的功效和效率,例如毒性减少、总结和对话响应生成。我们发现 ALT 在毒性降低任务方面优于 PPO,同时仅能在 20% 的样本中匹配其总结性能。我们还探讨了如何将 ALT 与现有大语言模型提供的反馈结合使用,其中我们探索了提供受约束和无约束文本反馈的大语言模型。我们还概述了使模型与自然语言反馈保持一致的未来方向。

图稀疏优化中的随机方差减少迭代硬阈值

分类: 机器学习, 人工智能, 机器学习

作者: Derek Fox, Samuel Hernandez, Qianqian Tong

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16968v1

摘要: 随机优化算法由于其每次迭代成本较低而被广泛用于大规模数据分析,但它们经常受到固有方差引起的缓慢渐近收敛的影响。因此,方差减少技术被用来在利用稀疏诱导范数或 $\ell_0$-范数的结构化稀疏模型中解决这个问题。然而,这些技术并不直接适用于复杂(非凸)图稀疏模型,而复杂(非凸)图稀疏模型在疾病爆发监测和社交网络分析等应用中至关重要。在本文中,我们介绍了两种基于随机方差减少梯度的方法来解决图稀疏性优化:GraphSVRG-IHT 和 GraphSCSG-IHT。我们提供了理论分析的通用框架,证明我们的方法具有线性收敛速度。大量实验验证

建立综合决策框架,以优化 DSA 中风诊断和不确定性下的治疗

分类: 人工智能, 计算机视觉和模式识别, 图像和视频处理

作者: Nur Ahmad Khatim, Ahmad Azmul Asmar Irfan, Amaliya Mata'ul Hayah, Mansur M. Arief

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16962v1

摘要: 这项研究解决了不确定性下中风诊断和治疗的挑战,考虑到动脉瘤、动静脉畸形 (AVM) 和闭塞等中风疾病的快速进展和严重后果,这是一个关键问题。当前的诊断方法,包括数字减影血管造影 (DSA),由于成本高且具有侵入性而面临局限性。为了克服这些挑战,我们提出了一种使用部分可观察马尔可夫决策过程(POMDP)框架的新方法。我们的模型将先进的诊断工具和治疗方法与决策算法相结合,该算法考虑了中风诊断中固有的不确定性。我们的方法结合了 CT 扫描、Siriraj 评分和 DSA 报告的噪声观察结果,为后续的治疗选择提供信息。我们利用在线求解器 DESPOT,它采用树搜索方法和粒子过滤器,来模拟潜在的未来场景并指导我们的策略。结果表明,我们的 POMDP 框架平衡了诊断和治疗目标,在通过 DSA 等侵入性手术进行精确中风识别的需求与有限医疗资源的限制(需要更具成本效益的策略,例如在医院或在医院进行)之间进行了权衡。 - 家庭观察,仅依靠模拟展示而不强加任何先验知识。我们的研究做出了重大贡献,提出了一个系统框架,该框架最佳地整合了中风的诊断和治疗过程并考虑了各种不确定性,从而改善了中风管理的护理和结果。

Cheems:奇妙的矩阵更高效、更有效的架构

分类: 机器学习, 人工智能

作者: Jingze Shi, Lu He, Yuhan Wang, Tianyu He, Bingheng Wu, Mingkun Hou

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16958v2

摘要: 最近的研究表明,相对位置编码在选择性状态空间模型扫描算法中表现良好,平衡SSM和Attention的架构提高了算法的效率和有效性,而专家混合的稀疏激活降低了训练成本。研究了在结构化状态空间对偶算法中使用不同位置编码的有效性,以及更有效的SSD-Attn内外函数混合方法,并设计了更高效的跨域专家混合。我发现同一个矩阵在不同的算法中非常奇妙,这使得我们能够建立一种新的混合稀疏架构:Cheems。与其他混合架构相比,它在语言建模任务上更加高效、有效。

早期筛选具有增强可解释性的潜在突破性技术:专利特定的分层注意力网络模型

分类: 计算和语言, 人工智能

作者: Jaewoong Choi, Janghyeok Yoon, Changyong Lee

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16939v1

摘要: 尽管机器学习方法对于早期筛选潜在突破性技术很有用,但其实用性往往受到不透明模型的阻碍。为了解决这个问题,我们提出了一种可解释的机器学习方法,使用专利特定的分层注意力网络 (PatentHAN) 模型来预测专利文本的未来引用计数。这种方法的核心是(1)专利特定的预训练语言模型,捕获专利权利要求中技术词汇的含义,(2)分层网络结构,实现权利要求级别的详细分析,以及(3)权利要求-明智的自我关注机制,揭示筛选过程中的关键主张。对 35,376 项药品专利的案例研究证明了我们的方法在早期筛选潜在突破性技术同时确保可解释性方面的有效性。此外,我们使用不同的语言模型和声明类型进行额外的分析,以检查该方法的稳健性。预计所提出的方法将增强专家与机器在识别突破性技术方面的协作,提供从文本挖掘中获得的技术价值的新见解。

通过卷积神经网络生成合成轨迹

分类: 密码学和安全, 人工智能, 机器学习

作者: Jesse Merhi, Erik Buchholz, Salil S. Kanhere

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16938v1

摘要: 位置轨迹为从城市规划到流行病控制的应用提供了宝贵的见解。然而,移动数据也可能泄露个人的敏感信息,例如政治观点、宗教信仰或性取向。现有的用于发布这些数据的隐私保护方法面临着重大的实用程序与隐私权衡。发布通过深度学习生成的合成轨迹数据提供了一个有前途的解决方案。由于轨迹的顺序性质,大多数现有模型都基于循环神经网络 (RNN)。然而,生成对抗网络(GAN)的研究主要采用卷积神经网络(CNN)来生成图像。这种差异提出了计算机视觉的进步是否可以应用于轨迹生成的问题。在这项工作中,我们引入了可逆轨迹到 CNN 转换 (RTCT),它将轨迹调整为适合基于 CNN 模型的格式。我们在概念验证 (PoC) 中将此转换与著名的 DCGAN 集成,并使用跨两个数据集的四个指标来评估其针对基于 RNN 的轨迹 GAN 的性能。与 RNN 模型相比,PoC 在捕获空间分布方面更胜一筹,但难以复制顺序和时间属性。尽管 PoC 的效用不足以满足实际应用,但结果证明了这种转换有促进使用 CNN 进行轨迹生成的潜力,为未来的研究开辟了途径。为了支持持续研究,所有源代码均在开源许可下提供。

合成数据、基于相似性的隐私指标和监管(不)合规性

分类: 密码学和安全, 人工智能, 计算机与社会

作者: Georgi Ganev

发布时间: 2024-07-24

链接: http://arxiv.org/abs/2407.16929v1

摘要: 在本文中,我们认为基于相似性的隐私指标无法确保合成数据的监管合规性。我们的分析和反例表明,它们不能防止孤立和可链接性,并且除其他基本问题外,完全忽略有动机的入侵者测试。

世代约束缩放可以减轻幻觉

分类: 计算和语言, 人工智能, 机器学习

作者: Georgios Kollias, Payel Das, Subhajit Chaudhury

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16908v1

摘要: 解决大语言模型(LLM)中的幻觉问题是一项严峻的挑战。由于幻觉的认知机制与记忆有关,因此我们在这里探讨由外显记忆机制实现的LLM幻觉。我们凭经验证明,通过简单地缩放限制记忆增强 LLM 解码器中生成的读出向量,可以以免训练的方式实现幻觉缓解。我们的方法受到几何启发,在生成类似维基百科的传记条目的任务中,无论是在生成质量还是运行时复杂性方面都优于最先进的大语言模型编辑方法。

平衡多关系图聚类

分类: 机器学习, 人工智能, 社交和信息网络

作者: Zhixiang Shen, Haolan He, Zhao Kang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16863v1

摘要: 多关系图聚类在揭示复杂网络中的潜在模式方面取得了显着的成功。代表性方法设法协调由对比学习的进步所激发的不同观点。我们的实证研究发现现实世界图中普遍存在不平衡现象,这在原则上与对齐的动机相矛盾。在本文中,我们首先提出了一种新的指标,即聚合类距离,以凭经验量化不同图之间的结构差异。为了解决视图不平衡的挑战,我们提出平衡多关系图聚类(BMGC),包括无监督的主导视图挖掘和双信号引导表示学习。它在整个训练过程中动态挖掘主导视图,通过表示学习协同提高聚类性能。理论分析保证了主流观点挖掘的有效性。对现实世界和合成数据集的广泛实验和深入分析表明 BMGC 实现了最先进的性能,强调了其在解决多关系图固有的视图不平衡方面的优越性。源代码和数据集可在 https://github.com/zxlearningdeep/BMGC 获取。

Synth4Kws:在资源匮乏的环境中用于用户定义的关键字识别的合成语音

分类: 音频和语音处理, 人工智能

作者: Pai Zhu, Dhruuv Agarwal, Jacob W. Bartel, Kurt Partridge, Hyun Jin Park, Quan Wang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16840v1

摘要: 开发高质量自定义关键词识别 (KWS) 模型的挑战之一是收集涵盖各种语言、短语和说话风格的训练数据的过程漫长且昂贵。我们推出 Synth4Kws - 一个利用文本转语音 (TTS) 合成数据在不同资源设置中自定义 KWS 的框架。在没有真实数据的情况下,我们发现增加 TTS 短语多样性和话语采样单调地提高了模型性能,正如通过语音命令数据集的 11k 话语的 EER 和 AUC 指标所评估的那样。在低资源环境下,以 50k 条真实话语作为基线,我们发现使用最佳数量的 TTS 数据可以将 EER 提高 30.1%,将 AUC 提高 46.7%。此外,我们将 TTS 数据与不同数量的真实数据混合,并对实现各种质量目标所需的真实数据进行插值。我们的实验基于英语和单个单词的表达,但研究结果可推广到 i18n 语言和其他关键字类型。

CompBench:多模式大语言模型的比较推理基准

分类: 计算机视觉和模式识别, 人工智能, 计算和语言

作者: Jihyung Kil, Zheda Mai, Justin Lee, Zihe Wang, Kerrie Cheng, Lemeng Wang, Ye Liu, Arpita Chowdhury, Wei-Lun Chao

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16837v1

摘要: 比较物体、场景或情况的能力对于日常生活中有效决策和解决问题至关重要。例如,比较苹果的新鲜度可以在杂货店购物时做出更好的选择,而比较沙发的设计有助于优化我们的生活空间的美感。尽管比较能力很重要,但它在通用人工智能(AGI)中很大程度上尚未得到探索。在本文中,我们介绍了 CompBench,这是一个旨在评估多模态大语言模型(MLLM)的比较推理能力的基准。 CompBench 通过面向视觉的问题挖掘和配对图像,涵盖相对比较的八个维度:视觉属性、存在、状态、情感、时间性、空间性、数量和质量。我们使用来自不同视觉数据集的元数据和 CLIP 相似度分数来整理大约 40K 图像对的集合。这些图像对涵盖了广泛的视觉领域,包括动物、时尚、运动以及室外和室内场景。这些问题经过精心设计,旨在辨别两个图像之间的相对特征,并由人工注释者进行标记,以确保准确性和相关性。我们使用 CompBench 来评估最新的 MLLM,包括 GPT-4V(ision)、Gemini-Pro 和 LLaVA-1.6。我们的结果揭示了他们的比较能力的显着缺陷。我们相信 CompBench 不仅揭示了这些局限性,而且还为未来增强 MLLM 的比较能力奠定了坚实的基础。

天气状况分类和灾害预测的多级分层框架

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Harish Neelam

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16834v1

摘要: 本文提出了一个用于天气状况分类和灾害预测的多级分层框架。近年来,数据的重要性显着增长,文本、数字、图像、音频和视频等各种类型发挥着关键作用。其中,图像占可用数据的很大一部分。该应用程序在各种用途上都有前景,特别是与交通管理、造林和天气预报的决策支持系统结合使用时。它在传统天气预报不太准确的情况下特别有用,例如确保自动驾驶汽车在危险天气下的安全运行。虽然之前的研究以较少的类别来研究这个主题,但本文重点关注十一种特定类型的天气图像。目标是创建一个模型,在对大型图像数据集进行训练后可以准确预测天气状况。在现实生活中,准确性对于防止事故至关重要,这使其成为本文的首要任务。这项工作为未来的天气预报应用奠定了基础,特别是在人类专业知识不可用或可能存在偏见的情况下。该框架能够将图像分为露、霜、釉、雾凇、雪、冰雹、雨、闪电、彩虹、沙尘暴等11种天气类别,提供实时天气信息,精度为0.9329。所提出的框架满足了对准确天气分类和灾害预测日益增长的需求,为该领域的各种应用提供了强大的解决方案。

检索增强生成还是长上下文大语言模型?综合研究和混合方法

分类: 计算和语言, 人工智能, 机器学习

作者: Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16833v1

摘要: 检索增强生成 (RAG) 一直是大型语言模型 (LLM) 有效处理过长上下文的强大工具。然而,最近的大语言模型(如 Gemini-1.5 和 GPT-4)显示出直接理解长上下文的卓越能力。我们对 RAG 和长背景 (LC) 大语言模型进行了全面比较,旨在发挥两者的优势。我们使用三个最新的大语言模型在各种公共数据集上对 RAG 和 LC 进行基准测试。结果表明,当资源充足时,LC 在平均性能方面始终优于 RAG。然而,RAG 显着降低的成本仍然是一个明显的优势。基于这一观察,我们提出了自路由,这是一种简单而有效的方法,可基于模型自反射将查询路由到 RAG 或 LC。自路由显着降低了计算成本,同时保持了与 LC 相当的性能。我们的研究结果为使用 RAG 和 LC 的大语言模型的长上下文应用提供了指南。

网络的网络:应用于复合人工智能系统设计的复杂性等级原则

分类: 人工智能

作者: Jared Quincy Davis, Boris Hanin, Lingjiao Chen, Peter Bailis, Ion Stoica, Matei Zaharia

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16831v1

摘要: 随着从业者寻求超越整体模型当前的可靠性和质量前沿,越来越多地采用由许多语言模型推理调用组成的复合人工智能系统。在这项工作中,我们构建了系统,我们将其称为网络的网络(NoN),围绕生成提议的答案和验证其正确性之间的区别进行组织,这是复杂性理论中的一个基本概念,我们根据经验将其扩展到语言模型(LM)。我们引入了带有 K 个生成器的基于验证者的判断 NoN,这是“best-of-K”或“基于判断”的复合 AI 系统的实例。通过对素因数分解等合成任务和 MMLU 等核心基准进行实验,我们展示了显着的性能提升。例如,在分解两个 3 位数素数的乘积时,简单的 NoN 将准确度从 3.7% 提高到 36.6%。在 MMLU 上,仅使用 3 个生成器的基于验证者的判断结构比单个 GPT-4-Turbo 调用的准确性提高了 2.8%。我们的分析表明,这些收益在验证比生成明显容易的领域中最为明显——我们认为这种特征包含了许多推理和程序性知识任务,但通常不适用于基于事实和陈述性知识的设置。对于基于数学和形式逻辑推理的 MMLU 科目,我们观察到 5-8% 或更高的增益,而其他学科(如地理和宗教)则没有增益。我们为 ML 从业者提供了关键要点,包括考虑验证复杂性的重要性、见证格式对可验证性的影响,以及确定这种 NoN 方法对于给定问题分布的潜在好处的简单测试。这项工作旨在为复合人工智能系统设计的未来研究和实践提供信息。

基于多目标会话的推荐系统的帕累托前沿近似

分类: 信息检索, 人工智能, 机器学习

作者: Timo Wilm, Philipp Normann, Felix Stepprath

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16828v1

摘要: 这项工作介绍了 MultiTRON,这是一种使用变压器神经网络将 Pareto 前沿逼近技术应用于基于多目标会话的推荐系统的方法。我们的方法通过对采样偏好向量进行训练来优化点击率和转化率等关键指标之间的权衡。一个显着的优点是,训练后,单个模型可以访问整个帕累托前沿,从而可以通过调整对目标进行加权的附加输入向量来对其进行定制,以满足不同利益相关者的特定要求。我们通过广泛的离线和在线评估来验证模型的性能。为了更广泛的应用和研究,源代码可从 https://github.com/otto-de/MultiTRON 获取。结果证实了该模型能够有效管理多个推荐目标,为满足不同的业务需求提供灵活的工具。

使用临床知识图和数据驱动量化检测黑色素瘤的 AI 增强 7 点检查表

分类: 计算机视觉和模式识别, 人工智能

作者: Yuheng Wang, Tianze Yu, Jiayue Cai, Sunil Kalia, Harvey Lui, Z. Jane Wang, Tim K. Lee

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16822v1

摘要: 七点检查表 (7PCL) 广泛用于皮肤镜检查,以识别需要紧急医疗护理的恶性黑色素瘤病变。它将分值分配给七个属性:主要属性每个值两分,次要属性每个值一分。总分三分或更高提示需要进一步评估,通常包括活检。然而,当前方法的一个显着限制是属性的统一加权,这导致不精确并忽略了它们的互连性。先前的深度学习研究将每个属性的预测与预测黑色素瘤同等重要,但未能认识到黑色素瘤属性的临床意义。为了解决这些局限性,我们引入了一种新颖的诊断方法,该方法集成了两个创新元素:基于临床知识的拓扑图(CKTG)和具有数据驱动权重标准的梯度诊断策略(GD-DDW)。 CKTG 将 7PCL 属性与诊断信息集成,揭示内部和外部关联。通过采用自适应感受域和加权边缘,我们在黑色素瘤的相关特征之间建立了联系。同时,GD-DDW 模仿皮肤科医生的诊断过程,他们首先观察与黑色素瘤相关的视觉特征,然后做出预测。我们的模型对同一病变使用两种成像方式,确保全面的特征采集。我们的方法在预测恶性黑色素瘤及其特征方面表现出色,平均 AUC 值为 85%。这在 EDRA 数据集上得到了验证,EDRA 数据集是 7 点检查表算法的最大公开数据集。具体来说,综合加权系统可以为临床医生的评估提供有价值的数据驱动基准。

寻找多目标强化学习中的架构和损失函数

分类: 机器学习, 人工智能

作者: Mikhail Terekhov, Caglar Gulcehre

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16807v1

摘要: 多目标强化学习 (MORL) 对于解决现实世界中复杂的强化学习问题至关重要,这些问题通常需要在多个效用函数之间进行权衡。然而,由于基于深度学习的函数逼近器的学习动态不稳定,MORL 具有挑战性。最常用的研究路径是探索 MORL 不同的基于价值的损失函数来克服这个问题。我们的工作根据经验探索了无模型的政策学习损失函数以及不同架构选择的影响。我们引入了两种不同的方法:多目标近端策略优化(MOPPO),它将 PPO 扩展到 MORL,以及多目标优势演员批评家(MOA2C),它充当我们消融中的简单基线。我们提出的方法易于实现,只需要在函数逼近器级别进行少量修改。我们对 MORL Deep Sea Treasure、Minecart 和 Reacher 环境进行综合评估,结果表明 MOPPO 有效捕获了 Pareto 前沿。我们广泛的消融研究和实证分析揭示了不同架构选择的影响,强调了 MOPPO 与 Pareto 条件网络 (PCN) 和 Envelope Q-learning 等流行的 MORL 方法相比,在 MORL 指标(包括超容量和预期效用)方面的稳健性和多功能性。

心理健康中的多模式机器学习:数据、算法和挑战的调查

分类: 机器学习, 人工智能, 计算机与社会, 新兴技术

作者: Zahraa Al Sahili, Ioannis Patras, Matthew Purver

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16804v1

摘要: 机器学习 (ML) 在检测、诊断和治疗心理健康障碍方面的应用越来越受到关注。传统上,研究集中于单一模式,例如临床笔记中的文本、语音样本中的音频或交互模式的视频。最近,结合了多种模式信息的多模式机器学习在提供对人类行为模式的新颖见解以及识别心理健康症状和风险因素方面表现出了巨大的前景。尽管具有潜力,心理健康领域的多模式机器学习仍然是一个新兴领域,在有效开发实际应用之前面临着一些复杂的挑战。这项调查全面概述了心理健康领域的数据可用性和当前最先进的多模式机器学习应用。它讨论了推进该领域必须解决的关键挑战。这项调查的见解旨在加深对多模式机器学习在心理健康领域的潜力和局限性的理解,指导这一不断发展的领域的未来研究和开发。

用于零样本人类动作识别的融合和跨模态传输

分类: 计算机视觉和模式识别, 人工智能, 人机交互, 机器学习, 信号处理

作者: Abhi Kamboj, Anh Duy Nguyen, Minh Do

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16803v1

摘要: 尽管生活在一个多感官的世界,大多数人工智能模型仅限于对人类运动和行为的文本和视觉解释。惯性测量单元 (IMU) 提供显着信号来了解人体运动;然而,由于数据的不可解释性和稀缺性,它们的使用具有挑战性。我们研究了一种使用为人类动作识别(HAR)设计的信息联合表示空间的结构在视觉和惯性模态之间传递知识的方法。我们将所得的融合和跨模态传输 (FACT) 方法应用于一种新颖的设置,其中模型在训练期间无法访问标记的 IMU 数据,并且能够在测试期间仅使用 IMU 数据执行 HAR。对各种 RGB-IMU 数据集进行的大量实验表明,FACT 在零样本跨模态迁移方面显着优于现有方法。

从带有噪声标签的长尾数据中进行分布感知的鲁棒学习

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Jae Soon Baik, In Young Yoon, Kun Hoon Kim, Jun Won Choi

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16802v1

摘要: 深度神经网络使用大型、注释良好的数据集在各个领域展示了显着的进步。然而,现实世界的数据通常表现出长尾分布和标签噪声,从而显着降低泛化性能。最近解决这些问题的研究主要集中在噪声样本选择方法上,这些方法根据每个目标类别内的高置信度样本来估计每个类别的质心。这些方法的性能受到限制,因为它们仅使用每个类内的训练样本进行类质心估计,使得质心的质量容易受到长尾分布和噪声标签的影响。在这项研究中,我们提出了一个强大的训练框架,称为分布感知样本选择和对比学习(DaSC)。具体来说,DaSC 引入了分布感知类质心估计 (DaCC) 来生成增强的类质心。 DaCC 对所有样本的特征进行加权平均,权重根据模型预测确定。此外,我们提出了一种有信心的对比学习策略来获得平衡和鲁棒的表示。训练样本分为高置信度样本和低置信度样本。然后,我们的方法使用高置信度样本应用半监督平衡对比损失(SBCL),利用可靠的标签信息来减轻类别偏差。对于低置信度样本,我们的方法计算混合增强实例辨别损失(MIDL),以自我监督的方式改进它们的表示。我们在 CIFAR 和真实世界噪声标签数据集上的实验结果表明,与之前的方法相比,所提出的 DaSC 具有卓越的性能。

Range View 3D 物体检测中最重要的是什么

分类: 计算机视觉和模式识别, 人工智能, 机器学习

作者: Benjamin Wilson, Nicholas Autio Mitchell, Jhony Kaesemodel Pontes, James Hays

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16789v1

摘要: 基于激光雷达的感知管道依靠 3D 对象检测模型来解释复杂的场景。虽然激光雷达存在多种表示形式,但范围视图很有吸引力,因为它对整个激光雷达传感器输出进行了无损编码。在这项工作中,我们在范围视图 3D 对象检测模型中实现了最先进的技术,而无需使用过去范围视图文献中提出的多种技术。我们探索了两个属性截然不同的现代数据集的范围视图 3D 对象检测:Argoverse 2 和 Waymo Open。我们的研究揭示了关键的见解:(1) 输入特征维度显着影响整体性能,(2) 令人惊讶的是,与更复杂的基于 IoU 的损失相比,采用基于 3D 空间邻近度的分类损失效果同样好甚至更好,(3)通过简单的距离二次采样技术解决不均匀激光雷达密度的问题优于现有的多分辨率、距离调节网络。我们的实验表明,不需要最近的范围视图文献中提出的技术来实现最先进的性能。结合上述发现,我们建立了一种新的最先进的距离视图 3D 物体检测模型——在 Waymo Open 数据集上将 AP 提高了 2.2%,同时保持了 10 Hz 的运行时间。我们在 Argoverse 2 数据集上建立了第一个范围视图模型,其性能优于基于体素的强大基线。所有模型都是多类且开源的。代码可在 https://github.com/benjaminrwilson/range-view-3d-detection 获取。

PrISM-Observer:帮助用户执行使用智能手表感知的日常程序的干预代理

分类: 人机交互, 人工智能

作者: Riku Arakawa, Hiromu Yakura, Mayank Goel

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16785v1

摘要: 我们经常执行包含一组原子步骤的程序(例如烹饪)。通常,无意的遗漏或错误的单个步骤可能会导致严重的后果,特别是对于那些经历痴呆症等认知挑战的人。本文介绍了 PrISM-Observer,这是一种基于智能手表的上下文感知实时干预系统,旨在通过防止错误来支持日常任务。与需要用户寻找信息的传统系统不同,代理观察用户行为并主动干预。这种能力是通过代理通过多模态感知不断更新其对用户行为的实时信念并预测最佳干预时刻和方法的能力来实现的。我们首先通过对三个具有不同复杂性的数据集进行评估来验证我们框架的步数跟踪性能。然后,我们使用智能手表实现了实时代理系统,并在烹饪任务场景中进行了用户研究。该系统产生了有用的干预措施,我们从参与者那里获得了积极的反馈。 PrISM-Observer 对日常任务的普遍适用性有望带来广泛的应用,例如,包括为需要更多干预的用户提供支持,例如痴呆症患者或手术后患者。

有限样本的无限结局:作为自下而上提案的自上而下贝叶斯过滤的开放式目标推理

分类: 人工智能

作者: Tan Zhi-Xuan, Gloria Kang, Vikash Mansinghka, Joshua B. Tenenbaum

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16770v1

摘要: 人类目标的空间极其广阔;然而,仅仅通过观看一个场景或阅读一个故事的片刻,我们似乎就可以自发地推断出所涉及的人和角色的一系列看似合理的动机。尽管他们可能追求无限的目标,但如何解释这种凭直觉感知其他智能体目标的非凡能力呢?这与我们对其他人作为近似理性主体的理解有何一致?在本文中,我们介绍了开放式目标推理的顺序蒙特卡洛模型,该模型将自上而下的贝叶斯逆规划与基于共现子目标统计的自下而上采样相结合。通过提出与代理实现的子目标相关的目标假设,我们的模型无需详尽的搜索即可快速生成合理的目标,然后过滤掉考虑到迄今为止所采取的行动的不合理目标。我们在名为“块词”的目标推理任务中验证了该模型,参与者尝试猜测某人从字母块中堆叠的单词。与启发式自下而上的猜测和对数百个目标的精确贝叶斯推理相比,我们的模型更好地预测了人类目标推理的均值、方差、效率和资源合理性,以认知能力的一小部分实现了与精确模型相似的准确性。成本,同时还解释了由误导性的自下而上线索引起的花园路径效应。因此,我们的实验强调了结合自上而下和自下而上模型来解释人类心理理论的速度、准确性和普遍性的重要性。

使用 Lifelong ICL 和 Task Haystack 对长上下文语言模型进行压力测试

分类: 计算和语言, 人工智能, 机器学习

作者: Xiaoyue Xu, Qinyuan Ye, Xiang Ren

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16695v1

摘要: 我们引入了 Lifelong ICL,这是一种问题设置,挑战长上下文语言模型 (LM),通过上下文学习 (ICL) 从一系列语言任务中学习。我们进一步介绍了 Task Haystack,这是一个评估套件,致力于评估和诊断长上下文 LM 如何利用 Lifelong ICL 中的上下文。当给出任务指令和测试输入时,长上下文 LM 预计会利用终身 ICL 提示中的相关演示,避免其他任务的干扰和干扰,并实现不明显比单任务 ICL 基线差的测试精度。大海捞针任务从广泛采用的“大海捞针”(NIAH)评估中汲取灵感,但提出了新的独特挑战。它要求模型(1)利用更深入理解的上下文,而不是简单的复制和粘贴; (2) 浏览不断发展的主题和任务的长流,这非常接近长上下文 LM 在现实世界中使用的复杂性。此外,Task Haystack 继承了 NIAH 的可控性,为模型开发人员提供了有效识别模型漏洞的工具和可视化工具。我们使用 Task Haystack 对 12 个长上下文 LM 进行基准测试。我们发现,最先进的封闭模型(例如 GPT-4o)在这种情况下仍然举步维艰,平均失败了 15%,而我们评估的所有开放权重模型都大幅落后,失败了至 61% 的病例。在我们的对照分析中,我们发现注意力分散和新近度偏差等因素是导致这些失败案例的因素。此外,我们观察到,当在测试时解释任务指令或过度重复 ICL 演示时,性能会下降,这引起了人们对当前长上下文 LM 的鲁棒性、指令理解和真实上下文利用的担忧。

OpenDevin:人工智能软件开发人员作为通才代理的开放平台

分类: 软件工程, 人工智能, 计算和语言

作者: Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin, Robert Brennan, Hao Peng, Heng Ji, Graham Neubig

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16741v1

摘要: 软件是我们人类可以使用的最强大的工具之一;它允许熟练的程序员以复杂而深刻的方式与世界互动。与此同时,由于大型语言模型(LLM)的改进,与周围环境交互并影响其变化的人工智能代理也得到了快速发展。在本文中,我们介绍了 OpenDevin,这是一个用于开发强大而灵活的 AI 代理的平台,它以与人类开发人员类似的方式与世界交互:编写代码、与命令行交互以及浏览网页。我们描述了该平台如何实现新代理的实现、与代码执行的沙盒环境的安全交互、多个代理之间的协调以及评估基准的合并。根据我们当前纳入的基准,我们对超过 15 项具有挑战性的任务进行评估,包括软件工程(例如 SWE-Bench)和网页浏览(例如 WebArena)等。 OpenDevin 在 MIT 许可下发布,是一个横跨学术界和工业界的社区项目,拥有来自 160 多名贡献者的超过 1,300 份贡献,并将不断改进。

KAN 或 MLP:更公平的比较

分类: 机器学习, 人工智能

作者: Runpeng Yu, Weihao Yu, Xinchao Wang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16674v1

摘要: 本文没有介绍新方法。相反,它提供了跨各种任务(包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示)的 KAN 和 MLP 模型的更公平、更全面的比较。具体来说,我们控制参数和 FLOP 的数量来比较 KAN 和 MLP 的性能。我们的主要观察是,除了符号公式表示任务外,MLP 通常优于 KAN。我们还对 KAN 进行了消融研究,发现其在符号公式表示方面的优势主要源于其 B 样条激活函数。当B样条应用于MLP时,符号公式表示的性能显着提高,超越或匹配KAN。然而,在 MLP 已经优于 KAN 的其他任务中,B 样条并没有显着提高 MLP 的性能。此外,我们发现在标准的类增量持续学习环境中,KAN 的遗忘问题比 MLP 更严重,这与 KAN 论文中报告的结果不同。我们希望这些结果为 KAN 和其他 MLP 替代方案的未来研究提供见解。项目链接:https://github.com/yu-rp/KANbeFair

PLM-Net:用于基于视觉的自动驾驶车辆横向控制的感知延迟缓解网络

分类: 机器人技术, 人工智能, 机器学习

作者: Aws Khalil, Jaerock Kwon

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16740v1

摘要: 本研究介绍了感知延迟缓解网络 (PLM-Net),这是一种新颖的深度学习方法,用于解决基于视觉的自动驾驶车辆 (AV) 横向控制系统中的感知延迟问题。感知延迟是通过视觉传感器(例如相机)捕获环境和应用操作(例如转向)之间的延迟。这个问题在经典控制方法和基于神经网络的控制方法中都得到了充分研究。使用强大的 GPU 和 FPGA 来减少延迟是可能的,但对于汽车平台来说是不切实际的。 PLM-Net 包括基本模型 (BM) 和定时动作预测模型 (TAPM)。 BM代表原始的车道保持辅助(LKA)系统,而TAPM则预测不同延迟值的未来行动。通过集成这些模型,PLM-Net 减少了感知延迟。最终输出是通过基于实时延迟的 BM 和 TAPM 输出的线性插值确定的。该设计解决了恒定和变化的延迟问题,改善了驾驶轨迹和转向控制。实验结果验证了 PLM-Net 在各种延迟条件下的有效性。源代码:https://github.com/AwsKhalil/oscar/tree/devel-plm-net。

RedAgent:红队大型语言模型与上下文感知自主语言代理

分类: 密码学和安全, 人工智能, 计算和语言

作者: Huiyu Xu, Wenhui Zhang, Zhibo Wang, Feng Xiao, Rui Zheng, Yunhe Feng, Zhongjie Ba, Kui Ren

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16667v1

摘要: 最近,GPT-4 等先进的大型语言模型 (LLM) 已集成到 Code Copilot 等许多实际应用程序中。这些应用程序显着扩大了大语言模型的攻击面,使他们面临各种威胁。其中,通过越狱提示引发毒性反应的越狱攻击引发了严重的安全担忧。为了识别这些威胁,越来越多的红队方法通过制作越狱提示来测试目标 LLM 来模拟潜在的对抗场景。然而,现有的红队方法没有考虑LLM在不同场景下的独特漏洞,导致很难调整越狱提示来发现特定上下文的漏洞。同时,这些方法仅限于使用少量突变操作来完善越狱模板,缺乏适应不同场景的自动化和可扩展性。为了实现上下文感知和高效的红队,我们将现有攻击抽象并建模为一个称为“越狱策略”的连贯概念,并提出了一个名为 RedAgent 的多代理 LLM 系统,该系统利用这些策略来生成上下文感知的越狱提示。通过在额外的内存缓冲区中自我反思上下文反馈,RedAgent 不断学习如何利用这些策略在特定上下文中实现有效的越狱。大量实验表明,我们的系统只需五个查询即可越狱大多数黑盒 LLM,将现有红队方法的效率提高两倍。此外,RedAgent可以更有效地越狱定制的LLM应用程序。通过为 GPT 上的应用程序生成上下文感知的越狱提示,我们发现了这些现实应用程序的 60 个严重漏洞,每个漏洞仅需要两次查询。我们已报告所有发现的问题,并与 OpenAI 和 Meta 进行沟通以修复错误。

使用事件相机进行瞳孔跟踪的框架

分类: 计算机视觉和模式识别, 人工智能

作者: Khadija Iddrisu, Waseem Shariff, Suzanne Little

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16665v1

摘要: 扫视是双眼同时发生的极其快速的运动,通常在一个人将焦点从一个物体转移到另一个物体时观察到。这些运动是人类最快的运动之一,并且有可能达到比眨眼更快的速度。人类在扫视期间眼睛的峰值角速度可高达 700{\deg}/s,尤其是在覆盖 25{\deg} 视角的较大扫视期间。先前的研究已经证明,通过眼跳研究在理解神经系统疾病方面取得了令人鼓舞的结果。扫视检测的一个必要步骤涉及准确识别眼睛内瞳孔的精确位置,从中可以推断出诸如注视角度等附加信息。传统的基于帧的相机通常难以满足跟踪快速运动所需的高时间精度,从而导致运动模糊和延迟问题。另一方面,事件摄像机通过异步记录视觉场景的变化并提供高时间分辨率和低延迟,提供了一种有前途的替代方案。通过弥合传统计算机视觉和基于事件的视觉之间的差距,我们将事件呈现为可以被标准深度学习算法轻松利用的框架。该方法利用最先进的目标检测技术 YOLOv8 来处理这些帧,以便使用可公开访问的 Ev-Eye 数据集进行瞳孔跟踪。实验结果证明了该框架的有效性,突出了其在神经科学、眼科和人机交互方面的潜在应用。

一种用于学习双曲空间中分层嵌入的几何感知算法

分类: 机器学习, 人工智能

作者: Zhangyu Wang, Lantian Xu, Zhifeng Kong, Weilong Wang, Xuyu Peng, Enyang Zheng

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16641v1

摘要: 双曲嵌入是一类表示学习方法,当数据可以抽象为树状图时,它可以提供有竞争力的性能。然而,在实践中,由于双曲空间和欧几里德空间之间的几何形状不同,学习分层数据的双曲嵌入很困难。为了解决这些困难,我们首先将损害嵌入性能的三种疾病分类。然后,我们开发了一种几何感知算法,使用膨胀运算和传递闭包正则化来解决这些问题。我们凭经验验证了这些技术,并对膨胀操作背后的机制进行了理论分析。对合成数据集和真实数据集的实验揭示了我们算法的卓越性能。

路线修正:使用综合偏好进行安全调整

分类: 计算和语言, 人工智能, 机器学习

作者: Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16637v1

摘要: 大型语言模型 (LLM) 生成有害内容的风险成为一个严重问题。本文提出了一项关于评估和提高大语言模型执行“课程校正”任务的能力的系统研究,即该模型可以避免自主生成有害内容。首先,我们引入了用于定量评估的 \textsc{C$^2$-Eval} 基准,并分析了 10 个流行的大语言模型,揭示了当前经过安全调整的大语言模型在课程校正方面的不同熟练程度。为了改进,我们建议通过偏好学习对大语言模型进行微调,强调及时修正课程的偏好。使用自动化管道,我们创建了 \textsc{C$^2$-Syn},这是一个具有 750K 成对偏好的合成数据集,通过数据驱动的偏好学习向模型传授及时修正课程的概念。对 2 个大语言模型 \textsc{Llama2-Chat 7B} 和 \textsc{Qwen2 7B} 的实验表明,我们的方法有效地增强了课程纠正技能,而不影响总体表现。此外,它还有效提高了大语言模型的安全性,特别是在抵御越狱攻击方面。

知识驱动的人工智能生成的数据可实现准确且可解释的乳腺超声诊断

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别, 人机交互

作者: Haojun Yu, Youcheng Li, Nan Zhang, Zihan Niu, Xuantong Gong, Yanwen Luo, Quanlin Wu, Wangyan Qin, Mengyuan Zhou, Jie Han, Jia Tao, Ziwei Zhao, Di Dai, Di He, Dong Wang, Binghui Tang, Ling Huo, Qingli Zhu, Yong Wang, Liwei Wang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16634v1

摘要: 数据驱动的深度学习模型已显示出协助放射科医生进行乳腺超声 (US) 诊断的强大能力。然而,它们的有效性受到训练数据的长尾分布的限制,这在极少数情况下会导致不准确。在这项研究中,我们解决了使用长尾数据提高罕见病例诊断模型性能的长期挑战。具体来说,我们引入了一个管道 TAILOR,它构建一个知识驱动的生成模型来生成定制的合成数据。该生成模型使用 3,749 个病变作为源数据,可以生成数百万张乳房超声图像,特别是对于容易出错的罕见病例。生成的数据可进一步用于构建诊断模型,以实现准确且可解释的诊断。在前瞻性外部评估中,我们的诊断模型在特异性和敏感性方面比九位放射科医生的平均表现高出 33.5%,通过提供可解释的决策过程的预测来提高他们的表现。此外,在导管原位癌 (DCIS) 方面,我们的诊断模型大幅优于所有放射科医生,源数据中仅存在 34 个 DCIS 病变。我们相信 TAILOR 可以扩展到各种疾病和成像模式。

从机器学习的角度实现印迹:潜在空间的相关性

分类: 神经和进化计算, 人工智能

作者: J Marco de Lucas

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16616v1

摘要: 在我们之前的工作中,我们提出大脑中的印迹可以在生物学上实现为循环神经网络上的自动编码器。这些自动编码器将包含基本的兴奋/抑制主题,并根据简单的稳态标准进行信用分配。这篇简短的说明检查了这些自动编码器中潜在空间的相关性。我们考虑这些自动编码器的维数与被编码信息的复杂性之间的关系。我们讨论了观察到的物种间连接组差异如何与它们的认知能力联系起来。最后,我们将这一分析与一个基本但经常被忽视的事实联系起来:人类认知可能受到我们自己的大脑结构的限制。然而,这种限制并不适用于机器学习系统,我们应该意识到需要学习如何利用这种增强的自然视觉。

可信联邦学习中隐私泄露的理论分析:线性代数和优化理论的视角

分类: 密码学和安全, 人工智能, 机器学习, 机器学习

作者: Xiaojin Zhang, Wei Chen

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16735v1

摘要: 联邦学习已成为协作模型训练的一种有前景的范例,同时还能保护数据隐私。然而,最近的研究表明它很容易受到各种隐私攻击,例如数据重建攻击。在本文中,我们从线性代数和优化理论两个角度对联邦学习中的隐私泄露进行了理论分析。从线性代数的角度,我们证明当批次数据的雅可比矩阵不是满秩时,存在不同批次的数据产生相同的模型更新,从而保证一定程度的隐私。我们推导了批量大小的充分条件以防止数据重建攻击。从优化理论的角度来看,我们根据批量大小、失真程度和其他几个因素建立了隐私泄漏的上限。我们的分析深入了解了隐私泄露与联邦学习各个方面之间的关系,为设计保护隐私的联邦学习算法提供了理论基础。

Lawma:法律任务专业化的力量

分类: 计算和语言, 人工智能, 机器学习

作者: Ricardo Dominguez-Olmedo, Vedant Nanda, Rediet Abebe, Stefan Bechtold, Christoph Engel, Jens Frankenreiter, Krishna Gummadi, Moritz Hardt, Michael Livermore

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16615v1

摘要: 法律文本的注释和分类是实证法律研究的核心组成部分。传统上,这些任务通常被委托给训练有素的研究助理。在语言模型进步的推动下,实证法律学者越来越多地转向促进商业模型,希望它能够减轻人工注释的巨大成本。尽管使用量不断增加,但我们对如何最好地利用大型语言模型来完成法律任务的理解仍然有限。我们对 260 个法律文本分类任务进行了全面研究,这些任务几乎都是机器学习社区的新任务。从 GPT-4 作为基线开始,我们证明它具有不平凡但变化很大的零样本精度,通常表现出可能不足以满足法律工作的性能。然后我们证明,经过轻微微调的 Llama 3 模型在几乎所有任务上都远远优于 GPT-4,通常是两位数的百分点。我们发现较大的模型比较小的模型对微调的响应更好。几十到几百个例子就足以达到很高的分类精度。值得注意的是,与为每个任务使用单独的模型相比,我们可以同时对所有 260 个任务的单个模型进行微调,但准确性会略有损失。我们的工作为促进商业模式的主流做法提供了可行的替代方案。对于具有一些可用标记数据的具体法律任务,研究人员最好使用经过微调的开源模型。

显而易见:形态计算驱动软机器人的自适应行为

分类: 机器人技术, 人工智能, 神经和进化计算

作者: Alican Mertan, Nick Cheney

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16613v1

摘要: 在当代人工智能和机器人技术中,普遍的做法是分别假设一个由神经网络建模的大脑,并利用它来学习智能和自适应行为。虽然这种方法对于许多类型的任务都非常有效,但它并不是自然界中存在的唯一智能类型。在这项工作中,我们研究了如何在没有单独的、明确的机器人控制大脑的情况下创建智能行为,而是仅仅作为机器人身体内发生的计算的结果。具体来说,我们表明,通过使用简单的反应材料,可以在基于体素的虚拟软机器人中创建自适应和复杂的行为,这些材料可以在不同的环境线索下主动改变机器人的形状,从而改变其行为。我们展示了闭环形态计算思想的概念证明,并表明在我们的实现中,它能够实现模仿逻辑门的行为,使我们能够演示如何组合这些行为以建立更复杂的集体行为。

本地与全球持续学习

分类: 机器学习, 人工智能

作者: Giulia Lanzillotta, Sidak Pal Singh, Benjamin F. Grewe, Thomas Hofmann

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16611v1

摘要: 持续学习是在保留过去获得的知识的同时将新信息集成到模型中的问题。尽管近年来取得了明显的进步,但持续学习的问题仍然是一个悬而未决的问题。更好地理解现有持续学习算法成功和失败背后的机制可以解锁新的成功策略的开发。在这项工作中,我们从多任务损失近似的角度看待持续学习,并比较了两种替代策略,即局部近似和全局近似。我们根据所使用的近似对现有的持续学习算法进行分类,并评估这种区分在常见的持续学习设置中的实际效果。此外,我们研究了局部多项式近似情况下的最佳持续学习目标,并提供了现有算法实现的示例最优目标

结肠息肉的深度贝叶斯分割:医学成像中经过良好校准的预测

分类: 图像和视频处理, 人工智能, 计算机视觉和模式识别

作者: Daniela L. Ramos, Hector J. Hortua

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16608v1

摘要: 结直肠息肉通常是良性改变,如果没有及时发现并成功治疗,可能会发展为癌症并引起结肠粘膜的影响,称为腺癌。如今深度学习的进步已经证明了在医疗诊断应用中的图像分类和检测方面取得显着性能的能力。然而,这些模型很容易过度拟合,并且仅基于点估计做出决策可能会提供不正确的预测。因此,为了获得更明智的决策,我们必须考虑点估计及其可靠的不确定性量化。在本文中,我们基于后验分布的灵活性构建了不同的贝叶斯神经网络方法来开发结直肠息肉图像的语义分割。我们发现这些模型不仅在医学数据集的分割方面提供了最先进的性能,而且还产生了准确的不确定性估计。我们在 UNET、FPN 和 LINKNET 架构上应用了乘法归一化流 (MNF) 和重新参数化技巧,并在确定性和贝叶斯版本中使用多个骨干网进行了测试。我们报告说,具有 MNF 的 FPN + EfficientnetB7 架构是最有前途的选择,因为其 IOU 为 0.94,预期校准误差 (ECE) 为 0.004,再加上其在识别难以检测的结直肠息肉方面的优势,这在临床领域是有效的早期检测可以预防结肠癌的发展。

政策镜像下降的功能加速

分类: 机器学习, 人工智能, 机器学习

作者: Veronica Chelu, Doina Precup

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16602v1

摘要: 我们将功能加速应用于策略镜像下降 (PMD) 一般算法系列,其中涵盖了强化学习 (RL) 中的各种新颖和基本方法。利用对偶性,我们提出了基于动量的 PMD 更新。通过采用函数式路线,我们的方法独立于策略参数化,适用于大规模优化,涵盖了之前动量在策略参数层面的应用作为一个特例。我们从理论上分析了这种方法的几个属性,并通过数值消融研究进行补充,这有助于说明相对于该空间中不同算法设计选择的值多胞体的策略优化动态。我们进一步用数字表征了与功能加速相关的问题设置的几个特征,最后,我们研究了近似对其学习机制的影响。

GenRec:用于推荐的灵活数据生成器

分类: 信息检索, 人工智能, 社交和信息网络

作者: Erica Coppolillo, Simone Mungari, Ettore Ritacco, Giuseppe Manco

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16594v1

摘要: 现实数据集的稀缺对推荐系统和社交网络分析方法和技术的基准测试提出了重大挑战。一个常见且有效的解决方案是生成模拟真实交互的合成数据。然而,尽管已经提出了各种方法,但现有文献仍然缺乏完全适应性并允许轻松操纵底层数据分布和结构属性的生成器。为了解决这个问题,当前的工作引入了 GenRec,这是一种用于生成合成用户-项目交互的新颖框架,该框架表现出在推荐场景中观察到的真实且众所周知的属性。该框架基于基于潜在因素建模的随机生成过程。在这里,可以利用潜在因素来产生长尾偏好分布,同时它们表征用户的子群体和基于主题的项目集群。值得注意的是,所提出的框架非常灵活,并提供了广泛的超参数来定制用户-项目交互的生成。用于执行实验的代码可在 https://anonymous.4open.science/r/GenRec-DED3 上公开获取。

跨治疗领域患者语言的比较研究,以对在线健康讨论中的患者声音进行有效分类

分类: 计算和语言, 人工智能

作者: Giorgos Lysandrou, Roma English Owen, Vanja Popovic, Grant Le Brun, Aryo Pradipta Gema, Beatrice Alex, Elizabeth A. L. Fairley

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16593v1

摘要: 医疗保健专业人员对患者临床经历的看法与现实之间存在着无形的障碍。这种障碍可能是由于环境阻碍患者与医疗保健专业人员公开分享他们的经历而引起的。随着患者在社交媒体上更坦诚地讨论和交流知识,可以从这些平台中利用有价值的见解。然而,社交媒体上大量的非患者帖子需要过滤掉这些不相关的内容,以区分患者的真实声音,我们将这一任务称为患者声音分类。在本研究中,我们分析了语言特征在准确分类患者声音方面的重要性。我们的研究结果强调了语言和统计文本相似性分析在识别患者群体之间的常见模式方面的重要作用。这些结果暗示患者在疾病水平和不同治疗领域的表达方式存在更明显的差异。此外,我们在具有相似语言模式的组合数据集上微调了预训练的语言模型,从而实现了高度准确的自动患者语音分类。作为该主题的开创性研究,我们专注于从社交媒体中提取真实的患者体验,这是提高医疗保健标准和培育以患者为中心的方法的关键一步。

一种解决最大 $k$ 缺陷集团问题的更快分支算法

分类: 数据结构和算法, 人工智能

作者: Chunyu Luo, Yi Zhou, Zhengren Wang, Mingyu Xiao

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16588v2

摘要: 无向图 $G$ 的 $k$ 缺陷团是其顶点的子集,它产生一个几乎完整的图,最多有 $k$ 缺失边。最大 $k$ 缺陷集团问题,要求从给定图中找出最大的 $k$ 缺陷集团,在许多应用中都很重要,例如社交和生物网络分析。在本文中,我们提出了一种新的分支算法,该算法利用 $k$ 缺陷团的结构特性,并使用有效的最大团算法作为子程序。因此,该算法比现有算法具有更好的渐近运行时间。我们还研究了上限技术,并利用顶点对之间的 \textit{冲突关系} 提出了一个新的上限。由于冲突关系在许多图问题中很常见,因此我们相信该技术具有潜在的推广性。最后,实验表明,我们的算法在广泛的开放基准测试中优于最先进的求解器。

PyBench:在各种实际编码任务上评估 LLM Agent

分类: 软件工程, 人工智能

作者: Yaolun Zhang, Yinxu Pan, Yudong Wang, Jie Cai, Zhi Zheng, Guoyang Zeng, Zhiyuan Liu

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16732v1

摘要: LLM Agent配备代码解释器,能够自动解决现实世界的编码任务,例如数据分析和图像编辑。然而,现有的基准测试要么主要关注简单的任务,例如完成几行代码,要么关注存储库级别的极其复杂和特定的任务,这两者都不能代表各种日常编码任务。为了解决这一差距,我们引入了 \textbf{PyBench},这是一个涵盖现实世界任务的五个主要类别、涵盖 10 多种文件类型的基准测试。给定高级用户查询和相关文件,LLM Agent 需要通过代码解释器推理并执行 Python 代码几轮,然后才能做出正式响应以满足用户的要求。要成功解决 PyBench 中的任务,需要对各种 Python 包有深入的了解、卓越的推理能力以及合并执行代码反馈的能力。我们的评估表明,当前的开源大语言模型正在努力完成这些任务。因此,我们对四种数据集进行了分析和实验,证明PyBench需要综合能力。我们经过微调的 8B 尺寸模型:\textbf{PyLlama3} 在 PyBench 上实现了令人兴奋的性能,超越了许多 33B 和 70B 尺寸模型。我们的基准、训练数据集和模型位于:\href{https://github.com/Mercury7353/PyBench}{https://github.com/Mercury7353/PyBench}

音频提示适配器:通过轻量级微调释放文本转音乐的音乐编辑能力

分类: 声音, 人工智能, 音频和语音处理

作者: Fang-Duo Tsai, Shih-Lun Wu, Haven Kim, Bo-Yu Chen, Hao-Chung Cheng, Yi-Hsuan Yang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16564v2

摘要: 文本到音乐模型允许用户使用文本命令生成近乎真实的音乐音频。然而,编辑音乐音频仍然具有挑战性,因为在保持简单的用户界面的同时对音频执行细粒度的更改是相互矛盾的。为了应对这一挑战,我们提出了音频提示适配器(或 AP-Adapter),它是预训练文本到音乐模型的轻量级补充。我们利用 AudioMAE 从输入音频中提取特征,并构建基于注意力的适配器,将这些特征输入到 AudioLDM2(一种基于扩散的文本到音乐模型)的内部层。 AP-Adapter 具有 22M 可训练参数,使用户能够使用原始音频和短文本作为输入,利用音乐的全局(例如流派和音色)和本地(例如旋律)方面。通过客观和主观研究,我们在三个任务上评估 AP-Adapter:音色转换、流派转换和伴奏生成。此外,我们还在训练期间展示了其对包含看不见的乐器的域外音频的有效性。

修补 RTC:评估大语言模型的不同软件开发任务

分类: 软件工程, 人工智能

作者: Asankhaya Sharma

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16557v1

摘要: 本文介绍了修补往返正确性 (Patched RTC),这是一种适用于各种软件开发任务的大型语言模型 (LLM) 的新颖评估技术,特别关注“外循环”活动,例如错误修复、代码审查和文档更新。修补的 RTC 扩展了原始的往返正确性方法,可用于任何 LLM 和下游任务,提供一个自我评估框架,无需人工干预即可测量模型响应的一致性和鲁棒性。该研究证明了补丁 RTC 分数与特定任务的准确性指标之间的相关性,将其作为开放领域任务评估的 LLM-as-Judge 范式的替代方案。我们在一个名为 patchwork 的开源框架中实现了 Patched RTC,允许在跨各种补丁流的推理过程中进行透明评估。对不同软件开发任务中的 GPT-3.5 和 GPT-4 模型进行比较的实验表明,Patched RTC 可以有效地区分模型性能和任务难度。该论文还探讨了一致性提示对提高模型准确性的影响,表明 Patched RTC 可以指导复杂软件开发工作流程的提示细化和模型选择。

PateGail:具有模仿学习功能的隐私保护移动轨迹生成器

分类: 机器学习, 人工智能

作者: Huandong Wang, Changzheng Gao, Yuchen Wu, Depeng Jin, Lina Yao, Yong Li

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16729v1

摘要: 生成人体移动轨迹对于解决众多应用中因隐私问题而缺乏大规模轨迹数据的问题具有重要意义。然而,现有的移动轨迹生成方法仍然需要集中收集真实世界的人体轨迹作为训练数据,这存在不可避免的隐私泄露风险。为了克服这一限制,在本文中,我们提出了 PateGail,一种用于生成移动轨迹的隐私保护模仿学习模型,它利用强大的生成对手模仿学习模型来模拟人类的决策过程。此外,为了保护用户隐私,我们根据用户设备中存储的去中心化移动数据来集体训练该模型,其中个人鉴别器在本地进行训练,以区分和奖励真实的和生成的人类轨迹。在训练过程中,只有基于个人鉴别器生成的轨迹及其获得的奖励在服务器和设备之间共享,我们提出的扰动机制进一步保护了其隐私,并通过理论证明满足差分隐私。此外,为了更好地模拟人类决策过程,我们提出了一种从个人歧视者获得的奖励的新颖聚合机制。我们从理论上证明,在基于聚合机制获得的奖励下,我们提出的模型最大化了用户折扣总奖励的下限。大量实验表明,我们的模型生成的轨迹在五个关键统计指标方面能够与现实世界的轨迹相似,比最先进的算法高出 48.03% 以上。此外,我们证明合成轨迹能够有效支持实际应用,包括移动预测和位置推荐。

HAPFI:基于融合信息的历史感知规划

分类: 人工智能, 机器人技术

作者: Sujin Jeon, Suyeon Shin, Byoung-Tak Zhang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16533v1

摘要: 体现指令跟踪(EIF)是一项根据高级自然语言指令规划一长串子目标的任务,例如“冲洗一片生菜并放在叉子旁边的白桌上”。为了成功执行这些长期任务,我们认为代理在每一步做出决策时必须考虑其过去,即历史数据。然而,最近的 EIF 方法常常忽略历史数据中的知识,也没有有效地利用跨模式的信息。为此,我们提出基于融合信息(HAPFI)的历史感知规划,有效利用智能体在与环境交互时收集的不同模式的历史数据。具体来说,HAPFI 通过我们的相互关注融合方法有效地融合多种模式,从而集成了多种模式,包括历史 RGB 观察、边界框、子目标和高级指令。通过各种比较的实验,我们表明,利用历史多模态信息的智能体在行动规划能力方面优于所有忽略历史数据的比较方法,从而能够为下一步生成明智的行动计划。此外,我们提供了定性证据,强调了利用历史多模态数据的重要性,特别是在代理遇到中间故障的情况下,展示了其强大的重新规划能力。

凸优化的分布式差分

分类: 优化与控制, 人工智能, 分布式、并行和集群计算, 系统与控制, 系统与控制

作者: Vivek Khatana, Murti V. Salapaka

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16728v1

摘要: 在本文中,我们重点解决一类涉及 $n$ 个代理的分布式优化问题,每个代理 $i$ 的局部目标函数由两个凸函数 $f_i$ 和 $g_i$ 的差给出(difference-of-凸(DC)形式),其中 $f_i$ 和 $g_i$ 可能是非光滑的。代理通过包含 $n$ 个节点的有向图进行通信。我们创建函数 $f_i$ 和 $g_i$ 的平滑近似,并利用平滑代理的梯度和有限时间近似共识协议开发分布式算法。我们将该算法称为 DDC 共识。开发的 DDC-Consensus 算法允许非对称有向图拓扑,并且可以分布式综合。我们确定 DDC-Consensus 算法收敛到非凸分布式优化问题的驻点。通过模拟研究来评估 DDC-Consensus 算法的性能,以解决非凸 DC 正则化分布式最小二乘问题。数值结果证实了所提出算法的有效性。

不完美的视觉编码器:视觉语言模型的高效且稳健的调整

分类: 计算机视觉和模式识别, 人工智能, 计算和语言, 机器学习

作者: Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E Turner

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16526v1

摘要: 视觉语言模型(VLM)在视觉问题回答和图像字幕方面表现出令人印象深刻的能力,充当视觉和语言模型之间的重要纽带。然而,现有的开源 VLM 严重依赖于预训练和冻结的视觉编码器(例如 CLIP)。尽管 CLIP 在不同领域具有鲁棒性,但它仍然表现出不可忽视的图像理解错误。这些错误会传播到 VLM 响应,从而导致性能不佳。在我们的工作中,我们提出了一种高效且稳健的方法来更新 VLM 中的视觉编码器。我们的方法有选择地在本地更新编码器,从而显着提高先前发生错误的数据的性能,同时保持整体稳健性。此外,我们还证明了我们的方法在连续几次更新期间的有效性。理论基础、通用性和计算效率是我们方法的特点。

视频分析真的需要使用 5D 张量进行 3D 卷积吗?

分类: 计算机视觉和模式识别, 人工智能

作者: Habib Hajimolahoseini, Walid Ahmed, Austin Wen, Yang Liu

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16514v1

摘要: 在本文中,我们提出了一项全面的研究,并提出了几种新颖的技术,用于仅使用 4D 和/或 3D 张量使用 2D 和/或 1D 卷积来实现 3D 卷积块。我们的动机是,具有 5D 张量的 3D 卷积在计算上非常昂贵,并且它们可能不受实时应用程序(例如机器人)中使用的某些边缘设备的支持。现有方法通过将 3D 内核分割为空间域和时间域来缓解这一问题,但它们在实现中仍然使用带有 5D 张量的 3D 卷积。我们通过引入一些适当的 4D/3D 张量重塑以及用于空间和时间分割的新组合技术来解决这个问题。所提出的实施方法在效率和准确性方面都显示出显着的改进。实验结果证实,仅使用参数较少的 4D 张量,所提出的时空处理结构在速度和精度方面优于原始模型。

相关