2024-07

KAN 或 MLP:更公平的比较

分类: 机器学习, 人工智能

作者: Runpeng Yu, Weihao Yu, Xinchao Wang

发布时间: 2024-07-23

链接: http://arxiv.org/abs/2407.16674v1

摘要: 本文没有介绍新方法。相反,它提供了跨各种任务(包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示)的 KAN 和 MLP 模型更公平、更全面的比较。具体来说,我们控制参数和 FLOP 的数量来比较 KAN 和 MLP 的性能。我们的主要观察是,除了符号公式表示任务外,MLP 通常优于 KAN。我们还对 KAN 进行了消融研究,发现其在符号公式表示方面的优势主要源于其 B 样条激活函数。当B样条应用于MLP时,符号公式表示的性能显着提高,超越或匹配KAN。然而,在 MLP 已经优于 KAN 的其他任务中,B 样条并没有显着增强 MLP 的性能。此外,我们发现在标准的类增量持续学习环境中,KAN 的遗忘问题比 MLP 更严重,这与 KAN 论文中报告的结果不同。我们希望这些结果为 KAN 和其他 MLP 替代方案的未来研究提供见解。项目链接:https://github.com/yu-rp/KANbeFair

构建与人一起学习和思考的机器

分类: 人机交互, 人工智能, 机器学习

作者: Katherine M. Collins, Ilia Sucholutsky, Umang Bhatt, Kartik Chandra, Lionel Wong, Mina Lee, Cedegao E. Zhang, Tan Zhi-Xuan, Mark Ho, Vikash Mansinghka, Adrian Weller, Joshua B. Tenenbaum, Thomas L. Griffiths

发布时间: 2024-07-22

链接: http://arxiv.org/abs/2408.03943v1

摘要: 我们想从机器智能中得到什么?我们设想机器不仅是思维工具,而且是思维伙伴:与我们一起思考的合理、有洞察力、知识渊博、可靠且值得信赖的系统。当前的人工智能(AI)系统在某些时候满足其中一些标准。在这个视角中,我们展示了如何将协作认知科学应用于工程系统,这些系统真正可以称为“思想伙伴”,这些系统是为了满足我们的期望并补充我们的局限性而构建的。我们提出了几种协作思维模式,人类和人工智能思想伙伴可以在其中参与并提出人类兼容的思维伙伴关系的需求。借鉴计算认知科学的主题,我们通过贝叶斯镜头,围绕思想合作伙伴和生态系统的使用,激发了另一种扩展路径的设计,我们构建的合作伙伴可以积极地构建和推理人类和世界的模型。

证明者-验证者游戏提高了 LLM 输出的易读性

分类: 计算和语言

作者: Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13692v2

摘要: 增加对大型语言模型 (LLM) 输出的信心的一种方法是用清晰且易于检查的推理来支持它们——我们称之为易读性。我们在解决小学数学问题的背景下研究了易读性,结果表明,仅为了答案的正确性而优化思维链解决方案可能会使它们不太易读。为了减轻易读性的损失,我们提出了一种受 Anil 等人的 Prover-Verifier Game 启发的训练算法。 (2021)。我们的算法迭代地训练小型验证者来预测解决方案的正确性,“有帮助的”证明者产生验证者接受的正确解决方案,以及“偷偷摸摸”的证明者产生欺骗验证者的错误解决方案。我们发现,在训练过程中,有用的证明者的准确性和验证者对对抗性攻击的鲁棒性都会增加。此外,我们还表明,易读性训练可以转移到时间有限的人类身上,任务是验证解决方案的正确性。在大语言模型培训过程中,在检查有用的证明者的解决方案时,人类的准确性会提高,而在检查偷偷摸摸的证明者的解决方案时,人类的准确性会降低。因此,由小型验证者进行可检查性培训是提高输出易读性的一种可行技术。我们的结果表明,针对小型验证者的易读性训练是提高大型大语言模型对人类的易读性的实用途径,因此有助于超人模型的对齐。

压缩结构化张量代数

分类: 编程语言, 机器学习, 数学软件

作者: Mahdi Ghorbani, Emilien Bauer, Tobias Grosser, Amir Shaikhha

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13726v1

摘要: 张量代数是机器学习和科学计算等数据密集型工作负载的重要组成部分。随着数据复杂性的增加,科学家经常遇到高度专业化的稠密张量代数与稀疏张量代数提供的高效结构感知算法之间的困境。在本文中,我们介绍了 DASTAC,这是一个框架,通过结合自动数据布局压缩、多面体分析和仿射代码生成等技术,将张量捕获的高级结构传播到低级代码生成。我们的方法通过自动检测最佳数据布局来减少内存占用,从多面体优化中受益匪浅,利用进一步的优化,并通过 MLIR 实现并行化。通过大量实验,我们表明 DASTAC 比 TACO(最先进的稀疏张量编译器)和 StructTensor(最先进的结构化张量代数编译器)实现了 1 到 2 个数量级的加速,并且具有显着的性能提升。更低的内存占用。

CellularLint:识别蜂窝网络规范中不一致行为的系统方法

分类: 密码学和安全, 人工智能, 信息检索

作者: Mirza Masfiqur Rahman, Imtiaz Karim, Elisa Bertino

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13742v1

摘要: 近年来,人们越来越关注蜂窝网络的安全性审查,通常将安全漏洞归因于底层协议设计描述中的问题。这些协议设计规范通常是长达数千页的大量文档,可能存在不准确、规格不足、隐含假设和内部不一致的情况。鉴于不断发展的形势,我们引入了 CellularLint——一种利用一套自然语言处理技术,在 4G 和 5G 标准内进行不一致检测的半自动框架。我们提出的方法在领域适应的大型语言模型上使用了改进的少样本学习机制。该方法经过对大量蜂窝网络协议的预训练,使 CellularLint 能够同时检测不同级别的语义和实际用例的不一致情况。在此过程中,CellularLint 以可扩展的方式显着推进了协议规范的自动分析。在调查中,我们重点关注非接入层 (NAS) 以及 4G 和 5G 网络的安全规范,最终发现了 157 个不一致之处,准确率高达 82.67%。在对开源实现和 17 种商业设备上的这些不一致进行验证后,我们确认它们确实对设计决策产生了重大影响,可能导致与隐私、完整性、可用性和互操作性相关的担忧。

街景:使用自回归视频扩散生成大规模一致街景视图

分类: 计算机视觉和模式识别, 图形

作者: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13759v1

摘要: 我们提出了一种通过动态合成的城市规模场景生成街景长视图序列的方法。我们这一代人受到语言输入(例如城市名称、天气)以及承载所需轨迹的底层地图/布局的限制。与最新的视频生成或 3D 视图合成模型相比,我们的方法可以扩展到更远距离的摄像机轨迹,跨越多个城市街区,同时保持视觉质量和一致性。为了实现这一目标,我们以最近关于视频扩散的工作为基础,在自回归框架中使用,可以轻松扩展到长序列。特别是,我们引入了一种新的时间插补方法,可以防止我们的自回归方法偏离现实城市图像的分布。我们使用来自 Google 街景的引人注目的数据源图像以及上下文地图数据来训练我们的 Streetscapes 系统,这些数据允许用户根据任何所需的城市布局生成城市视图,并具有可控的相机姿势。请访问我们的项目页面 https://boyangdeng.com/streetscapes 查看更多结果。

视觉干草堆:回答有关图像集的更困难的问题

分类: 计算机视觉和模式识别

作者: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13766v1

摘要: 大型多模态模型(LMM)的最新进展在单图像视觉问答领域取得了重大进展。然而,当执行跨越大量图像集合的查询任务时,这些模型面临着巨大的挑战,类似于现实世界的场景,例如搜索大型相册、在互联网上查找特定信息或通过卫星图像监测环境变化。本文探讨了多图像视觉问答(MIQA)的任务:给定大量图像和自然语言查询,任务是生成相关且有依据的响应。我们提出了一个新的公共基准,称为“Visual Haystacks (VHs)”,专门用于评估 LMM 在视觉检索和对不相关图像集进行推理方面的能力,我们在其中进行全面的评估,证明即使是强大的闭源模型也会遇到很大的困难。为了解决这些缺点,我们引入了 MIRAGE(多图像检索增强生成),这是一种专为 LMM 量身定制的新型检索/QA 框架,它能够应对 MIQA 的挑战,与基线方法相比,效率和准确性得到显着提高。我们的评估表明,MIRAGE 在 VHs 基准上比闭源 GPT-4o 模型高出 11%,并且与以文本为中心的多阶段方法相比,效率提高了 3.4 倍。

GroupMamba:参数高效且准确的群体视觉状态空间模型

分类: 计算机视觉和模式识别

作者: Abdelrahman Shaker, Syed Talal Wasim, Salman Khan, Juergen Gall, Fahad Shahbaz Khan

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13772v1

摘要: 状态空间模型 (SSM) 的最新进展展示了在模拟具有次二次复杂度的远程依赖关系方面的有效性能。然而,纯基于 SSM 的模型仍然面临与稳定性和在计算机视觉任务上实现最佳性能相关的挑战。我们的论文解决了扩展基于 SSM 的计算机视觉模型的挑战,特别是大模型的不稳定性和低效率。为了解决这个问题,我们引入了调制组 Mamba 层,它将输入通道分为四组,并将我们提出的基于 SSM 的高效视觉单选择扫描 (VSSS) 块独立地应用于每个组,每个 VSSS 块扫描在四个通道之一中空间方向。 Modulated Group Mamba 层还将四个 VSSS 块包装到一个通道调制运算符中,以改善跨通道通信。此外,我们引入了基于蒸馏的训练目标来稳定大型模型的训练,从而实现一致的性能提升。我们的综合实验证明了所提出的贡献的优点,与 ImageNet-1K 上的图像分类、对象检测、MS-COCO 上的实例分割以及 ADE20K 上的语义分割的现有方法相比,具有优越的性能。与相同模型的现有最佳 Mamba 设计相比,我们具有 23M 参数的微小变体实现了最先进的性能,在 ImageNet-1K 上的分类 top-1 准确率为 83.3%,同时参数效率提高了 26%尺寸。我们的代码和模型位于:https://github.com/Amshaker/GroupMamba。

时间序列数据的可排序性

分类: 人工智能

作者: Christopher Lohse, Jonas Wahl

发布时间: 2024-07-18

链接: http://arxiv.org/abs/2407.13313v1

摘要: 评估旨在寻找时间相关过程之间因果关系的因果发现算法的性能仍然是一个具有挑战性的话题。在本文中,我们证明了数据集的某些特征,例如可排序性(Reisach et al. 2021)和 $R^2$-可排序性(Reisach et al. 2023),也出现在自相关平稳时间序列的数据集中。我们使用四种类型的数据来实证说明这一点:基于 SVAR 模型和 Erd\H{o}s-R'enyi 图的模拟数据、2019 年气候因果关系挑战中使用的数据(Runge et al. 2019)、真实数据-世界河流数据集,以及因果室生成的真实世界数据(Gamella 等人,2024)。为此,我们将 var- 和 $R^2$-可排序性适应时间序列数据。我们还研究了基于分数的因果发现方法的性能与高可排序性齐头并进的程度。可以说,我们最令人惊讶的发现是,所调查的现实世界数据集表现出高可排序性和低 $R^2$ 可排序性,表明尺度可能携带大量因果信息。

将网络空间与物理世界结合起来:对嵌入式人工智能的全面调查

分类: 计算机视觉和模式识别, 人工智能, 机器学习, 多代理系统, 机器人技术

作者: Yang Liu, Weixing Chen, Yongjie Bai, Guanbin Li, Wen Gao, Liang Lin

发布时间: 2024-07-09

链接: http://arxiv.org/abs/2407.06886v6

摘要: 嵌入式人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,并且是连接网络空间和物理世界的各种应用的基础。最近,多模态大型模型(MLM)和世界模型(WM)的出现因其卓越的感知、交互和推理能力而引起了极大的关注,使它们成为具身智能体大脑的有前途的架构。然而,目前还没有针对传销时代的嵌入式人工智能的全面调查。在本次调查中,我们全面探讨了嵌入式人工智能的最新进展。我们的分析首先浏览了具身机器人和模拟器的代表作品的前沿,以充分了解研究重点及其局限性。然后,我们分析了四个主要研究目标:1)具身感知,2)具身互动,3)具身主体,4)模拟到现实的适应,涵盖了最先进的方法、基本范式和综合性。数据集。此外,我们还探讨了虚拟和现实实体中传销的复杂性,强调了它们在促进动态数字和物理环境中交互的重要性。最后,我们总结了嵌入式人工智能的挑战和局限性,并讨论了它们潜在的未来方向。我们希望这项调查能够为研究界提供基础参考,并激发持续创新。相关项目可以在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。

与 ALMA (DIHCA) 一起挖掘热核心的内部。四.高质量恒星形成团块的破碎

分类: 星系天体物理学, 太阳和恒星天体物理学

作者: Kosuke Ishihara, Patricio Sanhueza, Fumitaka Nakamura, Masao Saito, Huei-Ru V. Chen, Shanghuo Li, Fernando Olguin, Kotomi Taniguchi, Kaho Morii, Xing Lu, Qiuyi Luo, Takeshi Sakai, Qizhou Zhang

发布时间: 2024-07-09

链接: http://arxiv.org/abs/2407.06845v1

摘要: 碎裂有助于恒星的形成和演化。据观察,已知大质量恒星会形成多星系统,特别是在星团环境中。理论上,金斯不稳定性被认为可以确定特征破碎尺度,而母体气团中的热运动或湍流运动主要是造成不稳定性的原因。为了寻找这样一个特征破碎尺度,我们分析了 ALMA 1.33 毫米连续观测数据,这些观测数据是通过 ALMA 深入热核内部 (DIHCA) 调查对 30 个高质量恒星形成团块进行的。我们使用树状图算法识别了 573 个核心,并使用最小生成树 (MST) 技术测量了核心的分离度。通过投影效应校正的核心分离分布在 5800 au 左右达到峰值。为了消除不同距离和灵敏度产生的偏差,我们进一步将图像平滑到共同的物理尺度并进行完整性测试。我们仔细分析发现特征碎片规模为 $\sim$7000 au,与团块的热牛仔裤长度相当。我们得出的结论是,热牛仔裤碎片在决定高质量恒星形成区域的团块碎片中起着主导作用,而不需要调用湍流牛仔裤碎片。

多模态自指导:使用语言模型的合成抽象图像和视觉推理教学

分类: 计算机视觉和模式识别

作者: Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang

发布时间: 2024-07-09

链接: http://arxiv.org/abs/2407.07053v3

摘要: 尽管当前大多数大型多模态模型(LMM)已经可以理解自然场景和肖像的照片,但它们对抽象图像(例如图表、地图或布局)的理解以及视觉推理能力仍然相当初级。他们经常难以完成简单的日常任务,例如从时钟上读取时间、理解流程图或使用路线图规划路线。有鉴于此,我们设计了一种多模态自指令,利用大型语言模型及其代码能力来合成日常场景中的海量抽象图像和视觉推理指令。我们的策略毫不费力地创建了一个多模式基准,其中包含针对八种视觉场景的 11,193 条指令:图表、表格、模拟地图、仪表板、流程图、关系图、平面图和视觉谜题。 \textbf{这个基准测试由简单的线条和几何元素构建,暴露了最先进的 LMM}(如 Claude-3.5-Sonnet 和 GPT-4o)在抽象图像理解、空间关系推理和视觉元素归纳方面的缺点。此外,为了验证合成数据的质量,我们使用 62,476 个合成图表、表格和路线图指令对 LMM 进行微调。结果证明了图表理解和地图导航性能的提高,并且还证明了其他视觉推理任务的潜在好处。我们的代码位于:\url{https://github.com/zwq2018/Multi-modal-Self-instruct}。

相关