0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

未来或许深度学习江湖统一真的不是梦

新机器视觉 来源:量子位 作者:量子位 2021-05-23 15:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你能想象某一天打开深度学习的词条,发现:

深度学习的江湖已经能够被统一了吗?

几何学上的对称性可以玩转整个深度学习吗?

通过对称性和的变换,可以提炼出覆盖CNNs, GNNs, LSTMs, Transformers, DeepSets, mesh CNN等一切你所需构建的架构吗?

不要惊讶,不要怀疑。

一百多年前埃尔兰根大学一位23岁的小伙就给出了答案。

他仅凭一己之力开创的“埃尔兰根计划”,从而在几何学上做出了一项开创性的工作,改变了数学史。

几何学对称问题的源起

在1872年10月,德国的埃尔兰根大学任命了一位新的年轻教授。按照惯例,他被要求提供一个就职研究计划,他以长而乏味的标题Vergleichende Betrachtungen über neuere geometrische Forschungen(“对几何学最新研究的比较评论”)进行了发表。

这位就是菲利克斯·克莱因(Felix Klein),当时他只有23岁,他的开创性工作被称为“埃尔兰根计划”,在数学史上有浓墨重彩的一笔。

十九世纪简直就是几何学的大爆发时代。欧几里得之后的近两千年来,庞塞莱特(Poncelet)构造了投影几何,高斯(Gauss)、波利亚伊(Galys)和洛巴切夫斯基(Lobachevsky)构造了双曲线几何,而黎曼(Riemann)构造了椭圆几何。

克莱因的Erlangen program(埃尔兰根纲领)的突破性体现在研究几何学时运用了结构的对称性。克莱因采用群论的形式来定义此类转换,并采用群及其子群的层次结构来分类由此产生的不同几何形状。

因此,刚性运动会产生传统的欧几里得几何,而仿射或投影变换分别产生仿射和投影几何。

Erlangen program不仅对几何和数学影响非常深远,同时也影响了物理领域,对称性可以从第一原理推导守恒律,即Noether定理。

经过几十年的发展,直到杨振宁和米尔斯在1954年提出的规范不变性的概念的广义形式证明了这一基本原理,成功地统一了除重力以外的所有自然基本力。

这种标准模型已经描述了我们目前所知道的所有物理学知识。

所以啊,还是诺贝尔奖得主物理学家菲利普·安德森(Philip Anderson)的话说得好:

“it is only slightly overstating the case to say that physics is the study of symmetry.”

“说物理学本质上就是研究对称性的,这只是有点夸大其词了。”

目前深度学习领的现状和19世纪的几何情况惊人的类似:

一方面,在过去的十年中,深度学习带来了数据科学的一场革命,并完成了许多以前被认为无法实现的任务:无论是计算机视觉语音识别,自然语言翻译,还是下围棋。

另一方面,现在存在一个针对不同类型数据的不同神经网络体系结构的“动物园”,但统一的原理很少。这样很难理解不同方法之间的关系,也导致相同概念的多次发明和资源的浪费。

机器学习中,对称性的重要性实际上早已得到认可。

尤其是在模式识别和计算机视觉的应用中,有关等变特征检测的早期工作可以追溯到Shunichi Amari和Reiner Lenz。

在神经网络文献中,Marvin Minsky和Seymour Papert提出的感知器的群不变性定理对(单层)感知器学习不变性的能力提出了基本限制。

几何深度学习

具体怎么个“统一”,请看采用的“几何深度学习”:

几何深度学习是Michael M. Bronstein,Joan Bruna,Taco Cohen,Petar Veličković 等人中引入的一个笼统术语,指的是类似于Klein的Erlangen program,在几何机器学习上统一的尝试的总称。

它有两个目的:首先,提供一个通用的数学框架以推导最成功的神经网络体系结构;其次,给出一个建设性的过程,并以有原则的方式构建未来的体系结构。

在最简单的情况下,有监督的机器学习本质上是一个函数估计问题:给定训练集上某些未知函数的输出(例如标记的狗和猫图像),人们试图从某个假设函数类别中找到一个适合训练的函数f ,并可以预测以前看不见的输入的输出。

在过去的十年中,大型的、高质量的数据集(如ImageNet)的可用性与不断增长的计算资源(GPU)吻合,从而可以设计功能丰富的类,这些类可以内插此类大型数据集。

神经网络似乎是表征功能的合适选择,因为即使是最简单的体系结构(如Perceptron),仅使用两层时也可以生成密集类的功能,从而可以将任何连续函数近似为任何所需的精度,这种特性称为“通用逼近”(Universal Approximation)。

低维问题的设置是逼近理论中的经典问题,该问题已得到广泛研究,并通过精确的数学方法控制估算误差。但是,在高维度上情况却完全不同:人们可以很快地看到,即使近似一类简单的Lipschitz连续函数,样本数量也随维度呈指数增长,这种现象俗称“维数诅咒”。

由于现代机器学习方法需要处理成千上万甚至数百万个维度的数据,因此维度的诅咒总是在幕后出现,使得我们无法通过朴素的方式进行学习。

△维度诅咒的图示:为了近似由高斯核构成的Lipschitz连续函数,该函数位于误差为ε的d维单位超立方体(蓝色)的象限中,需要

在计算机视觉问题(例如图像分类)中可能最好地看到了这一点。即使是很小的图像也往往具有很高的尺寸,但是从直观上讲,当人们将图像解析为向量以将其馈反馈送到感知器时,很多图像的结构会被破坏并丢弃。如果现在仅将图像移位一个像素,则向量化的输入将有很大的不同,并且神经网络将需要显示很多示例,因此必须以相同的方式对移位的输入进行分类。

原理简介

通过对称性,不变性和群的视角,包含两大原理:

“先验对称性”

在许多高维ML问题的情况下,我们可以采用一个附加结构信息,它来自输入信号的几何形状。我们称这种结构为“先验对称性”,它是一种普遍有效的原理,它使我们对由维数引起的问题感到乐观。在我们的图像分类示例中,输入图像x不仅是d维向量,而且是在某个域Ω上定义的信号,在这种情况下,该信号是二维网格。

域的结构由对称群变换????(在我们的示例中为一组二位变换-作用于域上的点。在信号????(Ω)的空间中,底层域上的群动作(群元素,????∈????)通过所谓的群表征ρ(????)来表示,在我们的例子中,上述操作是平移操作,即一个作用于d维向量的d×d矩阵。

输入信号底层的域的几何结构为我们试图学习的函数 f 的类别施加了架构信息。一个不变函数可以不受群的操作作用的影响,即对于任何????∈????和x,f(ρ(????)x)= f(x)。另一方面,函数可能具有相同的输入和输出结构,并且以与输入相同的方式进行转换,这种函数称为等变函数,即满足f(ρ(????)x)= ρ(???? )f(x)。

在计算机视觉领域中,图像分类是一种典型的人们希望得到不变函数的任务(例如,无论猫位于图像的什么位置,我们都希望将该图分类为猫);而图像分割任务的输出是一个像素级别的标签掩模,这是一种等变函数(分割掩模需要遵循输入图像的变化)。

“尺度分离”

另一个强大的几何先验是“尺度分离”。在某些情况下,我们可以通过“同化”附近的点并产生与粗粒度算子P相关的信号空间的层次结构,来构建域的多尺度层次结构(下图中的Ω和Ω’)。

在这些粗尺度上,我们可以应用粗尺度函数。我们分析出,如果一个函数 f 可以被近似为粗粒度算子 P 和粗尺度函数的组合 f≈f’∘P,则 f 是局部稳定的。尽管 f 可能取决于长距离依赖,如果 f 是局部稳定的,它们可以被分解为局部交互,然后向着粗尺度传播。

这两个原理为他们提供了一个非常通用的深度学习蓝图,可以在大多数用于表示学习的流行深度神经体系结构中得到认可:一个典型设计由一系列等变层(例如,CNN中的卷积层)组成,可能遵循通过不变的全局池层将所有内容聚合到一个输出中。在某些情况下,也可以通过一些采用局部池化形式的粗化过程(coarsening procedure)来创建域的层次结构。

这是一种非常通用的设计,可以应用于不同类型的几何结构,包括几何深度学习的“ 5G”(Grid,Groups,Graphs,Geodesics & Gauges):网格(具有全局转换群的齐次空间),图形(以及特殊情况下的集合)和流形,几何先验通过全局等距不变性表示(可以使用测地学表示) 和局部规范的对称性。

这些原则的实现导致了深度学习中当今存在的一些最流行的体系结构:从平移对称导出的卷积网络(CNN)、图神经网络、DeepSets和Transformers,实现了置换不变性, 时间扭曲不变导出的门控RNN(例如LSTM网络),以及由规范对称性导出的计算机图形和视觉中使用的 Intrinsic Mesh CNN。

下一步他们还打算在“ 5G”上继续“几何深度学习”蓝图。

貌似高深的理论,用到了群论、微分几何和各类机器学习高级算法,期待有更多研究人员参与并开展进一步深入研究。

未来,也许整个深度学习“动物园”的在原理上的统一真的不是梦。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4840

    浏览量

    108147
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124610

原文标题:收藏 | 从“几何深度学习”看深度学习江湖的统一

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的
    的头像 发表于 04-21 11:01 239次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    2026视觉检测产业深度调研及未来趋势分析

    视觉检测技术融合深度学习与多模态传感,实现从辅助工具向决策中枢的转变,推动智能制造与工业4.0发展。
    的头像 发表于 04-01 09:26 220次阅读
    2026视觉检测产业<b class='flag-5'>深度</b>调研及<b class='flag-5'>未来</b>趋势分析

    为什么国产MCU的工程生态很难统一

    背景 国产 MCU 种类多、厂商众多,生态碎片化明显。 主要原因 厂商 SDK 不统一 :API、驱动结构差异大 开发工具闭源 :无法统一配置流程 工程模板缺失 :初始化步骤、外设配置不致 社区
    发表于 01-28 09:25

    电子厂效率升级秘诀:UV胶10秒固化,产能翻倍不是

    电子厂效率升级秘诀:UV胶10秒固化,产能翻倍不是
    的头像 发表于 01-12 17:06 456次阅读
    电子厂效率升级秘诀:UV胶10秒固化,产能翻倍<b class='flag-5'>不是</b><b class='flag-5'>梦</b>

    无人值守不是:智能工厂让仓储 + 产线全流程自动化

    从仓储的智能调度到产线的自主运行,无人值守工厂的落地,本质是技术与场景的深度融合。它不是对人工的简单替代,而是通过智能化手段,让设备更高效、数据更透明、决策更精准,让制造业从“拼人力”转向“拼效率”。
    的头像 发表于 01-12 09:57 416次阅读
    无人值守<b class='flag-5'>不是</b><b class='flag-5'>梦</b>:智能工厂让仓储 + 产线全流程自动化

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作段时间,机器学习深度学习中都存在些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不
    的头像 发表于 01-07 15:37 342次阅读
    机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    穿孔机顶头检测仪 机器视觉深度学习

    顶头状态。 检测顶头算法 引入人工智深度学习技术,通过Keras实现卷积神经网络(CNN),用Numpy实现采集数据的训练,得到符合现场需求的模型,进步提升检测的准确性和现场的适应性。 应用范围
    发表于 12-22 14:33

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 319次阅读

    星光不负,码向未来:1024致敬每位“以码为”的鸿蒙开发者

    ,发起“星光不负 码向未来”致敬活动,就是想亲口告诉您:鸿蒙生态每点“加速度”的背后,都是您智慧与汗水的结晶;您书写的不是冰冷的代码,而是我们共同热爱的未来。你们,值得被看见、被喝彩
    的头像 发表于 10-24 18:47 342次阅读
    星光不负,码向<b class='flag-5'>未来</b>:1024致敬每<b class='flag-5'>一</b>位“以码为<b class='flag-5'>梦</b>”的鸿蒙开发者

    开源鸿蒙技术大会2025丨统一生态共建分论坛:共建共享开源鸿蒙,聚力共赢统一未来

    生态共建的创新路径与未来蓝图,主题涵盖了产品发布、特性介绍、技术交流和路径探讨等多个层面,旨在促进开源鸿蒙统一生态共建的发展。 统一生态共建分论坛成功举办 开源鸿蒙项目群工作委员会委员、江苏润开鸿数字科技有限公司副总裁于大
    的头像 发表于 10-12 21:05 854次阅读
    开源鸿蒙技术大会2025丨<b class='flag-5'>统一</b>生态共建分论坛:共建共享开源鸿蒙,聚力共赢<b class='flag-5'>统一</b><b class='flag-5'>未来</b>

    《AI芯片:科技探索与AGI愿景》—— 勾勒计算未来的战略罗盘

    、数据与算力三者间错综复杂的共生关系,并前瞻性地讨论了能耗、伦理与全球竞争等关键议题。 书中幅AGI技术演进路线图(如图2)令人印象深刻,它清晰地标定了我们从“深度学习爆发”到“具身智能”,最终迈向
    发表于 09-17 09:32

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 1042次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    、实施路径三个维度展开分析: 深度学习如何突破工业物联网的技术瓶颈? 1. 非结构化数据处理:解锁“沉睡数据”价值 传统困境 :工业物联网中70%以上的数据为非结构化数据(如设备振动波形、红外图像、日志文本),传统方法难以
    的头像 发表于 08-20 14:56 1192次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这
    的头像 发表于 08-13 09:15 4360次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    CES Asia 2025蓄势待发,聚焦低空经济与AI,引领未来产业新变革

    CES Asia 2025 第七届亚洲消费电子技术贸易展即将盛大开启,作为科技领域一年一度的盛会,今年的 CES Asia 承载着更多的期待与使命,致力于成为前沿科技与未来产业深度融合的引领者
    发表于 07-09 10:29