0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么深度模型在 CV 领域好使,但用在图网络上就这么难呢?

新机器视觉 来源:https://www.zhihu.com/people/Z 作者:Zhihong Deng 2020-11-20 16:32 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为了紧扣时代脉搏,我们推出“强基固本”专栏,讲解AI领域的基础知识,为你的科研学习提供助力,夯实理论基础,提升原始创新能力,敬请关注。

作者:Zhihong Deng

地址:https://www.zhihu.com/people/Zhi-Hong.Deng

最近看了 Michael Bronstein 教授写的一篇博客,分析得挺好的,简单分享一下。 深度学习,特别是 CV 领域的模型,往往有数十上百层,与此相比,在图“深度学习”中(大部分工作都 ≤5 层,谈不上深,所以加个引号吧),大部分模型架构都是浅层的,设计深度模型到底有没有用呢? 现有的一些工作告诉我们,训练深度图神经网络是很难的,除了深度学习的传统问题(梯度消失和过拟合)之外,针对图本身的特性,还需要克服另外两个问题:

过渡平滑:使用多个卷积层后,结点特征趋向于收敛到相同或相似的向量,这使它们变得难以区分[1][2][3]。

过度压缩:在使用多层图网络后,邻居数量指数级增长,要将大量的结点信息压缩到一个结点上就会存在过度压缩的问题,这也称为瓶颈现象[4]。

上表展示了几种尝试解决深度问题的方法,包括残差连接和两种归一化技术。可以看出随着网络层级加深,GCN-res 效果急剧变差。PairNorm 相对稳定,但降低了性能。NodeNorm 效果最佳,但它的最佳效果是在两层图网络时取得的。这个实验告诉我们,要将深度图网络带来的提升和训练它所需要的技巧分开讨论是很难的。 为什么深度模型在 CV 领域这么好使,但用在图网络上就这么难呢?作者给出了几个观点:

01图的结构

现有工作告诉我们,在分子图、点云和网格(图像也可以看作是一种网格状的图)上使用深度图网络是有效的,这些图跟我们常用以评估图神经网络效果的引用网络(例如:Cora、PubMed 或 CoauthorCS)等有何不同呢?下图就给出一个很清晰的示例:

我们常用的引用网络这一类图往往属于直径较小的小世界网络,简单点讲就是图中任意两个结点的距离都比较近,几跳就能到达,使用更深的网络架构并不会扩大感受野;相比之下,在网格(比如图像)这一类图中,增加层数能让感受野成倍增长,从而更好地捕捉到上下文。使用不同颜色标注不同层数所能到达的结点,可以看到,同样是12个结点的图,左图仅用两种颜色就够了,右图则用了6种颜色。

02短程与远程信息

根据问题的特性,有的问题则可以通过短距离的信息解决,比如社交网络中,预测往往仅依赖于结点的局部邻居;有的问题可能需要更长距离的信息,比如分子图种分子的化学性质可能取决于另一侧的原子组合,这就需要深度图网络来组合这些远程信息。但是随着层数增多,如果图结构会引起结点感受野的指数级增长,那么瓶颈现象就会阻止远程信息的有效传播:

上图就展示了一个例子,在使用深度图网络时,我们需要把多个结点的信息整合到一个结点中并迭代此过程,所以传播过程中可能会丢失不少有用的信息,也就解释了为什么深度模型难以提高性能。

03理论局限

我们在使用深度神经网络的时候,往往可以做一些可视化分析,比如 CNN 可以将每一层学到的特征做一个可视化:

浅层神经元学到是比较简单的特征,比如某些纹理、线条;深层神经元学到的则是更复杂的一些特征,比如眼睛,鼻子等等。但是,图神经网络里也能这么分析吗?多层的图网络也能学到逐渐复杂的性质吗?我们目前尚不清楚哪些图形性质可以用浅层图网络学到,哪些需要更深的网络,哪些是根本无法计算的。

04深度 vs. 丰富度

在 CV 中,因为所有图像都是非常规则的网格结构,所以结构就变得不再重要的,但在图深度学习中,结构是很重要的,如何设计更复杂的,可以处理高阶信息(比如:各种motif)的消息传递机制仍有待探索。目前大家主要关注的还是1-跳卷积,但我们可以设计出多跳的filter,比如 SIGN 这篇论文。有趣的是,这跟 CV 领域的发展历程恰恰相反,CV 领域早期的浅层模型一般使用的是大型 filter(比如:11×11),后来逐渐发展到使用小型 filter(比如 :3×3)的深度模型。这里作者想表达的“丰富度”的意思应该是指,我们是不是也能像 CV 里 GoogLeNet 那样使用Inception模块,同时使用1-跳卷积,2-跳卷积等多种 filter(对应 CV 里的 3×3、5×5 等等),这其实也会间接地帮助到信息的有效传播。

05评估

最后但或许也很重要的一点就是评估方法,一些常见的基准数据集和方法未必能准确评估图神经网络的效果,我们观察到深度图网络在一些数据集上性能随深度下降,或许仅仅是因为数据集太小,发生了过拟合。斯坦福新推出的 Open Graph Benchmark 可以解决部分问题,它提高了大规模的图数据,并给定了训练和测试数据的划分方式。 [1] More precisely, over-smoothing makes node feature vector collapse into a subspace, see K. Oono and T. Suzuki,Graph neural networks exponentially loose expressive power for node classification(2019). arXiv:1905.10947, which provides asymptotic analysis using dynamic systems formalist. [2] Q. Li, Z. Han, X.-M. Wu,Deeper insights into graph convolutional networks for semi-supervised learning(2019). Proc. AAAI. Draws the analogy between the GCN model and Laplacian smoothing and points to the over-smoothing phenomenon. [3] H. Nt and T. Maehara,Revisiting graph neural networks: All we have is low-pass filters(2019). arXiv:1905.09550. Uses spectral analysis on graphs to answer when GCNs perform well. [4] U. Alon and E. Yahav,On the bottleneck of graph neural networks and its practical implications(2020). arXiv:2006.05205. Identified the over-squashing phenomenon in graph neural networks, which is similar to one observed in sequential recurrent models.

声明:部分内容来源于网络,仅供读者学术交流之目的。文章版权归原作者所有。如有不妥,请联系删除。

责任编辑:PSY

原文标题:我们真的需要深度图神经网络吗?

文章出处:【微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    8138

    浏览量

    93125
  • CV
    CV
    +关注

    关注

    0

    文章

    54

    浏览量

    17475
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123926

原文标题:我们真的需要深度图神经网络吗?

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    构建CNN网络模型并优化的一般化建议

    ,从而得到对我们有价值的识别信息。这种迭代性并不是十分必要的,因为从实践来看,即使只有单层网络模型,只要拥有充分数量的神经元,也可以获得较高的准确率。不过该种方式的一个重要缺点就是参数重多,导致
    发表于 10-28 08:02

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦! 聆思全新一代六合一芯片「LS26系列」,搭载WIFI / BLE & BT / NPU,与「小聆AI」强强联合
    发表于 09-25 11:47

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与
    的头像 发表于 08-13 09:15 3934次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代<b class='flag-5'>深度</b>学习吗?

    华兴变压器:绝缘寿命预测为何这么

    您在使用华兴变压器时,是不是也疑惑:三相隔离变压器的绝缘寿命预测咋就这么?这可困扰着不少企业。先看绝缘材料的个体差异。即便是同一批次生产的绝缘材料,由于原材料微小杂质、生产时的温
    的头像 发表于 07-11 11:24 346次阅读
    华兴变压器:绝缘寿命预测为何<b class='flag-5'>这么</b><b class='flag-5'>难</b>?

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型各个领域得到了广泛应用。然而,大模型的推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。
    发表于 07-03 19:43

    【正点原子STM32MP257开发板试用】基于 DeepLab 模型的图像分割

    STM32MP257 开发板基于 DeepLab 模型实现图像分割的项目设计,包括 DeepLab 模型介绍、官方Demo例程测试、USB 摄像头采集画面的动态图像分割、板端图片静态推理等,为该开发板人工智能等相关
    发表于 06-21 21:11

    半导体器件CV测量技术解析

    前言:研究器件特性和器件建模都离不开精确的电容电压(CV)测量。精确的CV模型仿真器件的开关特性,延迟特性等方面尤为重要。目前,宽禁带器
    的头像 发表于 06-01 10:02 1233次阅读
    半导体器件<b class='flag-5'>CV</b>测量技术解析

    OpenVINO™工具套件的深度学习工作台中无法导出INT8模型怎么解决?

    无法 OpenVINO™ 工具套件的深度学习 (DL) 工作台中导出 INT8 模型
    发表于 03-06 07:54

    模型领域常用名词解释(近100个)

    的分类进行了整理,以下供参考:模型架构与基础概念大语言模型(LLM,LargeLanguageModel):一种基于深度学习的大规模神经网络模型
    的头像 发表于 02-19 11:49 1301次阅读
    大<b class='flag-5'>模型领域</b>常用名词解释(近100个)

    请问有没有不在linux对.pt模型向.kmodel转换的教程

    1、请问有没有不在linux对.pt模型向.kmodel转换的教程? 我看网上有个nncase studio的教程(AI模型GUI编译工具 nncase studio食用指南 -
    发表于 02-08 08:56

    吉利星睿大模型与DeepSeek完成深度融合

    2 月 6 日,吉利汽车宣布其自研睿大模型已与 DeepSeek 完成深度融合。 智能化浪潮下,AI 大模型成为车企竞争的关键技术。吉利此次与 DeepSeek 合作,是其
    的头像 发表于 02-07 18:13 1139次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术,它指的是已经预训练好的大型
    发表于 01-14 16:51

    边缘设备设计和部署深度神经网络的实用框架

    ,以及由强大而高效的软件工具链补充的低成本边缘设备的可用性。此外,需要避免通过网络传输数据——无论是出于安全原因还是仅仅为了尽量减少通信成本。 边缘人工智能涵盖广泛的设备、传感器、微控制器、片多微处理器、
    的头像 发表于 12-20 11:28 1412次阅读

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    的是百度的Picodet模型,它是一种基于深度卷积网络(DNN)的轻量级目标检测模型,具有非常高的检测精度,可以低算力设备进行实时的端到端
    发表于 12-19 14:33

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    地选择适合的模型。不同的模型具有不同的特点和优势。客服领域,常用的模型包括循环神经网络(RNN
    发表于 12-17 16:53