0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于图深度学习的开源工具包——CogDL

454398 来源:机器之心 作者:AMiner学术头条 2020-10-29 10:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一行代码命令可以做什么?

“一行命令可以实现‘一条龙’运行实验。”

访问 github.com/THUDM/cogdl 一键体验!

近年来,结构化数据的表示学习备受业界关注与热捧,图神经网络成为处理相关工作的有力工具,基于随机游走、矩阵分解的方法在搜索推荐、分子和药物生成等领域有着十分重要的应用。

但是,由于许多项目的代码并未开源或者开源代码的风格多种多样,研究者和使用者在使用这些方法的过程中会遇到各种各样的问题,比如实验复现以及如何在自己的数据集上运行模型等。

具体而言(以学术研究为例),研究者和使用者在从事研究过程中需要将自己提出的模型与其他模型进行对比,来验证所提出模型的有效性。但在对比过程中,他们需要选定若干个下游任务,在每个任务下,通过公平的评估方式来对比不同模型的性能,由于不同模型在提出时可能会使用不完全一致的下游任务或者评估方式,他们需要花费大量精力修改基线模型来进行适配。

那么,如何快速、便捷地复现出基线模型(baseline)的结果,并将这些模型应用到自定义的数据集上?

为此,清华大学知识工程实验室(KEG)联合北京智源人工智能研究院(BAAI)开发了一种基于图深度学习的开源工具包——CogDL(底层架构为 PyTorch,编程语言为 Python)。

据 CogDL 开发者介绍,该工具包通过整合多种不同的下游任务,同时搭配合适的评估方式,使得研究者和使用者可以方便、快速地运行出各种基线模型的结果,进而将更多精力投入研发新模型的工作之中。

“对图领域中每种任务,我们提供了一套完整的“数据处理-模型搭建-模型训练-模型评估”的方案,易于研发人员做相关的实验。比如对于图上半监督节点分类任务,我们整合了常用的数据集 Cora、Citeseer、Pubmed,提供了经典的/前沿的各种模型(包括GCN、GAT、GCNII 等),提供了相应的训练脚本,并且整理出了一个相应的排行榜作为参考。” CogDL 开发者说。

CogDL 最特别的一点在于它以任务(task)为导向来集成所有算法,将每一个算法分配在一个或多个任务下,从而构建了 “数据处理-模型搭建-模型训练和验证” 一条龙的实现。

此外,CogDL 也支持研究者和使用者自定义模型和数据集,并嵌入在 CogDL 的整体框架下,从而帮助他们提高开发效率,同时也包含了当前许多数据集上 SOTA 算法的实现,并且仍然在不断更新。 CogDL:面向任务,扩展算法 图表示学习算法可以分为两类:一类是基于图神经网络的算法,另一类是基于 Skip-gram 或矩阵分解的算法。前者包括 GCN、GAT、GraphSAGE 和 DiffPool 等,以及适用于异构图的 RGCN、GATNE 等;后者则包括 Deepwalk、Node2Vec、HOPE 和 NetMF 等,以及用于图分类的 DGK、graph2vec 等算法。

大体上,CogDL 将已有图表示学习算法划分为以下 6 项任务:

有监督节点分类任务(node classification):包括 GCN、GAT、GraphSAGE、MixHop 和 GRAND 等;

无监督节点分类任务(unsupervised node classification):包括 DGI、GraphSAGE(无监督实现),以及 Deepwalk、Node2vec、ProNE 等;

有监督图分类任务(graph classification):包括 GIN、DiffPool、SortPool 等;

无监督图分类任务(unsupervised graph classification):包括 InfoGraph、DGK、Graph2Vec 等;

链接预测任务(link prediction):包括 RGCN、CompGCN、GATNE 等;

异构节点分类(multiplex node classification):包括 GTN、HAN、Metapath2vec 等。

CogDL 还包括图上的预训练模型 GCC,GCC 主要利用图的结构信息来预训练图神经网络,从而使得该网络可以迁移到其他数据集上,来取得较好的节点分类和图分类的效果。 能用来做什么? 那么,研究者和使用者可以利用 CogDL 做些什么?主要有三点:跟进 SOTA、复现实验,以及自定义模型和数据。

跟进 SOTA。CogDL 跟进最新发布的算法,包含不同任务下 SOTA 的实现,同时建立了不同任务下所有模型的 leaderboard(排行榜),研究人员和开发人员可以通过 leaderboard 比较不同算法的效果。

复现实验。论文模型的可复现性是非常重要的。CogDL 通过实现不同论文的模型也是对模型可复现性的一个检验。

自定义模型和数据。“数据-模型-训练”三部分在 CogDL 中是独立的,研究者和使用者可以自定义其中任何一部分,并复用其他部分,从而提高开发效率。 怎么用? 有两种方法:命令行直接运行,通过 API 调用 命令行直接运行。通过命令行可以直接指定 "task"、"model"、"dataset" 以及对应的超参数,并且支持同时指定多个模型和多个数据集,更方便。代码如下:

支持自定义数据集和模型,并且提供了自动调参的例子。

据 CogDL 研究者介绍,从 2019 年启动以来,该项目经过了多次密集的研发,到目前已经整合了图领域的重要任务及其相关的经典和前沿的模型。

CogDL 开发者表示,“起初,我们只是整合了实验室内部从事相关领域研究的同学所使用的相关代码,为了方便实验室其余的同学运行相关的实验。后来,我们决定将代码开源出来,让更多的研究和开发人员能够借助我们的代码从事相关工作。”

如今,CogDL 已经上线了 CogDL v0.1.1。

“我们增加了一些最前沿的图神经网络模型,包括图自监督模型、图预训练模型。用户可以利用图上预训练好的模型做不同的下游任务。在下游任务方面,我们增加了知识图谱的链接预测任务,方便从事知识图谱领域的用户进行相关实验。” CogDL 开发者说。

具体而言,在监督节点分类任务上,增加了 GRAND 和 DisenGCN,GRAND 在 Cora、PubMed、Citeseer 上取得了 SOTA 或者接近 SOTA 的效果;无监督节点分类任务上,增加了 DGI、MVGRL、GraphSAGE(无监督实现);在链接预测任务上,增加了知识图谱上的链接预测 GNN 模型 RGCN 和 CompGCN;以及增加了图上的预训练模型 GCC。

另外,CogDL 也提供了使用 optuna 进行超参数搜索的 example,通过指定 "模型,数据集,参数" 即可自动实现超参数的搜索。

接下来,CogDL 研究者希望在现有基础上,继续补充其余的图领域的下游任务,添加更多的数据集,更新每个任务的排行榜;同时增加最前沿的关于预训练的图神经网络模型,支持用户直接使用预训练好的模型来进行相关应用;以及完善 CogDL 的教程和文档,让刚接触图领域的初学者能够快速上手。

谈及最终的愿景,CogDL 研究者表示,一方面希望从事图数据领域的研究人员可以方便地利用 CogDL 来做实验,另一方面希望面向实际应用的开发人员可以利用 CogDL 来快速地搭建相关下游应用,最终打造一个完善的图领域的研发生态。
编辑:hfy

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50324

    浏览量

    266937
  • python
    +关注

    关注

    58

    文章

    4885

    浏览量

    90306
  • 深度学习
    +关注

    关注

    73

    文章

    5607

    浏览量

    124629
  • 结构化数据
    +关注

    关注

    0

    文章

    3

    浏览量

    2645
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    KITSGTL5000EVBE 开发工具包无响应,i2c 失败的原因?

    KITSGTL5000EVBE 开发工具包无响应,i2c 失败
    发表于 04-22 07:11

    免费数据库管理工具深度横评:NineData 社区版、Bytebase 社区版、Archery,2026 年开发者该选哪个?

    我们用一篇客观、严谨的横评,带你深度对比NineData 社区版 (v4.9.0)、Bytebase 社区版、Archery (开源)三款主流工具。所有结论均可在官方文档中溯源,力求给你最真实的参考。
    的头像 发表于 03-12 13:32 178次阅读
    免费数据库管理<b class='flag-5'>工具</b><b class='flag-5'>深度</b>横评:NineData 社区版、Bytebase 社区版、Archery,2026 年开发者该选哪个?

    AT32开源鸿蒙开发环境搭建

    ; &amp;gt;&amp;gt; ~/.bashrc source ~/.bashrc至此开源鸿蒙编译环境所需的工具包已安装完毕。 3.3 编译 AT32 支持
    发表于 01-16 13:56

    分享一个嵌入式开发学习路线

    。 开发环境与调试技巧:安装STM32CubeMX(配置工具)+ Keil MDK-ARM(编译软件)或VSCode+STM32CubeIDE(开源免费),学会用J-Link/SWD调试。 3. 深度
    发表于 12-04 11:01

    openDACS 2025 开源EDA与芯片赛项 赛题七:基于大模型的生成式原理设计

    特性。 补充: 该系统的用户输入和最终生成的原理网表格式均不作要求,参赛队伍可根据系统的实际需要,设计合理的用户输入和原理网表格式。 原理网表可视化可以结合现有的开源PCB设计
    发表于 11-13 11:49

    eForce无线通信软件开发工具包兼容WLAN模块WKR612AA1

    近期,eForce株式会社宣布,其面向嵌入式设备的无线通信软件开发工具包(μC3-WLAN SDK)现已兼容 KAGA FEI 生产的无线局域网(WLAN)模块"WKR612AA1"。
    的头像 发表于 09-24 15:16 1718次阅读

    如何在机器视觉中部署深度学习神经网络

    1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“
    的头像 发表于 09-10 17:38 1049次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    量化评估企业软件测试能力的评估工具包

    “每次版本迭代,测试团队总是最晚下班的一群人...”在汽车软件快速迭代的今天,这样的场景已成为行业常态:开发效率不断提升,但测试环节却逐渐成为拖慢交付的“最后一公里”。复杂的工具链、割裂的流程、模糊
    的头像 发表于 08-27 10:04 915次阅读
    量化评估企业软件测试能力的评估<b class='flag-5'>工具包</b>

    使用Altera SoC FPGA提升AI信道估计效率

    AI 套件和 OpenVINO 开源工具包部署深度学习模型。 该方案能够将更新频率和信令负担降低高达 99.9%,同时
    的头像 发表于 08-26 16:27 3776次阅读

    IQM 宣布 Resonance 量子云平台重大升级,推出全新软件开发工具包

    进程,并为终端用户带来性能强大的新一代量子系统。 此次升级将 Qrisp——一个源自德国弗劳恩霍夫 FOKUS 研究所的项目——设为平台新的默认软件开发工具包 (SDK)。Qrisp 为量子开发者
    的头像 发表于 07-11 11:03 804次阅读

    开源电机驱动,免费学习

    ), 支持高达 110,000 RPM 的超高转速。 应用场景: 主要面向 航模电调 、 DIY 暴力风扇 、 小型工业设备无刷电机驱动 等高转速应用。 开源性质: 硬件设计开源项目(原理、PCB 文件公开
    的头像 发表于 07-01 14:51 1073次阅读
    <b class='flag-5'>开源</b>电机驱动,免费<b class='flag-5'>学习</b>

    开源电机驱动,免费直播学习!

    开源电机驱动,免费直播学习!
    的头像 发表于 06-13 10:07 2019次阅读
    <b class='flag-5'>开源</b>电机驱动,免费直播<b class='flag-5'>学习</b>!

    开源鸿蒙工程工具分论坛圆满举办

    近日,开源鸿蒙开发者大会2025(OHDC.2025)工程工具分论坛在深圳圆满举办。本次分论坛由开源鸿蒙IDE SIG组长、华为终端BG工程工具技术专家唐春担任出品人,主题为“
    的头像 发表于 06-05 15:35 1178次阅读

    电机控制入门工具包用户指南

    本帖最后由 嗳唱歌de 于 2025-5-30 16:47 编辑 需要完整版资料可下载附件查看哦!
    发表于 05-30 16:02

    开源鸿蒙开发新体验,开鸿Bot系列今日开启预售!

    今日,深开鸿正式宣布,开鸿Bot系列产品——开鸿BotBook与开鸿BotMini全面开启预售。该系列面向开源鸿蒙开发者量身打造,搭载基于OpenHarmony深度定制的KaihongOS桌面
    发表于 05-16 14:13