0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GNN与联邦学习的强强组合又会擦出怎样的火花?

OSC开源社区 来源:OSCHINA 社区 2023-02-17 10:00 次阅读

联邦学习和 GNN 都是当前 AI 领域的研究热点。联邦学习的多个参与方可以在不泄露原始数据的情况下,安全合规地联合训练业务模型,目前已在诸多领域取得了较好的结果。GNN 在应对非欧数据结构时通常有较好的表现,因为它不仅考虑节点本身的特征还考虑节点之间的链接关系及强度,在诸如:异常个体识别、链接预测、分子性质预测、地理拓扑图预测交通拥堵等领域均有不俗表现。

那么 GNN 与联邦学习的强强组合又会擦出怎样的火花? 通常一个好的 GNN 算法需要丰富的节点特征与完整的连接信息,但现实场景中数据孤岛问题比较突出,单个数据拥有方往往只有有限的数据、特征、边信息,但我们借助联邦学习技术就可以充分利用各方数据安全合规地训练有强劲表现的 GNN 模型。

一、GNN 原理

1.1 图场景及数据表示

能用图刻画的场景很多,比如:社交网络、生物分子、电商网络、知识图谱等。

5e3af8f2-ae15-11ed-bfe3-dac502259ad0.png

图最基础且通用的分类是将其分为:同构图(一种节点 + 一种边)与异构图(节点类型 + 边类型 > 2),相应的示意图如下。

5e62776a-ae15-11ed-bfe3-dac502259ad0.png

一般来说,原始的图数据由两部分组成:节点数据(节点类型 + 节点 ID + 节点特征)、边数据(边类型 + 起点 + 终点)。原始数据经过解析处理后载入图存储模块,图存储的基本形式为邻接矩阵(COO),但一般出于存储与计算开销考虑采用稀疏存储表示(CSC/CSR)。

1.2 GNN 任务分类

5e87e90a-ae15-11ed-bfe3-dac502259ad0.png

GNN 任务一般分为如下四类:

・节点 / 边分类:异常用户识别。

・链接预测:user-item 购物倾向、知识图谱补全。

・全图分类:生物分子性质预测。

・其他:图聚类、图生成。

1.3 GNN 算法原理

我们以 GraphSAGE 为例讲解 GNN 的计算原理 [1],大致包含三个过程:采样、聚合、拟合目标。GraphSAGE 示意图如下:

5eb676b2-ae15-11ed-bfe3-dac502259ad0.jpg

GraphSAGE 算法的伪代码如下:

5ecc4dde-ae15-11ed-bfe3-dac502259ad0.png

下面我们给合实例与公式详细说明其计算过程,下图先给出采样过程与消息传递过程的框架原理。

5f0e05f8-ae15-11ed-bfe3-dac502259ad0.png

下图给出了具体的消息传递执行过程。

5f42b028-ae15-11ed-bfe3-dac502259ad0.png

二、联邦学习

之前机器学习模型训练的经典架构是:数据中心从各客户端或机构收集原始数据后,在数据中心对收集的全体数据进行模型训练。近年来随着数据隐私保护法规的颁布和数据安全意识的提升,机构间交换明文数据就不可行了。如何综合多个用户或机构间数据来训练模型?联邦学习技术应运而生。联邦学习一般分为如下两大类 [2]:

・联邦学习(横向):两个机构拥有较多相同特征,但是重合样本 ID 很少。比如:北京医院和上海医院的病人数据。

・联邦学习(纵向):两个机构拥有较多相同样本 ID,但是机构间重合特征较少。比如:北京银行和北京保险公司的客户数据。

2.1 横向联邦学习

5f55921a-ae15-11ed-bfe3-dac502259ad0.png

如上图所示,左边红虚线框内是数据表示,即重合样本较少,但特征相同。右边是经典的横向 FedAvg 算法,每个客户端拥有同样的模型结构,初始权重由 server 下发至客户端,待各客户端更新本地模型后,再将梯度 / 权重发送至 server 进行聚合,最后将聚合结果下发给各客户端以更新本地模型。

2.2 纵向联邦学习

5f7bac48-ae15-11ed-bfe3-dac502259ad0.png

如上图所示,左边红虚线框内代表数据表示,即两方拥有较多相同样本 ID,但是重合特征较少。右边是经典的两方纵向 DNN 模型训练架构 [3],其中 A 方 bottom 层结果要发送至 B 方,而 B 方拥有 label,用来计算 loss 及梯度,详细过程参考 [4]。

三、联邦 GNN

3.1 联邦 GNN 分类

3.1.1 图对象 + 数据划分

根据图数据在客户端的分布规则,具体以图对象(图、子图、节点)与数据划分(横向、纵向)角度来看,可以将联邦 GNN 分为四类 [5]: 1)inter-graph FL

5fcb9e42-ae15-11ed-bfe3-dac502259ad0.jpg

在此分类中,客户端的每条样本是图数据,最终的全局模型处理图级别的任务。此架构广泛应用在生物工程领域,通常用图来表示分子结构,其中节点表示原子,边表示原子间的化学键。在药物特性研究方面可以应用此技术,每个制药厂 k 都维护了自己的分子 - 属性数据集5feee3a2-ae15-11ed-bfe3-dac502259ad0.png ,但都不想分享给竞争对手。借助 inter-graph FL 技术,多家药厂就可以合作研究药物性质。在此例中,全局模型为: 5fff2424-ae15-11ed-bfe3-dac502259ad0.png 2)horizontal intra-graph FL

600eab92-ae15-11ed-bfe3-dac502259ad0.jpg

上图中全部客户端拥有的数据构成完整的图,其中虚线表示本应存在但实际不存在的边。此类架构中,每个客户端对应的子图拥有相同的特征空间和标签空间但拥有不同的 ID。在此设置下,全局 GNN 模型一般处理节点类任务和边任务: 601f30b6-ae15-11ed-bfe3-dac502259ad0.png

60346eae-ae15-11ed-bfe3-dac502259ad0.jpg

3)vertical intra-graph FL

6054b628-ae15-11ed-bfe3-dac502259ad0.jpg

此类架构中,客户端共享相同的 ID 空间,但不共享特征和标签空间。上图中的垂直虚线代表拥有相同 ID 的节点。在此架构中全局模型不唯一,这取决于多少客户端拥有标签,同时也意味着此架构可进行 multi-task learning。此架构主要用来以隐私保护的方式聚合各客户端相同节点的特征,共享相同节点的标签。如果不考虑数据对齐和数据共享问题,则相应的目标函数定义为:

60830744-ae15-11ed-bfe3-dac502259ad0.png

此架构一般应用在机构间合作,如反洗钱。犯罪分子采用跨多个机构的复杂策略进行洗钱活动,这时可应用此架构,通过机构间合作识别出洗钱行为。

4)graph-structured FL

609d6bfc-ae15-11ed-bfe3-dac502259ad0.jpg

此架构用来表示客户端之间的拓扑关系,一个客户端相当于图中一个节点。此架构会基于客户端拓扑聚合本地模型,全局模型可以处理联邦学习领域的各种任务和目标函数。

全局 GNN 模型旨在通过客户端之间的拓扑关系挖掘背后的隐含信息。此架构的经典应用是联邦交通流量预测,城市中的监控设备分布在不同的地方,GNN 用来描述设备间的空间依赖关系。

以上图为例全局 GNN 模型的聚合逻辑如下:

60af9ba6-ae15-11ed-bfe3-dac502259ad0.png

本节总结

60c97f94-ae15-11ed-bfe3-dac502259ad0.png

3.1.2 二维分类法

根据参考文献 [6],我们可以从 2 个维度对 FedGNNs 进行分类。第一个维度为主维度,聚焦于联邦学习与 GNN 如何结合;第二个维度为辅助维度,聚焦于联邦学习的聚合逻辑,用来解决不同 level 的图数据异构性。其分类汇总图大致如下:

60df83ca-ae15-11ed-bfe3-dac502259ad0.png

1)GNN-assisted FL

借助结构化的客户端来提升联邦学习训练效果,用虚线来表示客户端之间的网络拓扑关系。此架构一般分为两种形式:

・中心化架构:拥有客户端间的全局网络拓扑。可训练 GNN 模型提升联邦聚合效果,也可帮助客户端更新本地模型。

・非中心化架构:客户端间的全局网络拓扑必须提前给定,这样拥有子图的客户端就可以找到它在图中的邻居。

2)FL-assisted GNN

借助分散的图数据孤岛来提升 GNN 模型效果,具体通过联邦学习把图数据孤岛组织起来训练一个全局 GNN 模型。根据客户端是否有相同节点,此架构可分为如下两类:

・horizontal FedGNN:各客户端拥有的重叠节点不多,有可能会丢失跨客户端的链接,通常需要较复杂的处理方法。

・vertical FedGNN:各客户端拥有相同的节点集合,但持有的特征不相同。根据特征的分区方式不同,相应的处理方法也随之变化。

3)Auxiliary taxonomy 辅助分类聚焦于解决联邦学习客户端之间的异构性问题。具体可以分为三类:

・客户端拥有相同 ID:可将节点特征或中间表征上传至联邦服务器进行联邦聚合。常用于 vertical FedGNN 和有部分重复节点的水平 FedGNN。

・客户端拥有不同节点但相同网络结构:联邦聚合对象主要是模型权重和梯度。常用于 GNN-assisted FL 和无重复节点的 horizontal FedGNN。

・客户端拥有不同网络结构:先把本地模型做成图,然后将 GNN 作用于图之上。联邦聚合对象是 GNN 权重和梯度,常用于 centralized FedGNN。

3.2 FedGNN

3.2.1 问题定义

60f90f3e-ae15-11ed-bfe3-dac502259ad0.png

3.2.2 FedGNN 原理与架构

610c8438-ae15-11ed-bfe3-dac502259ad0.png

如上图,FedGNN [7] 由一个中心服务器和大量客户端组成。客户端基于其用户交互物品与邻居客户端在本地维护了一个子图。客户端基于本地子图学习 user/item embedding,以及 GNN 模型,然后将梯度上传给中心服务器。中心服务器用来协调客户端,具体是在训练过程中聚合从多个客户端收集的梯度(基于 FedAvg 算法),并将聚合后的梯度回传给客户端。如下我们将依次介绍一些技术细节。

6123fafa-ae15-11ed-bfe3-dac502259ad0.png

FedGNN 的完整算法流程见下述 Algorithm1,其中有两个隐私保护模块:其一是隐私保护模型更新(Algorithm1 的 9-11 行),用来保护梯度信息;其二是隐私保护 user-item 图扩充模块(Algorithm1 中第 15 行),用来对 user 和 item 的高阶交互进行建模。

6145510a-ae15-11ed-bfe3-dac502259ad0.png

3.2.3 隐私保护模型更新

embedding 梯度和模型梯度(GNN+rating predictor)直接传输会泄露隐私,因此需要对此进行安全防护。因为每个客户端维护了全量 item 的 embedding 表,通过同态加密保护梯度就不太现实(大量的存储和通信开销),文献 [7] 提出两个机制来保护模型更新过程中的隐私保护。

1)伪交互物品采样 随机采样 M 个用户并未交互过的物品,根据交互物品 embedding 梯度分布随机生成伪交互物品 embedding 梯度。于是第 i 个用户的模型和 embedding 梯度修改为 61736ac2-ae15-11ed-bfe3-dac502259ad0.png

2)采用 LDP(本地差分隐私)护本地梯度 首先通过梯度的无穷范数和阈值δ对梯度进行截断,然后基于 LDP 思想采用 0 均值拉普拉斯噪声对前述梯度进行扰动,从而实现对用户隐私的保护。相应的公式表达为:

gi=clip(g_i_,δ)+Laplace(0,λ)。受保护的梯度再上传到中心服务器进行聚合。

3.2.4 隐私保护图扩充

客户端本地 user-item 图以隐私保护方式找到邻居客户端,以达到对本地图自身的扩充。在中心化存储的 GNN 场景中,user 与 item 的高阶交互可通过全局 user-item 图方便获取。但非中心化场景中,在遵守隐私保护的前提下要想求得 user-item 高阶交互不是易事。文章提出通过寻找客户端的匿名邻居以提升 user 和 item 的表征学习,同时用户隐私不泄露,详细过程如下:

618a715e-ae15-11ed-bfe3-dac502259ad0.jpg

首先,中心服务器生成公钥并分发给各客户端。客户端收到公钥后,利用同态加密技术对交互物品 ID 进行加密处理。前述加密 ID 和用户 embedding 被上传至第三方服务器(不需要可信),通过 PSI 技术找到有相同交互物品的用户,然后为每个用户提供匿名邻居 embedding。最后,我们把用户的邻居用户节点连接起来,这样就以隐私保护的方式添加了 user-item 的高阶交互信息,丰富了客户端的本地 user-item 子图。

3.3 VFGNN

3.3.1 数据假设

训练一个好的 GNN 模型通常需要丰富的节点特征和完整的连接信息。但是节点特征和连接信息通常由多个数据方拥有,也就是所谓的数据孤岛问题。下图我们给出图数据纵向划分的例子 [8],其中三方各自拥有节点不同的特征,各方拥有不同类型的边。

61a9220c-ae15-11ed-bfe3-dac502259ad0.jpg

3.3.2 算法架构及流程

安全性假设:数据拥有方 A,B,C 和服务器 S 都是半诚实的,并且假定服务器 S 和任一数据拥有方不会合谋。这个安全假设符合大多数已有工作,并且和现实场景比较契合。

61cc723e-ae15-11ed-bfe3-dac502259ad0.png

上图即为 VFGNN 的架构图,它的计算分为两大部分:

・隐私数据相关计算:一般在数据拥有方本地进行。在 GNN 场景中,隐私数据有:节点特征、label、边信息。

・非隐私数据相关计算:一般将计算权委托给半诚实 server,主要是出于计算效率的考虑。

考虑到数据隐私性的问题,上述计算图分为如下三个计算子图,且各自承担的工作如下:

•CG1:隐私特征和边相关计算。先利用节点隐私特征生成 initial node embedding,这个过程是多方协同工作的。接着通过采样找到节点的多跳邻居,再应用聚合函数生成 local node embedding。

•CG2:非隐私数据相关计算。出于效率考虑,作者把非隐私数据相关计算委托给半诚实服务器。此服务器把从各方收集的 local node embedding 通过不同的 COMBINE 策略处理生成 global node embedding。接着可以进行若干明文类的操作,比如 max-pooling、activation(这些计算在密文状态下不友好)。进行一系列明文处理后,我们得到最后一个隐层输出_ZL_,然后把它发送给拥有 label 的数据方计算预测值。

•CG3:隐私标签相关计算。以节点分类任务为例 ,当收到_ZL_后可以快速计算出预测值,具体通过 softmax 函数进行处理。

3.3.3 重要组件

Generating Initial Node Embedding

61fba3b0-ae15-11ed-bfe3-dac502259ad0.png

如果各方独立生成 initial node embedding(上图 a),则遵循如下计算公式:

6224f0c6-ae15-11ed-bfe3-dac502259ad0.png

如果各方协同生成 initial node emb,则可按上图 b 中应用 MPC 技术进行处理。 Generating Local Node Embedding 基于前述生成的 initial node embedding,及节点的多跳邻居节点,应用聚合函数可以生成 local node embedding。邻居节点的聚合操作必须在本地进行而不需要多方协同,目的是保护隐私的边信息。一个节点的邻居节点聚合操作和常规 GNN 一样,以 GraphSAGE 为例节点的聚合操作是通过采样和聚合特征形成了 local node embedding,具体公式如下:

62379578-ae15-11ed-bfe3-dac502259ad0.png

GraphSAGE 中,常用的聚合函数有:Mean、LSTM、Pooling。接着数据拥有方把 local node embedding 发送给半诚实服务器,以进行 COMBINE 操作及后续的非隐私数据计算逻辑。 Generating Global Node Embedding 对各方传来的 local node embedding 执行 combine 操作可以生成 global node embedding。combine 策略一般是可训练且高表达容量,文章给出了三种策略:

1)Concat

62513366-ae15-11ed-bfe3-dac502259ad0.png

2)Mean

626c0ede-ae15-11ed-bfe3-dac502259ad0.png

3)Regression

627d2b7e-ae15-11ed-bfe3-dac502259ad0.png

3.3.4 隐私保护 DP

如果在前向过程中把 local node embedding 直接传给半诚实服务器,或在反向传播过程中直接传递梯度信息很可能造成信息泄露。本文提出了两种基于 DP 的方法用来保护信息发布过程,算法流程如下:

629a4740-ae15-11ed-bfe3-dac502259ad0.jpg

3.3.5 VFGNN 前向算法

以 GraphSAGE 处理节点分类任务为例,VFGNN 算法的前向过程描述如下:

62bbc672-ae15-11ed-bfe3-dac502259ad0.png

3.4 其他算法及项目

最近四年出现的联邦 GNN 算法 [9]:

62db76b6-ae15-11ed-bfe3-dac502259ad0.png

开源项目有:FedGraphNN [10]。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • CSR
    CSR
    +关注

    关注

    3

    文章

    117

    浏览量

    69430
  • 机器学习
    +关注

    关注

    66

    文章

    8126

    浏览量

    130571
  • CSC
    CSC
    +关注

    关注

    0

    文章

    4

    浏览量

    2346
  • GNN
    GNN
    +关注

    关注

    1

    文章

    31

    浏览量

    6287

原文标题:联邦GNN综述与经典算法介绍

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    东芝和日本半导体擦出火花,新技术为模拟电源IC提高可靠性

    在研发相关技术的过程中,东芝与其制造子公司——日本半导体擦出了强烈的火花
    的头像 发表于 07-12 08:56 6177次阅读

    机器学习实战:GNN加速器的FPGA解决方案

    的提升,对传统的机器学习算法设计以及其实现技术带来了严峻的挑战。在此背景之下,诸多基于Graph的新型机器学习算法—GNN(图神经网络),在学术界和产业界不断的涌现出来。GNN对算力和
    发表于 10-20 09:48

    Python遇上物联网又会碰撞出怎样火花

    Python火到什么程度?学习python能做什么?Python遇上硬件、遇上物联网又会碰撞出怎样火花呢?
    发表于 08-27 07:26

    学习python能做什么

    Python火到什么程度?学习python能做什么?Python遇上硬件、遇上物联网又会碰撞出怎样火花呢?
    发表于 09-01 06:22

    FPC软板补设计

    最近在某EDA画了一块FPC,有专门的FPC补工具,输出的GERBER层名也有补信息,在他们平台下单也可以自动识别补信息,而且还可以少50块,不知道华秋DFM是否可以识别,如果可以检查就比较完美了
    发表于 10-08 15:00

    再度进化 华为P10和一加3T到底会擦出怎样火花?

    手机终于来到了消费者面前。而作为华为今年上半年的旗舰,不知道与当前同处于顶级水平的一加3T对比会擦出怎样火花呢?
    发表于 04-05 14:47 625次阅读

    一加5对比三星GalaxyS8深度评测:刚与柔之争能擦好大的火花

    近期,颇受大众关注的无疑就是一年只发一款旗舰担当的一加5,以及孜孜不倦追求极致工业设计的三星Galaxy S8。而在这两款年度旗舰碰撞下,又会擦出怎样火花呢?
    发表于 07-04 16:37 5967次阅读

    AI与区块链的融合将带来时代的剧变

    AI与区块链都是当今比较热门的技术,每一个深程度的研究都会给未来世界的带来剧变。那么AI与区块链融合发展又会擦出怎样火花
    发表于 12-14 16:05 555次阅读

    Face ID —泰克和苹果擦出了什么火花

    ,为这个耀眼的未来科技实现商用化提供了坚实而精准的合作支持。 那么,这两个高科技公司究竟擦出了什么火花呢?
    的头像 发表于 03-01 15:09 4980次阅读

    如果将人工智能和区块链相结合,会擦出怎样火花呢?

    最近几年,人工智能和区块链都十分火热,可以说是备受行业青睐。由于两种技术不同,商业价值也不同,但是,如果将人工智能和区块链相结合,会擦出怎样火花呢?
    发表于 10-08 10:01 1014次阅读

    人脸识别碰撞智慧机场 新科技不断擦出火花

    人脸识别技术作为当前十分火热的应用之一在各个领域中应用越来越广泛,刷脸成为一种新的潮流趋势。在公共交通运输中,航空运输在近年来的客流量持续增涨,成为越来越多人出行的选择。人脸识别&航空运输两大热门激情碰撞,又会擦出怎样
    发表于 12-07 09:52 2139次阅读

    5G与医疗会碰撞出什么样的火花

    5G技术和医疗相遇,会擦出怎样火花?专家给出了许多人们意想不到的答案。
    发表于 08-15 15:22 1420次阅读

    将VR技术应用于教育行业,能擦出怎样火花

    一下VR和教育培训相结合,能擦出怎样火花? 1、灾害防护和教育 随着近年来地震、台风等自然灾害的频繁发生,人们的个人应急素质、应急能力渐曝其短。为此,社会各界开始牢抓科普教育,设置情景式的应急逃生模拟。这也给VR技术扎
    发表于 07-13 14:17 379次阅读

    当体育拥抱人工智能时擦出更多智慧“火花

    积极拥抱科技发展,让人工智能更好地服务体育――体育与科技肯定能擦出更多智慧“火花”。
    的头像 发表于 11-12 14:38 7307次阅读

    物联网与教育行业相结合会擦出怎样火花

    当物联网与教育行业相结合,会摩擦出怎样火花? 在教育信息化的时代,「智慧校园」正在兴起一场新的教育革命。通过物联网、云计算、大数据等新兴技术的加持,中科易安将「传统门锁」硬件和「管理平台」软件有效
    发表于 05-23 11:51 392次阅读