机器学习中的隐私保护-电子发烧友网

大数据时代的隐私泄露如达摩克利斯之剑，高悬在每个网民头上，而关于如何保护数据隐私我们也走了很长的路。

1977 年，统计学家 Tore Dalenius 给出关于数据隐私的严格定义：攻击者不能从隐私数据里获取任何在没有拿到数据之前他们所不知道的个人信息。

2006 年，计算机学者 Cynthia Dwork 证明上述定义的隐私保护是不存在的。有一个直观例子可以帮助理解：假设攻击者知道 Alice 的身高比 Lithuanian 女性平均身高高 2 英寸，这样攻击者只需要从一个数据集里获得 Lithuanian 女性身高平均值（在接触数据前攻击者并不知道），就能准确获得 Alice 的精确身高，甚至 Alice 都不需要在这个数据集里。因此，对于一份有信息量的数据，不可能完全不暴露隐私信息。

2018 年，史上最严苛的个人隐私保护法案《通用数据保护条例》（ GDPR ）正式生效，开创了互联网诞生以来的最大变革，数据隐私问题得到前所未有的重视。

近日，雷锋网了解到，第四范式先知（ Sage ）企业级 AI 平台已经完成 PrivacySeal EU 认证工作程序，率先通过欧盟 GDPR 认证，成为国内第一款通过该认证的 AI 平台产品，实证基于第四范式隐私计算技术的数据安全性和可信任性，那么，他们是如何保护用户隐私安全的？为此，雷锋网和第四范式的主任科学家涂威威聊了聊。

匿名化或许是个伪命题？

不知道有多少童鞋记得去年谷歌母公司 Alphabet Inc 因违反隐私数据法被罚款 5000 万欧元的事情，据说这是迄今为止欧洲范围内，一家公司因违反隐私数据法遭受到的最高额处罚金。多家英文科技媒体报道时，都用了 “record high”（破纪录地高）描述处罚力度之狠。

为什么谷歌会受到如此严重的惩罚？

首先，谷歌会收集自家相关应用和第三方网页访问的活动数据，通过安卓设备的“设备标识”以及“广告标识符”，将应用数据上传至谷歌服务器，并与用户的谷歌账户关联，形成了完整的闭合。简单来说，谷歌通过被动方式收集的所谓“匿名数据”与用户的个人信息相关联 ——绕了一大圈，最后大费周章用“合法手段”应用用户信息。

同样地，Google Ad Manager 的 Cookie ID（跟踪用户在第三方网页上的活动缓存信息）是另一个据称是“用户匿名”标识符。如果用户在同一浏览器中访问Google应用程序，Google 可以将其连接到用户的 Google 帐户之前访问过第三方网页。

换句话说，虽然通常在用户匿名的情况下收集信息，但 Google 明显拥有利用从其他来源收集的数据来对此类集合进行去匿名化的能力。

Google 之所以出现这类问题，主要源于其产品在数据流转及应用上不严谨所致，同时，一些常规匿名化手段的技术缺陷同样不容忽视。

而谷歌的广告业务几乎覆盖了 90% 全球用户，200 万个主流网站，也就是说不经意间我们的生活已经被谷歌的 “数据操控” 看了个清清楚楚明明白白。

2010 年，个人隐私律师 Paul Ohm 就曾在 UCLA 法律评论中刊文指出，虽然恶意攻击者可以使用个人身份信息（如姓名或社会安全号码）将数据与个人身份进行关联，但事实证明，即便只拥有那些不会被归类为“个人身份信息”的信息，他们也可以达到同样的目的。

Ohm 参考了 Sweeney 早期的一些研究，她发现 1990 年美国人口普查中有 87％的人可以通过两条信息进行唯一识别：他们的出生日期和他们住址的邮政编码。Ohm 还引用了 Netflix 以及其他有关数据泄露的案例，并得出结论：在传统的以个人身份信息为保护重点的匿名化技术下，几乎任何数据都无法实现永久的完全匿名。

链接攻击、同质化攻击等方式都可能从匿名化数据中定位个人身份。例如链接攻击，通过数据的半标识符在其他能找到的表上进行查询，则可能找到对应的身份定位标识符以及其他敏感信息。

2013 年，研究人员发现位置数据具有高度的独特性，因此更加难以匿名化。许多匿名数据库都可能间接泄露你的位置，例如刷卡消费或前往医院就诊。研究人员发现，通过每小时记录4次手机连接到的信号发射塔，就可以对 95％的设备进行唯一识别。如果数据更精细（ GPS 跟踪而不是信号发射塔，或者实时采集而不是每小时采集），匹配则会变得更加容易。

于是，大家开始意识到“匿名化”这东西并没有那么安全，我们的信息还是会被窃取。

所以，一向注重用户隐私的苹果在 2016 的开发者大会上提出了“差分隐私（Differential Privacy）”的概念。即通过算法来打乱个体用户数据，让任何人都不能凭此追踪到具体的用户，但又可以允许机构成批分析数据以获得大规模的整体趋势用于机器学习。将用户隐私信息储存在本机而非云端也是苹果保护用户隐私的方法之一。例如 Face ID 面容信息、Touch ID 指纹信息等都存储在 iPhone 的芯片上。

不过，差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况，道高一尺魔高一丈，匿名方法推陈出新的同时，攻击者们也会采用更为强力的识别工具。

那么，第四范式推出的差分隐私又是如何做的呢？

机器学习中的隐私保护

据涂威威介绍，目前已有差分隐私机器学习算法上的工作，往往是通过往训练过程内注入噪声来实现差分隐私。

常见的有三种：目标函数扰动（objective perturbation）、输出扰动（output perturbation）、梯度扰动（gradient perturbation）。常见的机器学习算法，以最简单的 logistic regression 算法为例，已经有成熟的差分隐私算法，以及隐私保护和学习效果上的理论保障。然而就目前的方法以及对应的理论来看，对于隐私保护的要求越高，需要注入的噪声强度越大，从而对算法效果造成严重负面影响。

为了改善上述问题，第四范式基于以往 Stacking 集成学习方法的成效，将 Stacking 方法与差分隐私机器学习算法相结合。Stacking 需要将数据按照样本分成数份。并且提出了基于样本和基于特征切分的两种 Stacking 带隐私保护的机器学习算法。

在该算法中，数据按样本被分成两份，其中一份按特征或按样本分割后在差分隐私的约束下训练 K 个子模型，并在第二份上通过差分隐私机器学习算法进行融合。

按特征切分相比过去的算法和按样本切分算法有更低的泛化误差。同时，按特征切分有另一个优势，如果知道特征重要性，第四范式的差分隐私算法可以将其编入算法中，从而使得重要的特征被扰动的更少，在保持整体的隐私保护不变的情况下，可以得到更好的效果。

此外，还可以直接拓展到迁移学习上。即在源数据集上按照特征切分后得到带隐私保护的模型，通过模型迁移，迁移到目标数据集上并通过 Stacking 进行融合。在这种情况下，源数据可以在不暴露隐私的情况下输出模型帮助目标数据提升学习效果，而目标数据也可以在保护自身数据隐私的约束下训练模型。

不过，值得注意的是，以差分隐私为代表的隐私保护技术仍需要在理论、效果、应用、成本等方面进一步解决和优化。

涂威威介绍说：“比如，在成本方面，核心的问题其实是人力。机器学习已经是很复杂的技术，落地需要很专业的人才。当前的隐私保护技术使用门槛较高，在保护隐私的前提下，多方联合数据建模的常见做法依然需要比较多的专家人工介入到数据预处理、特征工程、模型调参当中，因此落地的人才门槛更高。且人力的介入又会给数据安全与隐私保护带来一层隐患。”

因此，在差分隐私的基础上，又衍生出了另一种保护隐私的自动多方机器学习技术。第四范式综合了差分隐私技术、自动化机器学习技术，让机器自动完成数据预处理、特征工程、模型调参等工作，大幅减少了专家人工的介入，一方面进一步提升了安全性，另一方面也大幅降低了隐私保护技术的使用门槛，使得广泛落地成为可能。该技术也将是保证技术规模化落地的关键。

最后，雷锋网想提醒大家，虽然在隐私和便利面前，我们都抓秃了头，但不代表这就没法解决了。

电影《绝对控制》中有一句话：“隐私不是公民权，而是特权”；隐私本应是每个公民最基础的权利，只不过在过去的很长时间中，我们从未意识到行使这项权利，以至于隐私竟变成了“特权”，不过庆幸的是隐私权正在回归，人们正在拾回分散在互联网中的隐私

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Google

Google

+关注

关注
5

文章
1709

浏览量
56782
算法

算法

+关注

关注
23

文章
4448

浏览量
90718
机器学习

机器学习

+关注

关注
66

文章
8095

浏览量
130514

特信便携式屏蔽器：保护通讯隐私的便携安全利器？

特信便携式屏蔽器：保护通讯隐私的便携安全利器？|深圳市特信电子有限公司

发表于 03-28 09:08 •120次阅读

华为以创新科技保护用户隐私

用户的隐私被泄露的案件很多，以华为为代表的企业，积极通过科技手段在保护用户隐私安全上发力，从根源上解决隐私泄露的问题。华为坚持贯彻用户受益的原则，华为在产品设计开发过程中，始终贯彻

发表于 01-29 14:11 •2219次阅读

一眼看懂鸿蒙OS 应用隐私保护

随着移动终端及其相关业务（如移动支付、终端云等）的普及，用户隐私保护的重要性愈发突出。应用开发者在产品设计阶段就需要考虑保护的用户隐私，提高应用的安全性。HarmonyOS 应用开发需

发表于 01-26 17:04 •303次阅读

一眼看懂鸿蒙OS 应用<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>

HarmonyOS鸿蒙原生应用开发设计- 隐私声明

HarmonyOS设计文档中，为大家提供了独特的隐私声明，开发者可以根据需要直接引用。开发者直接使用官方提供的隐私声明内容，既可以符合HarmonyOS原生应用的开发上架运营规范，又可

发表于 10-31 14:16

车联网隐私安全威胁及保护方案

1、车联网隐私安全威胁privacy security threat 2、车辆跟踪攻击平台Vehicle tracking attack platform 3、身份隐私保护方案ldentity

发表于 08-31 11:14 •497次阅读

车联网<b class='flag-5'>隐私</b>安全威胁及<b class='flag-5'>保护</b>方案

机器学习有哪些算法？机器学习分类算法有哪些？机器学习预判有哪些算法？

发表于 08-17 16:30 •1369次阅读

机器学习是什么意思？机器学习属于什么分支？机器学习有什么用处？

机器学习是什么意思？机器学习属于什么分支？机器学习是什么有什么用处？

发表于 08-17 16:30 •1254次阅读

机器学习算法入门机器学习算法介绍机器学习算法对比

机器学习算法入门机器学习算法介绍机器学习算法对比机器

发表于 08-17 16:27 •608次阅读

机器学习算法总结机器学习算法是什么机器学习算法优缺点

机器学习算法总结机器学习算法是什么?机器学习算法优缺点?

发表于 08-17 16:11 •1026次阅读

机器学习算法汇总机器学习算法分类机器学习算法模型

机器学习算法汇总机器学习算法分类机器学习算法模型机器

发表于 08-17 16:11 •701次阅读

机器学习和深度学习的区别

机器学习和深度学习的区别随着人工智能技术的不断发展，机器学习和深度学习已经成为大家熟知的两个术

发表于 08-17 16:11 •3262次阅读

苹果的差分隐私技术原理详解

差分隐私是一种数据隐私保护技术，它通过在数据中引入随机化扰动的手段来保护隐私。简单来说，扰动后的数据是无法精确地推断出其原始值。

发表于 07-19 10:17 •871次阅读

点云标注中的隐私保护和数据安全问题

点云标注过程中涉及到大量的敏感数据和隐私信息，如车辆位置、道路环境等。因此，在点云标注中确保隐私保护和数据安全是非常重要的。首先，隐私保护

发表于 07-18 18:12 •482次阅读

如何提高在线隐私保护水平

不管你是否使用 Linux，都可以采用以下提示来提高在线隐私保护水平，为安全保障带来最佳表现！渐渐地，用户转向注重隐私，而非便利的解决方案。为什么？简单来说就是，越来越多的人意识到他们个人

发表于 05-22 10:48 •474次阅读

人脸识别：现代科技与隐私保护的博弈

人脸识别技术作为一项现代科技，已经深入我们的日常生活，包括我们的社交、购物、银行等场景。与此同时，这项技术也引发了广泛的关注和争议，特别是在隐私保护方面。在这篇文章中，我们将探讨人脸识别技术的发展历程、应用场景、隐私

发表于 04-28 17:11 •530次阅读

搜索历史

机器学习中的隐私保护

匿名化或许是个伪命题？

为什么谷歌会受到如此严重的惩罚？

机器学习中的隐私保护

评论