0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习中的隐私保护

倩倩 来源:雷锋网 2020-04-15 16:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大数据时代的隐私泄露如达摩克利斯之剑,高悬在每个网民头上,而关于如何保护数据隐私我们也走了很长的路。

1977 年,统计学家 Tore Dalenius 给出关于数据隐私的严格定义:攻击者不能从隐私数据里获取任何在没有拿到数据之前他们所不知道的个人信息。

2006 年,计算机学者 Cynthia Dwork 证明上述定义的隐私保护是不存在的。有一个直观例子可以帮助理解:假设攻击者知道 Alice 的身高比 Lithuanian 女性平均身高高 2 英寸,这样攻击者只需要从一个数据集里获得 Lithuanian 女性身高平均值(在接触数据前攻击者并不知道),就能准确获得 Alice 的精确身高,甚至 Alice 都不需要在这个数据集里。因此,对于一份有信息量的数据,不可能完全不暴露隐私信息。

2018 年,史上最严苛的个人隐私保护法案《通用数据保护条例》( GDPR )正式生效,开创了互联网诞生以来的最大变革,数据隐私问题得到前所未有的重视。

近日,雷锋网了解到,第四范式先知( Sage )企业级 AI 平台已经完成 PrivacySeal EU 认证工作程序,率先通过欧盟 GDPR 认证,成为国内第一款通过该认证的 AI 平台产品,实证基于第四范式隐私计算技术的数据安全性和可信任性,那么,他们是如何保护用户隐私安全的?为此,雷锋网和第四范式的主任科学家涂威威聊了聊。

匿名化或许是个伪命题?

不知道有多少童鞋记得去年谷歌母公司 Alphabet Inc 因违反隐私数据法被罚款 5000 万欧元的事情,据说这是迄今为止欧洲范围内,一家公司因违反隐私数据法遭受到的最高额处罚金。多家英文科技媒体报道时,都用了 “record high”(破纪录地高)描述处罚力度之狠。

为什么谷歌会受到如此严重的惩罚?

首先,谷歌会收集自家相关应用和第三方网页访问的活动数据,通过安卓设备的“设备标识”以及“广告标识符”,将应用数据上传至谷歌服务器,并与用户的谷歌账户关联,形成了完整的闭合。简单来说,谷歌通过被动方式收集的所谓“匿名数据”与用户的个人信息相关联 ——绕了一大圈,最后大费周章用“合法手段”应用用户信息。

同样地,Google Ad Manager 的 Cookie ID(跟踪用户在第三方网页上的活动缓存信息)是另一个据称是“用户匿名”标识符。如果用户在同一浏览器中访问Google应用程序,Google 可以将其连接到用户的 Google 帐户之前访问过第三方网页。

换句话说,虽然通常在用户匿名的情况下收集信息,但 Google 明显拥有利用从其他来源收集的数据来对此类集合进行去匿名化的能力。

Google 之所以出现这类问题,主要源于其产品在数据流转及应用上不严谨所致,同时,一些常规匿名化手段的技术缺陷同样不容忽视。

而谷歌的广告业务几乎覆盖了 90% 全球用户,200 万个主流网站,也就是说不经意间我们的生活已经被谷歌的 “数据操控” 看了个清清楚楚明明白白。

2010 年,个人隐私律师 Paul Ohm 就曾在 UCLA 法律评论中刊文指出,虽然恶意攻击者可以使用个人身份信息(如姓名或社会安全号码)将数据与个人身份进行关联,但事实证明,即便只拥有那些不会被归类为“个人身份信息”的信息,他们也可以达到同样的目的。

Ohm 参考了 Sweeney 早期的一些研究,她发现 1990 年美国人口普查中有 87% 的人可以通过两条信息进行唯一识别:他们的出生日期和他们住址的邮政编码。Ohm 还引用了 Netflix 以及其他有关数据泄露的案例,并得出结论:在传统的以个人身份信息为保护重点的匿名化技术下,几乎任何数据都无法实现永久的完全匿名。

链接攻击、同质化攻击等方式都可能从匿名化数据中定位个人身份。例如链接攻击,通过数据的半标识符在其他能找到的表上进行查询,则可能找到对应的身份定位标识符以及其他敏感信息。

2013 年,研究人员发现位置数据具有高度的独特性,因此更加难以匿名化。许多匿名数据库都可能间接泄露你的位置,例如刷卡消费或前往医院就诊。研究人员发现,通过每小时记录4次手机连接到的信号发射塔,就可以对 95% 的设备进行唯一识别。如果数据更精细( GPS 跟踪而不是信号发射塔,或者实时采集而不是每小时采集),匹配则会变得更加容易。

于是,大家开始意识到“匿名化”这东西并没有那么安全,我们的信息还是会被窃取。

所以,一向注重用户隐私的苹果在 2016 的开发者大会上提出了“差分隐私(Differential Privacy)”的概念。即通过算法来打乱个体用户数据,让任何人都不能凭此追踪到具体的用户,但又可以允许机构成批分析数据以获得大规模的整体趋势用于机器学习。将用户隐私信息储存在本机而非云端也是苹果保护用户隐私的方法之一。例如 Face ID 面容信息、Touch ID 指纹信息等都存储在 iPhone 的芯片上。

不过,差分隐私还是无法避免多个相关数据上报而导致的隐私泄露。更何况,道高一尺魔高一丈,匿名方法推陈出新的同时,攻击者们也会采用更为强力的识别工具。

那么,第四范式推出的差分隐私又是如何做的呢?

机器学习中的隐私保护

据涂威威介绍,目前已有差分隐私机器学习算法上的工作,往往是通过往训练过程内注入噪声来实现差分隐私。

常见的有三种:目标函数扰动(objective perturbation)、输出扰动(output perturbation)、梯度扰动(gradient perturbation)。常见的机器学习算法,以最简单的 logistic regression 算法为例,已经有成熟的差分隐私算法,以及隐私保护和学习效果上的理论保障。然而就目前的方法以及对应的理论来看,对于隐私保护的要求越高,需要注入的噪声强度越大,从而对算法效果造成严重负面影响。

为了改善上述问题,第四范式基于以往 Stacking 集成学习方法的成效,将 Stacking 方法与差分隐私机器学习算法相结合。Stacking 需要将数据按照样本分成数份。并且提出了基于样本和基于特征切分的两种 Stacking 带隐私保护的机器学习算法。

在该算法中,数据按样本被分成两份,其中一份按特征或按样本分割后在差分隐私的约束下训练 K 个子模型,并在第二份上通过差分隐私机器学习算法进行融合。

按特征切分相比过去的算法和按样本切分算法有更低的泛化误差。同时,按特征切分有另一个优势,如果知道特征重要性,第四范式的差分隐私算法可以将其编入算法中,从而使得重要的特征被扰动的更少,在保持整体的隐私保护不变的情况下,可以得到更好的效果。

此外,还可以直接拓展到迁移学习上。即在源数据集上按照特征切分后得到带隐私保护的模型,通过模型迁移,迁移到目标数据集上并通过 Stacking 进行融合。在这种情况下,源数据可以在不暴露隐私的情况下输出模型帮助目标数据提升学习效果,而目标数据也可以在保护自身数据隐私的约束下训练模型。

不过,值得注意的是,以差分隐私为代表的隐私保护技术仍需要在理论、效果、应用、成本等方面进一步解决和优化。

涂威威介绍说:“比如,在成本方面,核心的问题其实是人力。机器学习已经是很复杂的技术,落地需要很专业的人才。当前的隐私保护技术使用门槛较高,在保护隐私的前提下,多方联合数据建模的常见做法依然需要比较多的专家人工介入到数据预处理、特征工程、模型调参当中,因此落地的人才门槛更高。且人力的介入又会给数据安全与隐私保护带来一层隐患。”

因此,在差分隐私的基础上,又衍生出了另一种保护隐私的自动多方机器学习技术。第四范式综合了差分隐私技术、自动化机器学习技术,让机器自动完成数据预处理、特征工程、模型调参等工作,大幅减少了专家人工的介入,一方面进一步提升了安全性,另一方面也大幅降低了隐私保护技术的使用门槛,使得广泛落地成为可能。该技术也将是保证技术规模化落地的关键。

最后,雷锋网想提醒大家,虽然在隐私和便利面前,我们都抓秃了头,但不代表这就没法解决了。

电影《绝对控制》中有一句话:“隐私不是公民权,而是特权”;隐私本应是每个公民最基础的权利,只不过在过去的很长时间中,我们从未意识到行使这项权利,以至于隐私竟变成了“特权”,不过庆幸的是隐私权正在回归,人们正在拾回分散在互联网中的隐私

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1801

    浏览量

    60278
  • 算法
    +关注

    关注

    23

    文章

    4762

    浏览量

    97176
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136245
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    发布元服务配置隐私声明

    元服务必须先使用AGC的隐私声明托管服务生成自己的隐私声明,才能在版本信息页面选择到。详细内容参见配置隐私声明(元服务)和配置用户协议。 登录AppGallery Connect,点击“APP与元
    发表于 11-25 11:24

    发布元服务配置隐私说明

    如果检测到元服务涉及获取敏感隐私权限或者使用受限开放权限,需要填写“应用隐私说明”。 注意 如果软件包声明使用了受限开放权限,请确保创建的发布Profile也申请了对应权限,否则元
    发表于 11-24 15:19

    保护隐私!树莓派上安装和配置 Pi-hole !

    什么是Pi-hole?https://pi-hole.net/Pi-hole是一款强大的全网络广告拦截器,可提升所有连接设备的隐私保护和性能表现。Pi-hole是一种基于DNS的全网络广告拦截器,在
    的头像 发表于 08-08 14:59 1421次阅读
    <b class='flag-5'>保护</b><b class='flag-5'>隐私</b>!树莓派上安装和配置 Pi-hole !

    使用PMUT传感器的独特价值:保护隐私,重塑感知边界

    随着对隐私保护的全球性法规日益严格:以及对智能设备在复杂多变环境鲁棒性、可靠性和成本效益要求的不断提高PMUT传感器技术的战略价值正加速显现将成为驱动下一代智能化人机交互、环境感知与自动化系统的关键核心部件,为智能化的可持续发
    的头像 发表于 08-07 11:08 682次阅读
    使用PMUT传感器的独特价值:<b class='flag-5'>保护</b><b class='flag-5'>隐私</b>,重塑感知边界

    大成建设(Taisei)图像数据隐私保护与AI开发协同案例解析

    基于数字化转型下的图像数据隐私保护与AI开发难题,本文以Taisei公司为例,详解客户实际需求,匹配隐私保护和数据效用完美均衡的深度自然匿名化方案,推动其人工智能的开发。
    的头像 发表于 07-30 10:23 545次阅读
    大成建设(Taisei)图像数据<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>与AI开发协同案例解析

    FPGA在机器学习的具体应用

    ,越来越多地被应用于机器学习任务。本文将探讨 FPGA 在机器学习的应用,特别是在加速神经网
    的头像 发表于 07-16 15:34 2643次阅读

    【HarmonyOS 5】鸿蒙应用隐私保护详解

    【HarmonyOS 5】鸿蒙应用隐私保护详解 ##鸿蒙开发能力 ##HarmonyOS SDK应用服务##鸿蒙金融类应用 (金融理财# 一、前言 在今天这个手机不离手的时代,我们每天用手机支付
    的头像 发表于 07-11 18:30 973次阅读

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 628次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器
    的头像 发表于 01-25 17:05 1231次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    康谋方案 | 本地匿名化解决方案:隐私保护、自主掌控和高效运行!

    本地匿名化解决方案,以隐私和安全为核心设计原则,利用Terraform部署技术实现灵活自动扩展,确保高吞吐量与高效管理。该方案确保隐私保护、具备高灵活性与控制力,并支持离线操作,已广泛应用于欧洲多个行业领导者,为企业数据管理、安
    的头像 发表于 01-22 11:15 3822次阅读
    康谋方案 | 本地匿名化解决方案:<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>、自主掌控和高效运行!

    深度自然匿名化:隐私保护与视觉完整性并存的未来!

    在科技快速发展的当下,个人隐私保护的需求日益凸显。如何能在隐私保护的基础上,保持视觉完整性,从而推动企业开发与创新? 深度自然匿名化(DNAT)已被证明是传统模糊化方法的更优替代方案,
    的头像 发表于 01-15 15:57 4816次阅读
    深度自然匿名化:<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>与视觉完整性并存的未来!

    传统机器学习方法和应用指导

    在上一篇文章,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统
    的头像 发表于 12-30 09:16 1986次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 705次阅读

    zeta在机器学习的应用 zeta的优缺点分析

    在探讨ZETA在机器学习的应用以及ZETA的优缺点时,需要明确的是,ZETA一词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的分析: 一、ZETA在机器
    的头像 发表于 12-20 09:11 1633次阅读

    cmp在机器学习的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习的作用 模型
    的头像 发表于 12-17 09:35 1331次阅读