0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于差分隐私的数据匿名化隐私保护模型研究介绍

lhl545545 来源:FreeBuf 作者:FreeBuf 2020-10-11 10:42 次阅读

匿名化的前世今生

数据匿名的社会意识应该是近几年才日渐扩散的,但其实来自技术层面的畅想与实践早就开始了。

实验室总是先走一步,1997年,美国学者Samarati和Sweeney提出了k-anonymity匿名模型,为后续各种技术解决方案的涌现开了先河。当然,届时,数据匿名这个话题更多是停留在技术圈内的狂欢。

随着大数据、智能技术近年的发展与渗透,数据泄露、隐私侵犯等问题日渐凸显,并且受影响的群体日渐几何级增长。一方面数据作为智能时代的基石,不可能因噎废食,完全放弃,另一方面,政府、企业、个人都因该问题而持续困扰,市场格局也容易产生波动,这于长远发展不利。

此时,匿名化技术成为可以折中的方案。不过,数据匿名化需要技术投入,如果仅靠企业主观驱动,效果有限。所以,整个匿名数据的发展中,真正打破僵局的是法律领域的关注。

最为代表的则是令互联网企业心有余悸的GDPR。2018年正式实行的GDPR,将个人数据的保护力度提至前所未有的高度,亦对数据处理企业等主体施加了甚为严苛的保护义务和法律责任。其中,有一条,GDPR提到:控制者在确定处理方式和处理过程中,应当采取适当技术和组织措施,诸如假名化(pseudonymisation)处理,将额外数据与个人数据分别保存,除非使用额外数据,否则个人数据无法指向特定数据主体。

显然,GDPR白纸黑字地将个人数据的保护上升到法律层面,这已经将此前数据使用过程中涉及的大部分暧昧地带清晰化。此外,真正具有威慑力的是其“残忍”的惩罚力度。众所周知,如果科技巨头越雷池一步, GDPR是真的会开出开天价罚单。

最有意思的案例即是,GDPR开始生效的第一天就“开门红”,一下起诉了两大科技巨头:Facebook和谷歌。两家公司被指控强迫用户同意共享个人数据,且分别面临39亿欧元和37亿欧元(共计约88亿美元)的罚款风险。

当然除了GDPR,各政府都相继出台了相关严厉的个人数据保护法。如英国更新了数据保护法案,加上了个人数据的重视力度,中国也出台了数据安全法草案,明确了保护责任。,FTC在2012年发布的隐私保护指南中更是扩大了个人数据的边界,突破了传统定义中的与具体的自然人相关联,扩展到了用户所使用设备标识等。

在这样的背景下,对于企业来说,天价罚单是割肉之痛,政府的监管是不可逾越的红线,此外,用户隐私保护意识的觉醒也是不可推辞的需求。

GDPR在对匿名化的界定中也提到:“匿名化是指将个人数据移除可识别个人信息的部分,并且通过这一方法,数据主体不会再被识别。匿名化数据不属于个人数据,因此无须适用条例的相关要求,机构可以自由的处理匿名化数据”。

数据匿名则成为了许多企业或者数据应用主体的重点投入方向。有业内专家表示,匿名数据的收集主要用于帮助公司发现产品错误,这是互联网通过分析非个人可识别信息来改善整体产品体验最常见的解决方案之一。

数据匿名的“bug”

那么,常见的数据匿名方式有哪些?广义上可以分为两类:一是扰动方式,即让原始数据值失真,如数据屏蔽脱敏、噪声添加等,二是非扰动方式,即使数据集不完整,通过按照在记录个体层面维持数据真实性的方式改变在净化数据集中报告数据值的粒度来工作,如数据抑制和数据泛化。前文提到的k-anonymity匿名模型则是非扰动的一种重要方法。它要求发布的数据中存在一定数量(至少为k) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。

数据匿名一直在发展,问题也逐渐显露。所谓,“道高一尺魔高一丈”,匿名化一一定程度上保护了隐私,但“有心人”依旧可以从匿名数据中进行身份确认。

一位德国研究员在曾第33届Chaos Computer Club会议上公布了自己的研究成果:尽管是已经匿名化的点击流,也可以顺藤摸瓜找到用户清晰画像,数量少于十个的不同域名就足以让你暴露。披着匿名的外衣,这些数据被称为“Dark Data”,是非常容易滋生邪恶的新孕育地。

此外,去年,英国Nature Communications杂志发表的一项研究表示,英国科学家利用一种新开发的统计方法发现,一个人的身份可以从一个不完整的匿名化数据库中被识别出来。研究人员开发了一个机器学习模型,使用邮编、性别、出生日期三个信息,有81%的概率可以在“匿名”数据集中准确地追踪到某一个人。

事实证明,数据匿名方法不仅面临自身技术迭代更新的压力,也有新技术不断带来的冲击,如人工智能相关算法可能利用零星数据可以训练出较为精准的用户画像。

基于差分隐私的方案

道阻且长,行之将至。目前法律、市场、技术各方面都为数据匿名做好了一定的基础建设,接下来则是需要更多的投入与更新。首先,从此那个参与角色的角度来看,依旧需要政府组织牵头,从法律层面为整个业态施加强行规范化的压力,企业则需要更多资源投入匿名化建设,而个人则需从日常细节上提升网络隐私意识,如有意识地使用匿名化浏览器、及时清理清除cookie和Web数据等,

另外,则是来自技术角度的迭代更新,针对安全性不足的数据匿名现状,已经出现了基于差分隐私的数据匿名化隐私保护模型研究。差分隐私(differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。

实际上,差分隐私也利用了统计学。该技术可以实现:向一个人的使用习惯样本中增加噪声,保证数据相对模糊与匿名,随着越来越多人呈现出相同的使用习惯,开始识别总结出共性。一个人的数据可能不准确,但是大量用户的数据可以得出相对准确的结论。这种情况下,即使有人攻击了数据库,也只能看到系统化的共性信息,不能精确识别具体的个人信息。苹果、Facebook、华为都在用该技术来来帮助发掘其大量用户的使用习惯。

值得一提的是,《MIT科技评论》评选的2020年十大突破技术中,差分隐私榜上有名。

不过,由于差分隐私是一项仍在探索中的技术。门槛较高,所以投入成本也想要较高。其处理过程对于人才资源的需求较大,同时也带来新的问题,多人的介入与隐私保护也会出现一定的冲突。为解决此问题,市面上一些企业注入了自动化机器学习的方法。

显然,隐私保护问题的解决一定是多学科、多技术流派融合的。

唯一不变的就是变化,“安全是动态话题”已经是老生常谈,数据隐私的安全也是一样。匿名数据只是为目前的数据裸奔问题提供了一个相对明朗可行的解决方法,并不是绝对安全的保护屏障。我们能做的只有随变化而变化,甚至是走在变化的前面。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6513

    浏览量

    87609
  • 人工智能
    +关注

    关注

    1776

    文章

    43886

    浏览量

    230632
  • 机器学习
    +关注

    关注

    66

    文章

    8131

    浏览量

    130573
收藏 人收藏

    评论

    相关推荐

    特信便携式屏蔽器:保护通讯隐私的便携安全利器?

    特信便携式屏蔽器:保护通讯隐私的便携安全利器?|深圳市特信电子有限公司
    的头像 发表于 03-28 09:08 145次阅读

    Meta收到欧盟8家团体投诉违反欧盟的隐私保护规则

    Meta收到欧盟8家团体投诉违反欧盟的隐私保护规则 日前,捷克共和国、丹麦、法国、希腊、挪威、斯洛伐克、斯洛文尼亚和西班牙的消费者团体状告Meta公司违反欧盟的隐私保护规则。 欧盟这8
    的头像 发表于 03-01 16:18 126次阅读

    混乱的汽车隐私数据

    现代汽车正在跟踪我们的数据,并以共享驾驶员位置和行为的方式实现互联,但乘员却无法得知这些数据的用途,也无法得知如何关闭数据收集功能——如果有这项功能的话。为此,加州一家旨在保护人们
    的头像 发表于 01-29 16:24 255次阅读

    华为以创新科技保护用户隐私

    的基本原则。 华为通过打造华为隐私安全品牌,从系统层面建立保护机制,实现全维度守护用户的隐私安全。 华为一贯将用户隐私安全置于首位,在HarmonyOS引入了
    的头像 发表于 01-29 14:11 2407次阅读

    一眼看懂鸿蒙OS 应用隐私保护

    随着移动终端及其相关业务(如移动支付、终端云等)的普及,用户隐私保护的重要性愈发突出。应用开发者在产品设计阶段就需要考虑保护的用户隐私,提高应用的安全性。HarmonyOS 应用开发需
    的头像 发表于 01-26 17:04 313次阅读
    一眼看懂鸿蒙OS 应用<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>

    鸿蒙原生应用/元服务实战-Web隐私声明

    这个位置的隐私申明是需要在WEB网页下完成的,ArkTS鸿蒙原生应用与元服务开发者,不一定熟悉这块,一些公司也不一定有自己的服务器和域名、网站网页或者相关权限是外包,没法进行实时操作。所以,这块要提前准备,要不会影响提交进度。
    发表于 01-24 15:05

    喜报|易华录自研隐私计算平台通过信通院“可信隐私计算”测试

    12月20日,中国信通院在2023数据资产管理大会中公布第九批“可信隐私计算”评估测试结果, 易华录隐私计算平台V1.3(以下简称“平台”)通过本批“联邦学习 基础能力专项测试” 。 这标志着 平台
    的头像 发表于 12-22 19:55 464次阅读
    喜报|易华录自研<b class='flag-5'>隐私</b>计算平台通过信通院“可信<b class='flag-5'>隐私</b>计算”测试

    HarmonyOS鸿蒙原生应用开发设计- 隐私声明

    以防止使用别人的内容产生的侵权意外情况等,减少自主创作隐私声明的工作量。当然,如果有个性的自主又有能力创作的除外。 HarmonyOS 隐私声明 下载地址: https://gitee.com
    发表于 10-31 14:16

    如何保护自动驾驶系统的数据安全?

    自动驾驶技术带来了许多便利,但也带来了数据隐私和安全挑战。保护自动驾驶系统中的数据安全和隐私性至关重要,需要综合采取技术和法规措施。这些措施
    发表于 10-18 11:10 304次阅读
    如何<b class='flag-5'>保护</b>自动驾驶系统的<b class='flag-5'>数据</b>安全?

    车联网隐私安全威胁及保护方案

    1、车联网隐私安全威胁privacy security threat 2、车辆跟踪攻击平台Vehicle tracking attack platform 3、身份隐私保护方案ldentity
    发表于 08-31 11:14 510次阅读
    车联网<b class='flag-5'>隐私</b>安全威胁及<b class='flag-5'>保护</b>方案

    苹果的差分隐私技术原理详解

    差分隐私是一种数据隐私保护技术,它通过在数据中引入随机化扰动的手段来保护
    的头像 发表于 07-19 10:17 899次阅读
    苹果的差分<b class='flag-5'>隐私</b>技术原理详解

    点云标注中的隐私保护数据安全问题

    点云标注过程中涉及到大量的敏感数据隐私信息,如车辆位置、道路环境等。因此,在点云标注中确保隐私保护数据安全是非常重要的。 首先,
    的头像 发表于 07-18 18:12 497次阅读

    人脸识别技术的安全性和隐私保护

    方法,如数据加密、特征提取、生物特征识别等。数据加密可以通过对数据进行加密,保护数据隐私和安全
    的头像 发表于 07-05 14:20 703次阅读

    通过隐私保护监控远程居家养老开源分享

    电子发烧友网站提供《通过隐私保护监控远程居家养老开源分享.zip》资料免费下载
    发表于 06-19 15:19 0次下载
    通过<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>监控远程居家养老开源分享

    如何提高在线隐私保护水平

    的价值。 当然,保护隐私并不意味着保持匿名。而是你不会向未经授权的第三方共享重要信息,同时保护个人敏感数据
    的头像 发表于 05-22 10:48 491次阅读
    如何提高在线<b class='flag-5'>隐私</b><b class='flag-5'>保护</b>水平