0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软删除知名数据集 拨开数据隐私的迷雾

lviY_AI_shequ 来源:yxw 2019-06-26 17:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软在日前删除了一个名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。

在这次「静默」删除行为背后,又牵扯到了哪些问题呢?

微软想解决的麻烦:MS Celeb 名人数据集

MS Celeb 1M 数据集,最早是微软在 2016 年发布,其中共包含了10 万个名人,近 1000 万张面部图片,而这些数据都是从网络上搜集而来。

从网络中 100 万个名人中,根据受欢迎程选出 10 万个,然后利用搜索引擎,跳出每个人的大约 100 张图片,就得到了这个庞大的数据集。

MS Celeb 数据集中的 Jobs 图片,

其中绿色是年轻时代的图片,红色是合成图像

而这个数据集最初是用来服务比赛的。MSR IRC是世界上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初就是这个赛事所用。

MS Celeb 1M常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的。

根据协议,可以将照片重新用于学术研究,(照片中的人物并不一定授权许可,而是版权所有者授权。)但微软发布数据集后,却并不能掌管它的使用。英国「金融时报」进行了一项深入调查,结果表明数据被大量的用在了多个企业测试中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用这个数据集的情况。

而这就涉及到了数据集使用的一些规范性问题,一位研究人员还指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。

删除原因:负责该数据集的员工离职?

微软已经在线上默默地删除了MS Celeb 1M,并没有特别的说明。

Github 上数据集的下载页面已经变成了 404

在金融时报的报道中,微软表示「该网站主要目的是用于学术,」而删除它的原因是,「负责运营这个项目的员工离职了,不再与微软合作,所以进行了删除。」

我们都相信肯定有其他原因,可能也有数据集图片存在的问题。虽然微软称数据集均来自于公众人物的照片。但其中还包括少量非知名人物。这部分人脸照片的所有者,对微软使用他们的名称和图像信息,曾提出过质疑和批评。

还有技术人员推测,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该法规于去年生效,旨在建立起数据安全的保护措施。

GDPR对个人信息的保护及其监管

达到了前所未有的高度

但微软表示,它们没有涉及到 GDPR 的条款,数据集相关网站退役只是因为,「曾经的竞赛已经结束」。

当然,此次微软移除 MS Celeb 数据集,并不妨碍它在学术研究等途径的正常使用。那些用于处理数据库的工具,现在也可正常访问。

常用公开数据集,也可能有隐私问题

在英国「金融时报」调查之后,还有另外两个学术单位也删除了相关的数据集:分别是杜克大学的Duke MTMC 监控数据集,和斯坦福大学的Brainwash 数据集。

关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月底,IBM 发布了百万级别的无偏见「人脸多样性」数据集,就曾引发了广泛的争议。

虽然 IBM 强调此举是为减少面部识别中的「偏见」问题,但数据集的来源,人物的是知情度等问题,都引发了不少质疑声。

有媒体还报道, IBM 表示会按照被摄影者的意愿,删除数据集里的相关照片,但都只是一面之词,并没有实际的行动。

今年 5 月,旧金山曾颁布法令

禁止政府机构使用人脸识别技术

对于数据集的采集和使用规则,还是一个很不太明确的区域,尤其是网络便利之后,很多机构都能轻易地获得大量图片,用于面部识别等用途。

其实,对于数据集涉及的隐私问题,解决方案可以很简单:关乎到用户个人隐私信息时,应保证用户的知情权,确保用户是否愿意贡献数据。

但似乎缺少的从来都不是方法,而是意识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6760

    浏览量

    108159
  • 数据采集
    +关注

    关注

    42

    文章

    8405

    浏览量

    121386
  • 人脸识别
    +关注

    关注

    77

    文章

    4135

    浏览量

    88910
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    开发智能体配置-隐私协议服务

    1.已有描述隐私政策和用户隐私权利的隐私网址:在智能体【配置】-【隐私协议服务】页面,隐私声明处选择“自定义
    发表于 02-03 15:54

    发布元服务配置隐私声明

    元服务必须先使用AGC的隐私声明托管服务生成自己的隐私声明,才能在版本信息页面选择到。详细内容参见配置隐私声明(元服务)和配置用户协议。 登录AppGallery Connect,点击“APP与元
    发表于 11-25 11:24

    UPS电源售价迷雾重重?读懂这几点,让你的每一分钱都花在刀刃上

    导语:正在为数据中心、医疗设备或家庭办公电脑寻找一台可靠的UPS不间断电源?一查价格,从几百到数万,是不是瞬间眼花缭乱?价格差异的背后,究竟隐藏着怎样的秘密?今天,我们就来拨开迷雾,聊聊UPS售价
    的头像 发表于 11-20 10:45 736次阅读
    UPS电源售价<b class='flag-5'>迷雾</b>重重?读懂这几点,让你的每一分钱都花在刀刃上

    SimData:基于aiSim的高保真虚拟数据生成方案

    01前言在自动驾驶感知系统的研发过程中,模型的性能高度依赖于大规模、高质量的感知数据。目前业界常用的数据包括KITTI、nuScenes、WaymoOpenDataset等,它们为
    的头像 发表于 11-07 17:35 5566次阅读
    SimData:基于aiSim的高保真虚拟<b class='flag-5'>数据</b><b class='flag-5'>集</b>生成方案

    Mysql数据恢复—Windows Server下MySQL(InnoDB)全表误删数据恢复案例

    本地服务器,操作系统为windows server。服务器上部署mysql单实例,innodb引擎,独立表空间。未进行数据库备份,未开启binlog。 人为误操作使用Delete命令删除数据时未添加where子句,导致全表数据
    的头像 发表于 09-23 15:56 922次阅读
    Mysql<b class='flag-5'>数据</b>恢复—Windows Server下MySQL(InnoDB)全表误删<b class='flag-5'>数据</b>恢复案例

    如何保障远程运维过程中的数据安全和隐私

    LZ-DZ100背面 在分布式光伏集群的远程运维中,数据安全和隐私保护面临多重风险,包括 传输过程中的窃听 / 篡改、未授权访问控制指令、设备固件被恶意植入、敏感数据(如站点位置、运行参数)泄露 等
    的头像 发表于 08-22 10:26 1285次阅读
    如何保障远程运维过程中的<b class='flag-5'>数据</b>安全和<b class='flag-5'>隐私</b>?

    大模型时代,如何推进高质量数据建设?

    高质量数据,即具备高价值、高密度、标准化特征的数据集合。 在AI领域,高质量数据地位举足轻重,如同原油经炼化成为汽油驱动汽车,海量原始
    的头像 发表于 08-21 13:58 1087次阅读

    AIcube1.4目标检测模型导入yolotxt格式数据后一直显示数据正在解析,为什么?

    AIcube1.4目标检测模型导入yolotxt格式数据后一直显示数据正在解析 数据有问题,把数据情况说的详细点
    发表于 08-13 07:16

    AI Cube如何导入数据

    我从在线平台标注完并且下载了数据,也按照ai cube的要求修改了文件夹名称,但是导入提示 不知道是什么原因,我该怎么办? 以下是我修改后的文件夹目录
    发表于 08-11 08:12

    请问AICube所需的目标检测数据标注可以使用什么工具?

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注,标注后的数据改好文件名后导入不进去。一直卡在数据
    发表于 08-11 08:07

    大成建设(Taisei)图像数据隐私保护与AI开发协同案例解析

    基于数字化转型下的图像数据隐私保护与AI开发难题,本文以Taisei公司为例,详解客户实际需求,匹配隐私保护和数据效用完美均衡的深度自然匿名化方案,推动其人工智能的开发。
    的头像 发表于 07-30 10:23 869次阅读
    大成建设(Taisei)图像<b class='flag-5'>数据</b><b class='flag-5'>隐私</b>保护与AI开发协同案例解析

    云训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    电商API合规性:确保数据隐私与法规遵守

      在当今数字化电商时代,API(应用程序编程接口)作为连接平台、商家和用户的核心枢纽,处理着海量敏感数据,如用户个人信息、交易记录和行为偏好。然而,随着全球数据隐私法规的日益严格,电商API的合规
    的头像 发表于 07-16 10:40 522次阅读
    电商API合规性:确保<b class='flag-5'>数据</b><b class='flag-5'>隐私</b>与法规遵守

    使用AICube导入数据点创建后提示数据不合法怎么处理?

    重现步骤 data目录下 labels.txt只有英文 **错误日志** 但是使用示例的数据可以完成训练并部署
    发表于 06-24 06:07

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04