0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

训练一个可以识别裸体的人工智能系统,比你想象的要难

电子工程师 来源:lq 2019-02-25 16:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2018 年 12 月 17 日,Tumblr(汤博乐)网站宣布即日起全面禁止色情内容。当这项新的政策实施了两周后,就立马暴露出了问题。在Tumblr的人工智能系统成功部署后,它对一些中立的内容进行了错误标记,导致该网站的4.554亿个博客和1662亿个帖子无辜躺枪。它们的内容仅包含花瓶、女巫、鱼类以及介于它们中间的所有内容。

目前该公司并未对此有任何回应,也不清楚Tumblr使用的是何种内容过滤技术,或者是否创建了自己的内容过滤系统,但显然,社交网站在政策和技术方面都陷入了困境。例如,关于“女性乳头”和“艺术裸体”的外延,Tumblr 认为是取决于上下文语境,这透露出Tumblr自己也不确定它想要在平台上禁止什么内容。也难怪,站在企业的立场,究竟该如何定义“淫秽”内容呢?

01

如果难以定义,就很难阻止“淫秽”内容

首先,定义“淫秽”本是个陷阱。历史可以追溯到1896年左右,当时美国首次通过规范“淫秽”的法律。1964 年,“雅各贝利斯诉俄亥俄州”一案中,关于俄亥俄州是否可以禁止出演著名的路易·斯马勒(Louis Malle)电影,最高法院给出了可能是迄今最著名的有关“硬核色情”的一句话。

“我今天不打算进一步去定义我所理解的那种在速记中被包含的内容,‘硬核色情片’,也许我永远也不会成功地做到这一点。但我知道,当我看到它的时候,它的动作画面就不是这样了。” 法官波特·斯图尔特在他的赞同意见中如是说。

机器学习算法也处于同样的窘境,这是Picnix(一家提供定制化AI服务的公司)的首席执行官Brian DeLorge正试图解决的问题。Iris是其产品之一,专门用于检测色情内容的客户端应用程序。正如DeLorge所说,“谁不希望生活中有点色情内容?”他指出另一个问题,色情片可以是很多不同的东西,但色情与非色情图像会共享相似的图像特征。

一张海滩上派对的照片可能被封杀不是因为它上面展现的皮肤比一张办公室的照片更多,而是因为它触碰到色情图像的边缘线了。“这就是为什么很难将图像识别算法训练成一种可广泛应用的解决方案,”DeLorge继续说到,“如果关于“淫秽”的定义对人类来说很困难,那对机器学习技术来也同样如此。”如果人们无法就色情是什么达成一致,那么AI是否有望学习里面的差异呢?

02

教 AI 如何检测色情片,第一件事就是收集色情片作为训练集

网上有很多的色情片。在哪里可以得到它们呢? “人们经常从Pornhub、XVideos等网站下载,”Lemay.ai的联合创始人兼首席技术官Dan Shapiro说到。Lemay.ai是一家为其客户创建 AI 过滤技术的初创公司。“这是一个合法的灰色地带,但如果你正在使用其他人的内容进行训练,(训练)结果是否属于你?”

从你最喜欢的色情网站获得训练数据集之后,下一步是从色情的视频中删除所有不是色情内容的帧,以确保你正在使用的帧不是像一个拿着披萨盒子的人。平台会向大多数美国以外的人付费,来标注这些内容。这通常是一个低工资的重复劳动,就好像那些每次填一个验证码的工作。Dan Shapiro说到,“他们只是标注像‘这种色情片’或‘那种色情片’。通常你还可以再过滤一下,因为色情片上已经有很多可用的标签了”。当你使用不仅仅包含色情内容的大数据集时,训练效果往往会更好。”

Shapiro说:“很多时候,你不仅需要过滤色情内容,而且也需要过滤掉与色情内容相近的东西。像人们贴出的这些虚假档案,一张女孩的照片,一个电话号码。”在这里,他指的是寻找客户的性工作者,但很容易就被误认为是合法问题。“这不是色情片,但它是你不想放在平台上的东西,对吗?”一个好的自动化的检测模型至少需要在数百万级的内容上进行训练,这意味着需要投入大量的人力。

“这就类似于孩子和成年人间的不同,”Clarifai的创始人兼CEOMatt Zeiler说道,Clarifai是一家为企业客户提供图像过滤的计算机视觉创业公司。“我可以说这是事实,几个月前我们刚生了一个孩子。他们对这个世界一无所知,一切都是新的。“你必须向宝宝展示很多东西,以便他们学习。“你需要数以百万计的例子,但对于成年人,由于现在我们已经拥有了很多关于世界的背景知识,并理解它是如何运作的,我们只需要几个例子就可以学到新东西,”他说。

上述文字解释一遍就是:训练AI系统来过滤成人内容,就好比向宝宝展示大量的色情内容。

今天,像Clarifai这样的人工智能技术供应商已经成长起来了。他们对世界有很多基础知识,也就是说他们知道狗是什么样,猫是什么样,什么是树,什么不是树,以及最重要的,什么是裸体,什么不是裸体。Zeiler的公司使用自己的模型为其客户训练新模型,因为原始模型已经能处理很多数据,因此定制的版本仅需要来自客户的新训练数据,就能启动和运行。

03

人工智能算法的判断不一定准确

对明显是色情的内容,分类器效果很好;但它可能会错误地将内衣广告标记为色情,因为图片中的皮肤比例更多。(例如,分类器很难正确分辨比基尼和内衣。)这意味着做标签的人必须对那些模棱两可的训练集更细心,需要优先考虑模型难以分类的内容。那其中最难的一个例子是什么呢?

“动漫色情片。我们的第一版色情检测算法没有接受过任何卡通色情内容的训练。”很多时候人工智能系统会失败,因为它不理解什么是变态。“因此,一旦我们为该客户做这样的工作,我们就将大量数据整合到模型中,就大大的提高了检测漫画的准确性,并同时保持了在真实照片上的检测准确率,”Zeiler说。“你不知道你的用户会做什么。”

用来检测色情片的技术也可以用来检测其他东西。系统的基础技术非常灵活。这个灵活度比得上动漫里夸张的胸部。Perspective,是一个来自 Alphabet's Jigsaw的被广泛用于报纸自动评论的模型。

Jigsaw的沟通主管Dan Keyserling说,在Perspective之前,“纽约时报”只对大约10%的作品发表评论,因为他们的版主可以在一天内处理的数量有限。他声称Jigsaw的产品可以使这个数字增加三倍。该软件与图像分类器的工作方式类似,不同之处在于它对“毒性”进行排序,它们定义“毒性”为某人可能会根据评论而不是色情进行的对话。(毒性在文本评论中同样难以识别,就好比识别图像中的色情图像。)再比如,Facebook使用类似的自动过滤技术来识别有关自杀的帖子和内容,并试图利用该技术在其庞大的平台上发现虚假新闻。

04

整个事情仍依赖于标记数据才能发挥作用

Zeiler并不认为他的产品会让任何人失业。它本来就是在解决互联网上的“尺度问题”。一个婚礼博客Clarifai使用其产品来进行自动化的内容审核,而以前负责审批图像的编辑则转向从事定性标记的任务。这并不是要降低自动化下真正的人力成本。人们必须对AI进行训练,并对内容进行分类然后进行标记,以便AI能够识别哪些不能或可能导致创伤后应激障碍(PTSD)。

这才是未来应有的样子:公司提供个性化,现成的解决方案,使其全部业务能够在越来越多的数据上训练更好的分类器。就像Stripe and Square为不想在内部处理支持的企业提供现成的支付解决方案一样,而AWS已经确立了自己作为托管网站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等创业公司正在争相成为在线内容审核的一站式解决方案提供商。Clarifai已经拥有适用于iOSAndroid的软件开发套件,Zeiler表示正在努力让产品在物联网设备(如安全摄像头)上运行,但实际上,那意味着每个设备上都需要有优化的AI芯片或足够的终端计算资源。

Lemay.ai的Dan Shapiro满怀希望。“与任何技术一样,它还没有完全发明成功,”他说。“所以这样做是不合理的,就好比我对一家公司的安排不满意,就开始想着放弃。”但无监督学习是否是一条好的出路?这就比较费解了。 他说:“你需要从某些地方获得训练数据”,这意味着总会涉及到人的因素。“不过这是一件好事,因为它会减轻人们的压力。”

另一方面,Zeiler认为AI终有一天能够自己适应一切。他说:“我认为很多人的努力方向将转变为人工智能今天无法做到的事情,比如高级推理、自我意识,就像人类所拥有的那样。”

识别色情片就是其中的一部分。识别它对于人来说是一项相对简单的任务,但训练算法识别其中的细微差别却要困难得多。弄清楚检测模型将图像标记为色情或非色情的阈值也很困难,而且还受到数学上的限制。该函数称为精确-召回率曲线(precision-recall curve),它描述了模型返回结果的相关关系,但是人类需要的是灵敏度。

正如Alison Adam在其1998年出版的《人工知识:性别与机器思维》一书中提到的那样,无论是学习、在空间中移动和互动、推理,还是使用语言,AI的目的是“模拟人类智能的某些方面”。AI是我们如何看待世界的一个不完美的镜子,就像色情是当两个人独处时的反应一样:它可以说是一种片面性的真理,但却不是整个全貌。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11321

    浏览量

    108917
  • 人工智能
    +关注

    关注

    1813

    文章

    49777

    浏览量

    261820
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136266

原文标题:AI是如何检测色情片的?

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    应用。 为什么选择 Neuton 作为开发人员,在产品中使用边缘人工智能的两最大障碍是: ML 模型对于您所选微控制器的内存来说太大。 创建自定义 ML 模型本质上是手动过程,需
    发表于 08-31 20:54

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    的深度学习,构建起从基础到前沿的完整知识体系,门实验箱就能满足多门课程的学习实践需求,既节省经费又不占地 。 五、代码全开源,学习底层算法 所有实验全部开源,这对于想要深入学习人工智能技术的人来说
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    的深度学习,构建起从基础到前沿的完整知识体系,门实验箱就能满足多门课程的学习实践需求,既节省经费又不占地 。 五、代码全开源,学习底层算法 所有实验全部开源,这对于想要深入学习人工智能技术的人来说
    发表于 08-07 14:23

    关于人工智能处理器的11误解

    应用,以及哪些是真实情况而哪些只是炒作,仍存在诸多误解。GPU是最佳的人工智能处理器尽管GPU在人工智能的实现过程中发挥了关键作用,而且如今它们的应用也极为广泛,但将其推
    的头像 发表于 08-07 13:21 894次阅读
    关于<b class='flag-5'>人工智能</b>处理器的11<b class='flag-5'>个</b>误解

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    请问训练平台训练完的识别程序,可以实现在识别到物体时屏幕再显示出来,没有识别到物体时屏幕不显示吗?

    问题如题,训练平台训练完的识别程序,可以实现在识别到物体时屏幕再显示出来,没有识别到物体时屏幕不
    发表于 04-29 06:12

    开售RK3576 高性能人工智能主板

    ,HDMI-4K 输出,支 持千兆以太网,WiFi,USB 扩展/重力感应/RS232/RS485/IO 扩展/I2C 扩展/MIPI 摄像头/红外遥控 器等功能,丰富的接口,全新八核拥有超强性能的人工智能
    发表于 04-23 10:55

    支持实时物体识别的视觉人工智能微处理器RZ/V2MA数据手册

    DRP-AI 采用了种由动态可重构处理器(DRP)和 AI-MAC组成的人工智能加速器,该加速器可加速人工智能推理,实现高速的人工智能推理和低功耗,无需散热器或散热风扇就能进行实时图
    的头像 发表于 03-18 18:12 749次阅读
    支持实时物体<b class='flag-5'>识别</b>的视觉<b class='flag-5'>人工智能</b>微处理器RZ/V2MA数据手册

    人工智能视觉识别技术的应用领域及场景

    人工智能视觉识别技术的应用领域及场景
    的头像 发表于 03-14 11:41 2325次阅读

    人工智能大模型年度发展趋势报告

    2024年12月的中央经济工作会议明确把开展“人工智能+”行动作为2025年抓好的重点任务。当前,以大模型为代表的人工智能正快速演进,激发全球科技之变、产业之变、时代之变,人工智能
    的头像 发表于 02-13 10:57 1536次阅读
    <b class='flag-5'>人工智能</b>大模型年度发展趋势报告

    代理型人工智能:定义与解析

    想象下,有人工智能(AI)不仅仅遵循你的指令,还能自行决定如何实现你的目标。代理型人工智能(Agentic AI)正是如此:这是
    的头像 发表于 02-12 10:07 1752次阅读

    依托新的全球数据集识别人工智能领域新轮涌现的杰出女性

    总部位于英国的人才数据和分析公司Zeki Data今日宣布推出款新的数据洞察产品Talent Multiplier,该产品能精准识别那些企业希望招募、资助或投资的处于人工智能创新前沿
    的头像 发表于 01-19 09:39 547次阅读

    【「具身智能机器人系统」阅读体验】1.初步理解具身智能

    本对人工智能、机器人技术和计算系统交叉领域感兴趣的读者来说不可或缺的书。这本书深入探讨了具身智能结合物理机器人和智能算法的领域,该领域正
    发表于 12-28 21:12

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成到机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效地提供商品及服务。 数据是种货币化工具 数据是互联网
    发表于 12-24 00:33

    开源项目 ! 利用边缘计算打造便携式视觉识别系统

    无需依赖外部服务器,从而打造出更稳定的系统。 这些优势使得边缘计算平台对于视觉识别项目来说不可或缺。开发者能够获得紧凑且功能强大的硬件系统
    发表于 12-16 16:31