人工智能最重大的风险：数据出错-电子发烧友网

糟糕的数据对于人工智能来说是个大问题，随着企业越来越接受人工智能，风险只会越来越高。人工智能和机器学习有望彻底改变很多行业，但它们也带来了重大风险——鉴于该技术现在才刚刚开始得到大力实施，其中有很多风险尚待发现。

已经有一些公共的，令人尴尬的人工智能变坏的例子。微软的Tay由于遭到推特钓鱼(Twitter troll)的破坏，在一天之内从无辜的聊天机器人变成了一个疯狂的种族主义者。两年前，谷歌不得不审查“大猩猩”和“黑猩猩”这样的关键词的图片搜索，因为它返回的结果是非洲裔美国人的照片——而这个问题仍未完全解决。

随着企业越来越接受人工智能，风险只会越来越大。

西雅图一家将人工智能应用于医疗保健数据的公司KenSci的人工智能的负责人Ankur Teredesai说：“我们一觉醒来就冒汗。到最后，我们谈论真实的病人，真实的生活。”

KenSci的人工智能平台向医生和保险公司提供医疗保健建议。如果医疗记录或用于创建预测模型的训练集中存在错误，后果可能是致命的，这种情况揭示了人工智能实施的关键风险因素：数据实践的质量。

人工智能的护栏坏掉了

KenSci处理来自世界各地的合作伙伴组织的数百万患者记录。这些信息是以不同的语言，标准和格式，并按照不同的分类方案组织起来的。

为了解决这个问题，KenSci使用本土和第三方工具，它还取决于合作伙伴的医疗保健机构。

他说：“医疗保健系统投入了大量的精力来制定协议、确保合规性、确保他们的数据资产尽可能的干净。五年或十年前，这是个大问题，今天，由于西方世界、亚洲和澳大利亚大部分地区数字化的成熟，编码显着减少，世界上很多地方已经转向标准化。”

为了减轻对人工智能的依赖所产生的风险，KenSci有三个额外的安全层。首先有防御错误的前线：提供护理的医生。

Teredesai说：“我们不相信人工智能。我们相信辅助智能，我们把如何行动的决策交给医生这样训练有素的专家来制定。”

他说，KenSci平台只是提出建议，而在大多数情况下，这些建议甚至不适用于治疗。他说：“我们的大部分工作都集中在成本预测、工作流分析和工作流程优化上，很多时候，我们离临床决策只有几步之遥。”

该公司自己的医疗专家通过评估外部传来的数据以及数据使用方式上的限制来提供第二道防线。例如，来自男性患者治疗结果的数据可能不适用于女性。

他说：“我们有一个严格的程序来确保模型不被评分——如果底层的数据不正确，不足以使该模型得到评分——错进错出。”

最后，有外部的同行评审对KenSci模型的输出结果，以及由平台做出决策的因素进行评审。

他说：“我们的研究人员在人工智能运动的公平性和透明度方面处于最前沿。我们相信公开出刊物，相信模型正在对分发的参数做决策，以便专家不仅可以评估模型的输出结果，还可以评估纳入该评分体系的因素和分数。为了确保KenSci平台是开放的、透明的、接受调查的，人们花了很多心思。”

KenSci的方法显示了公司在进一步依赖人工智能时需要实施的各种流程。

一切关乎数据

以人工智能为基础的网络安全初创公司Jask的首席技术官JJ Guy说，人工智能的90%是数据物流。他说，所有主要的人工智能进展都受到数据集进步的推动。

他说：“算法简单而有趣，因为它们是干净、简单和离散的问题。收集、分类和标记用于训练算法的数据集是一份苦差事——尤其是足以反映真实世界的数据集。”

他说，以应用提供逐向驾驶路线导航的程序为例。它们已经存在了几十年，但最近才变得好用——因为有了更好的数据。

他说：“谷歌资助了一个车队，该车队行驶在美国的每一条道路上并对道路进行数字化绘图。车队将这些数据与卫星图像和其它数据源结合起来，然后聘请一批人类监护员手动改善表示世界各地建筑、交叉口和交通信号灯的数据。随着人工智能应用于更广泛的问题，成功的方法将会就是那些认识到成功并不是来自算法而是来自数据整理(data wrangling)的方法。”

然而，公司在开始他们的人工智能项目之前往往没有意识到良好的数据的重要性。

Forrester Research的分析师Michele Goetz表示：“大多数组织并不认为这是一个问题。当被问及人工智能预计会带来什么挑战时，拥有用于训练人工智能的受到悉心监护的数据集居然最不受重视。”

Forrester去年进行的一项调查显示，只有17%的受访者表示最大的挑战在于没有“受到悉心监护的数据来训练人工智能。”

她说：“但是，当公司开始进行人工智能项目时，这是从概念验证和试点项目转向生产系统的最大难题和障碍之一。”

451 Research的创始人兼研究副总裁Nick Patience说，最大的问题之一不是没有足够的数据，而是数据被锁藏并难以访问。

他说：“如果你的数据完全孤立，机器学习就不会奏效。例如，如果你的财务数据在甲骨文(Oracle)中，人力资源(HR)数据在Workday中，合同在Documentum存储库中，并且你没有做任何事情来尝试创建这些孤岛之间的连接。”

他说，公司还没有准备好接受人工智能。

他说：“你不妨在每个孤岛中使用标准的分析工具。”

数据问题可能会干扰人工智能

即使你有数据，你仍然会遇到质量问题，以及隐藏在训练集中的偏见。

最近的几项研究表明，用于训练图像识别的人工智能的流行数据集带有性别偏见。例如，一张男性做饭的图片会被误认为是女性，因为在培训数据中，厨师往往是女性。

SpringBoard.ai的首席执行官Bruce Molloy说：“无论我们有什么偏见，要是存在各种歧视、种族或性别或年龄，那些东西都会反映在数据中。”

构建人工智能系统的公司需要考虑分析数据的数据和算法是否符合组织的原则、目标和价值。

他说：“你不能将判断、道德和价值外包给人工智能。”

他说，这可能来自帮助人们了解人工智能如何以自己的方式做出决定的分析工具，来自内部或外部审计师，还是评估委员会。

合规性也是数据来源的一个问题——仅仅因为一个公司可以获取信息，并不意味着它可以随心所欲地使用信息。

IDC的认知和人工智能系统研究主管David Schubmehl说，组织已经开始审计机器学习模型，并且研究进入这些模型的数据。

他说，独立的审计公司也开始关注它。

他说：“我认为这将成为审计过程的一部分，但与其它任何东西一样，这是一个新兴领域。组织仍在试图弄明白什么才是最佳实践。”

他表示，在此之前，公司要谨慎行事。

他说：“我认为我们还处在这样的初级阶段——人工智能或机器学习模型还只是向受过培训的专业人员提供建议和帮助，而不是自己完成工作。人工智能应用程序要花更长的时间来创建，因为人们正试图确保数据是正确的，数据得到合理的集成，并且他们拥有正确的数据类型和正确的数据集。”

普华永道公司的股东兼全球人工智能领导者Anand Rao表示，即使完全准确的数据也可能存在盖然性的偏差。比如说，如果有一家位于中西部的保险公司利用历史数据来训练人工智能系统，然后扩展到佛罗里达州，该系统对于预测飓风风险将不会有用。

他说：“历史是有效的，数据是有效的。问题是，你在哪里使用这个模型，以及如何使用这个模型?”

假数据的崛起

这些内在偏见可能难以发现，但至少它们不涉及积极尝试弄乱结果的数据源。以在社交媒体上传播假新闻为例，这里的问题越来越严重。

Rao说：“这是一场军备竞赛。”

虽然社交媒体公司正在努力解决这个问题，但黑客正在使用自己的人工智能来创建聪明得足以骗过人类的人工智能，无论是影响社交媒体还是让广告商相信他们才是真正的消费者。

Lucidworks首席执行官Will Hayes说：“我们已经看到了影响。看看选举以及用机器人和其它操纵者放大消息的做法。”

那些操纵者也并不总是在俄罗斯或中国。

Hayes说：“如果一个品牌希望在社交媒体上增大影响力，营销公司想要证明他们增加了你的曝光率，这根本就不必动用工程师来思考他们赖以操纵数据的方法。”

这就是领域知识和常识发挥作用的地方。

加里根莱曼集团(The Garrigan Lyman Group，该公司是一家营销公司，帮助公司处理来自各种渠道的数据)的首席技术官Chris Geiser说：“了解数学和模式只能让你走到这一步了。你要了解所有的个人数据来源，这才是最重要的事情，你越了解自己的数据，你想要达到的目标以及你的关键绩效指标，你就越能指向正确的方向。”

对数据源进行三角测量

如果一家公司的数据有多个来源，那么在应用任何机器学习之前，以一个数据来源为准检查另一个数据来源，这是很重要。

作为全球最大的电信公司之一，NTT集团在其网络基础设施中生成了大量的数据。

NTT Security的安全研究全球副总裁Kenji Takahashi说：“我们处于安全目的而使用机器学习来分析网络流量数据。我们的最终目标是全面了解隐藏在网络中的恶意僵尸网络基础设施。”

该公司目前正在投资技术，以提高机器学习培训数据的质量。为此，NTT使用“集成(ensemble)”方法，对来自不同来源的数据分析结果进行加权投票，他这样说道。

然后，这些数据进入超大型数据库，将其作为机器学习的训练数据。

他说：“就像在教室里一样，学习任何错漏百出的劣质课本都是非常不利的。训练数据的质量决定了机器学习系统的性能。”

创建团队和工具来解决问题

Infosys于1月份发布的一项调查显示，49%的IT决策者表示他们无法部署他们想要的人工智能，因为他们的数据还没就绪。

Infosys的高级副总裁兼产品管理和战略主管Sudhir Jha说：“人工智能正在成为商业战略的核心，但数据管理仍然是一个挥之不去的障碍。”

在这里，领导力才能是关键，对于一些开展人工智能旅程的组织来说，第一步可能是任命一位首席数据官，SAP的Leonardo和人工智能部门的全球副总裁Marc Teerlink表示，拥有首席数据官的公司能更好地管理数据。

他说：“错进错出。数据质量，所有权和治理都事关重大。”

普华永道的Rao说，如今的大多数公司都必须开发自己的技术来准备用于人工智能和机器学习系统的数据。为此，你需要数据科学家，如果你内部不具备这样的脑力，你可以聘请顾问来完成这项工作。

一些前瞻的公司，例如Bluestem Brands，正在使用人工智能来处理供其它人工智能系统使用的数据。这家拥有13个不同零售品牌(包括Fingerhut和Bedford Fair)的公司已采取这种方法来确保搜索黑色服装的顾客能获得所有相关结果——无论供应商将这种颜色称为“黑色”、“午夜”、“深海市蜃楼”或“深灰色(dark charcoal)”。

IT主管Jacob Wagner说：“艺术家有无限的创造力来指代同一个基本色彩的色差——它永无止境”。不仅仅是颜色。他说：“同样的问题存在于人类解析和解释的每个属性上。”

Bluestem用唾手可得的碎片创建了数据准备系统。

Wagner说：“搜索技术在很大程度上正在商品化。词法分析、文本匹配，所有这些技术已经成为典范并得到了改善，开源算法与任何专有软件包一样高效。”

而且并不需要动用博士级别的数据科学家来做这种事。

他说：“有了一些才华横溢的工程师，你可以想出将它接入数据流的方法。”

Wagner是Apache Spark的忠实粉丝，Apache Spark是一个大数据引擎，它可以从很多不同来源获取数据并对其进行切割，Apache Solr是一个开源搜索引擎。Bluestem不仅在面向客户的方面使用它，而且还在内部使用它，以帮助编辑工作流(译注：原文为editorial workflows，editorial可能是指iOS上的一款文本编辑神器，同时可用于制作工作流workflow)。

该公司还使用Lucidworks Fusion这样的商业产品，后者允许商业用户通过额外的业务逻辑来定制搜索体验——比如说，可以将与情人节有关的查询集中到一系列策略集中，而不需要IT人员参与。

有了正确的数据管理策略、工具和人员，你可以大大提高组织的人工智能获得成功的可能性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43820

浏览量
230574
机器学习

机器学习

+关注

关注
66

文章
8116

浏览量
130546

原文标题：人工智能最大的风险因素：数据出错

文章出处：【微信号：D1Net08，微信公众号：AI人工智能D1net】欢迎添加关注！文章转载请注明出处。

5G智能物联网课程之Aidlux下人工智能开发

课程类别课程名称视频课程时长视频课程链接课件链接 人工智能 参赛基础知识指引 14分50秒 https://t.elecfans.com/v/25508.html *附件：参赛基础知识指引

发表于 04-01 10:40

嵌入式人工智能的就业方向有哪些?

嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下，嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下，众多名企也纷纷在嵌入式人工智能领域布局

发表于 02-26 10:17

人工智能要以人为本智能向善

随着人工智能技术的迅猛发展，人工智能已遍布人们日常生活的许多领域，给人类社会带来前所未有的巨大变革，同时也带来了一系列重大安全风险。全球人工智能

发表于 11-16 10:32 •354次阅读

如何使单片机与无线供电结合，从而使人工智能脱离电池和线路？

如何使单片机与无线供电结合，从而使人工智能脱离电池和线路

发表于 10-31 06:34

做好人工智能发展的风险防范

一是放大隐私信息泄露风险。当前，人工智能开发者和服务提供者可能利用用户数据进行优化训练，但相关服务条款却并未对数据使用做出解释说明，可能涉及在用户不知情情况下收集个人信息、商业秘密等，

发表于 10-29 10:47 •448次阅读

ai人工智能机器人

随着时间的推移，人工智能的发展越来越成熟，智能时代也离人们越来越近，近几年人工智能越来越火爆，人工智能的应用已经开始渗透到各行各业，与生活交融，成为人们无法拒绝，无法失去的一个重要存在

发表于 09-21 11:09

《通用人工智能：初心与未来》-试读报告

作者给出的结论。整体读下来，可以给我们关于通用人工智能全面的了解。作者也反复强调了通用人工智能与专用智能的区别。尤其是人们错误的认为一堆专用智能堆砌起来就是通用

发表于 09-18 10:02

如何将人工智能应用到效能评估系统软件中去解决

，我们可以将其应用到效能评估系统中，进一步提高效能评估的准确性和实用性。　　华盛恒辉可以利用人工智能技术，通过对大量数据的分析，来识别和评估各个业务环节的表现，从而对效能进行评估和监测。此外，我们还可

发表于 08-30 12:58

人工智能的弊端有哪些

探讨人工智能的弊端。一、就业风险 人工智能的出现无疑会对就业市场产生深远影响。一些简单的工作将被人工智能所替代。例如，人工智能可以帮助银行

发表于 08-12 17:26 •2w次阅读

人工智能股票有哪些

篇文章中，我们将对人工智能股票进行详细介绍，包括人工智能股票的定义、人工智能股票的发展现状、人工智能股票的投资机会以及人工智能股票的

发表于 08-12 16:24 •1219次阅读

Ai 部署的临界考虑电子指南

%数据中心的工作量。平方GPU对培训工作量有效，但在人工智能的所有不同阶段都不需要GPU。在2021年的一项研究中，56%的研究受访者将成本列为他们面临的最重大挑战实施AI/ML解决方案。

发表于 08-04 07:25

AI 人工智能的未来在哪？

人工智能、AI智能大模型已经孵化；繁衍过程将突飞猛进，ChatGPT已经上线。世界首富马斯克认为AI对人类是一种威胁；谷歌前CEO施密特认为AI和机器学习对人类有很大益处。每个国家对核武器的运用有两面性，可造可控；但AI智能

发表于 06-27 10:48

【书籍评测活动NO.16】通用人工智能：初心与未来

之后的达特茅斯研讨会开始，用机器来模仿人类学习及其他方面的智能，即实现“人工智能”（Artificial Intelligence，AI）便成为计算机领域持续的研究热点。时至今日，以深度学习为代表

发表于 06-21 14:41

人工智能一例

这句话里边有几个参数？如果x=1则执行a 如果是单计算的话只有1这一个参数。但如果是人工智能的话有如下几个参数，逻辑门，如果则未知数，符号x 常量，1 函数，a 很多复杂的智能都可以如此拆分

发表于 06-10 01:05

【EASY EAI Nano人工智能开发套件试用体验】EASY EAI Nano人工智能开发套件开箱及硬件初体验

及接线柱、12V 1A电源等。 EASY EAI Nano人工智能开发板用塑料盒和静电袋包装，里面有一根黑色的数据线。 EASY EAI Nano人工智能开发套件包装还是很不错的，用很多的黑色

发表于 05-31 19:18

搜索历史

人工智能最重大的风险：数据出错

评论

5G智能物联网课程之Aidlux下人工智能开发

嵌入式人工智能的就业方向有哪些?

人工智能要以人为本智能向善

如何使单片机与无线供电结合，从而使人工智能脱离电池和线路？

做好人工智能发展的风险防范

ai人工智能机器人

《通用人工智能：初心与未来》-试读报告

如何将人工智能应用到效能评估系统软件中去解决

人工智能的弊端有哪些

人工智能股票有哪些

Ai 部署的临界考虑电子指南

AI 人工智能的未来在哪？

【书籍评测活动NO.16】通用人工智能：初心与未来

人工智能一例

【EASY EAI Nano人工智能开发套件试用体验】EASY EAI Nano人工智能开发套件开箱及硬件初体验