电子发烧友网 > 人工智能 > 正文

人工智能和大数据有怎样的隐患

2019年12月03日 17:11 次阅读

从数据稀缺到现在有大量的数据,近年来,可用的数据量呈指数级增长,大数据变得无处不在。这是由于数据记录设备数量的巨大增长,以及这些设备之间通过物联网连接。似乎每个人都有收集、分析大数据的力量。

但是,大数据真的是万能的吗?毫无疑问,大数据已经在某些领域产生了至关重要的影响。例如,几乎每一个成功的人工智能解决方案都涉及大数据处理问题。

首先要注意的是,尽管AI目前非常擅长在大型数据集中查找模式和关系,但它仍然不是很智能。计算数字可以有效地识别并发现数据中的细微模式,但不能直接告诉我们这些相关关系中哪些实际上有意义。

人工智能和大数据有怎样的隐患

相关性和因果关系

我们都知道“相关性并不意味着因果关系。“然而,人类的大脑天生就会寻找规律,当我们看到曲线倾斜在一起,数据中出现明显的规律时,我们的大脑就会自动给出规律。”

然而,从统计数据来看,我们仍然无法实现这一飞跃。《虚假相关性》(false)一书的作者Tyler Vigen在自己的网站上对此进行了调侃,还有很多例子比如展示冰淇淋是如何明显地导致许多坏事的,从森林大火到鲨鱼袭击和脊髓灰质炎爆发。

看看这些情节,人们可能会争辩说,我们很可能早就应该禁止冰淇淋了。 而且,实际上,在1940年代的小儿麻痹症例子中,公共卫生专家建议人们停止吃冰淇淋作为“反政治饮食”的一部分。幸运的是,他们最终意识到小儿麻痹症暴发与冰淇淋消费之间的相关性是“完全是由于小儿麻痹症的爆发在夏季最为普遍”。

在统计中,虚假关系或虚假相关性是一种数学关系,其中两个或多个事件或变量相关联,但由于某种偶然的或某些第三个未见因素的存在而因果相关(称为“常见响应”变量”、“混杂因素”或“潜伏变量”)。这样的“潜伏变量”的例子可以是冰淇淋销量与鲨鱼袭击之间的相关性(虽然冰淇淋销量的增长不会导致鲨鱼袭击人们)。但是,这两个数字之间有一个共同的环节,即温度。较高的温度导致更多的人购买冰淇淋以及更多的人去游泳。因此,这个“潜变量”确实是表观相关性的原因。幸运的是,我们已经学会将因果关系与因果关系分开。而且,在炎热的夏日,我们仍然可以享受冰淇淋,而不必担心小儿麻痹症爆发和鲨鱼袭击!

相关性的力量和局限性

有了足够的数据,将会发现计算能力和统计算法的模式。但并不是所有的模式都有意义,因为虚假模式的数量很容易超过有意义的模式。将大数据与算法结合起来,如果能正确地应用于解决问题,将是一个非常有用的工具。然而,没有科学家会认为你可以通过单独处理数据来解决这个问题,无论统计分析是多么强大,您应该始终基于对要解决的问题的基本理解来进行分析。

数据科学是科学的终结吗?

2008年6月,《连线》(Wired)杂志前主编C. Anderson写了一篇颇具煽动性的文章,题为《理论的终结:数据洪流使科学方法过时》(The End of Theory: The Data Makes The Scientific Method Obsolete)。“相关性取代因果关系,即使没有连贯的模型和统一的理论,科学也能进步。”

这种方法的强度和通用性依赖于数据量:数据越多,基于计算发现的相关性的方法就越强大和有效。我们可以简单地把数字输入计算机,让统计算法自动发现有趣的模式和见解。

但是,这种简化的分析方法也存在一些潜在的陷阱,可以通过John Poppelaars在博客上找到的示例很好地说明 :

假设我们要为某些变量Y创建一个预测模型。例如公司的股价、在线广告的点击率或下周的天气。接下来,我们收集所有可以使用的数据,并将其放入统计过程中,以找到Y的最佳预测模型。常见的过程是首先使用所有变量对模型进行估计,筛选出不重要的变量,然后使用所选的变量子集重新估算模型,然后重复此过程,直到找到重要的模型为止。

但是,Anderson提出的分析方法存在一些严重的缺陷。我选择了一个实例,从0到1的均匀分布中抽取100个样本,为Y创建了一组数据点,所以它是随机噪声。接下来,我通过从0到1之间的均匀分布中抽取100个样本,创建了一组50个解释变量X(I)。因此,所有50个解释变量也是随机噪声。我使用所有的X(I)变量来预测y,估计一个线性回归模型。因为没有任何相关的东西(所有的均布和自变量),所以期望R²(0),但实际上不是。结果是0。5。对于基于随机噪声的回归来说还不错!幸运的是,这个模型并不重要。逐步剔除不显著的变量,重新估计模型。重复这个过程,直到找到一个重要的模型。经过几个步骤后,发现一个显著性模型,调整后的R平方为0.4,7个变量的显著性水平至少为99%。再次,我们是在回归随机噪声,它绝对没有关系,但我们仍然找到一个有7个重要参数的显著模型。如果我们只是将数据输入统计算法来寻找模式,就会出现这种情况。

数据集越大,噪声越强

最近的研究证明,随着数据集的增长,它们必定包含任意相关性。这些相关性只是由于数据的大小而出现,这表明,许多相关性都是虚假的。不幸的是,很多信息往往表面表现得很少。

这是处理多维数据的应用程序中的主要问题。举例来说,假设您从一家工厂的数千个传感器中收集传感器数据,然后挖掘这些数据以获取模式以优化性能。在这种情况下,您很容易被数据表现的表象所迷惑,而不是真正的运营绩效指标。无论从财务上还是在工厂的安全运行方面,这都可能是一个坏消息。

添加数据和添加信息

作为数据科学家,我们可能经常会说,改善人工智能模型的最佳解决方案是“添加更多数据”。然而,仅仅“添加更多数据”就能提高模型性能吗?不是这样的。我们应该关注的是“添加更多的信息”。“添加数据”和“添加信息”之间的区别是至关重要的:添加更多的数据并不等于添加更多的信息(至少是有用和正确的信息)。相反,由于盲目地添加越来越多的数据,我们有可能添加包含错误信息的数据,这些错误信息会相应地降低模型的性能。随着数据的大量访问以及处理数据的计算能力,考虑这一点变得越来越重要。

结论

那么,上述挑战是否应该阻止您采用以数据为依据的决策? 不,数据驱动的决策将继续存在。随着我们获得更多有关如何最佳利用数据和信息以提高绩效的知识,这些将变得越来越有价值。

但是要意识到,要使方案成功,不仅需要硬件和大量数据,大数据和计算能力也是重要的组成部分。而且,您应该了解连接数据的基本机制。数据不能说明一切,是人类给数字赋予了含义。数据的数量、种类是无法更改的。

责任编辑:ct

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

四轴机器人编程与应用

主题简介:本次直播主要讲解四轴机器人控制器基本原理及组成。四轴机器人的核心技术内嵌人工智能算法的工业级运动控制技术和伺服
发烧友学院发表于 2018-10-30 00:00 11697次阅读
四轴机器人编程与应用

人工智能如何变得有良知

人工智能可以选择求职面试的应聘者,并决定谁有资格获得工作职位,并且可以为患者进行诊断。
发表于 2019-12-03 17:14 0次阅读
人工智能如何变得有良知

人工智能怎样加快社会治理的现代化

人工智能是科学技术进步的产物,也是人类社会生产力提高的具体表现。人工智能是人类创造的机器智能,是人类....
发表于 2019-12-03 17:06 3次阅读
人工智能怎样加快社会治理的现代化

人工智能通过什么方式加强人类能力

至少在可预见的未来,企业使用人工智能来提高和增强现有能力的价值将远远超过人类开展工作的价值。
发表于 2019-12-03 17:03 3次阅读
人工智能通过什么方式加强人类能力

AI 人工智能落地离不开什么问题

在人工智能等新技术催化下,信息泄密正在围绕“数据”展开,这些数据涉及各类事、物、人、企业、政府部门等....
发表于 2019-12-03 16:59 15次阅读
AI 人工智能落地离不开什么问题

人工智能数据存储需要注意哪一些问题

人工智能和机器学习将成为帮助企业利用其核心数字资产创造竞争优势的两个最重要的工具。
发表于 2019-12-03 16:55 5次阅读
人工智能数据存储需要注意哪一些问题

人工智能怎样做可以更加的智能

近年来保险公司积极运用大数据、云计算、物联网、人工智能和区块链等技术在理赔服务端开展尝试,图像识别技....
发表于 2019-12-03 16:50 3次阅读
人工智能怎样做可以更加的智能

AI落地的关键钥匙是哪一把

发展数字经济可产生的潜在价值巨大,但在实现数据价值的深度挖掘与应用之前, 需要解决开源与使能的问题,....
发表于 2019-12-03 16:43 6次阅读
AI落地的关键钥匙是哪一把

商业人工智能的采用你认为可信吗

对许多组织而言,由于缺乏透明度,人工智能仍然是谜团重重,人们不敢将其投入生产中。
发表于 2019-12-03 16:39 12次阅读
商业人工智能的采用你认为可信吗

使用人工智能和机器学习需要提前知道什么

在业务用例中有效使用人工智能和机器学习技术可以帮助企业领先于其他竞争对手,因为这些技术将会消除困扰其....
发表于 2019-12-03 16:34 6次阅读
使用人工智能和机器学习需要提前知道什么

亚马逊AWS推出AI音乐键盘,帮助程序员简单入门

如何让程序员爱上音乐?亚马逊给出的最新答案是 AI 音乐键盘。
发表于 2019-12-03 16:33 27次阅读
亚马逊AWS推出AI音乐键盘,帮助程序员简单入门

人工智能进入企业后有了怎样改变

人工智能并不是洒落在遗留流程和遗留技术上的神奇精灵,而是对如何做生意的一种根本性的反思。
发表于 2019-12-03 16:30 5次阅读
人工智能进入企业后有了怎样改变

机器学习翻译存在什么局限性

机器学习为企业提供了翻译文档的新机会,他们可以使用机器学习来翻译营销材料和其他文献。
发表于 2019-12-03 16:26 10次阅读
机器学习翻译存在什么局限性

人工智能领域的增速放缓 主要体现在AI应用程序的...

人工智能领域的增速放缓,主要体现在AI应用程序的部署增长方面。原计划23%的数据将在2019年被应用....
发表于 2019-12-03 16:25 18次阅读
人工智能领域的增速放缓 主要体现在AI应用程序的...

区块链与大数据之间是如何互补的

由于比特币、以太坊等加密货币,区块链实际上可以支持任何类型的数字化信息。
发表于 2019-12-03 16:15 11次阅读
区块链与大数据之间是如何互补的

华为云底气十足 属于中国AI的黄金时代正在到来

为期两天的 AICon 全球人工智能与机器学习技术大会已落下帷幕,作为一场面向各行业 AI 中高层技....
发表于 2019-12-03 15:46 41次阅读
华为云底气十足 属于中国AI的黄金时代正在到来

在客服行业使用人工智能的好处有哪一些

客户服务机器人是一种可实时提供客户问题交互式答案的技术。组织为机器人提供预先写好的指令,以回答客户通....
发表于 2019-12-03 15:22 25次阅读
在客服行业使用人工智能的好处有哪一些

随着5G以及AIoT的大量应用兴起 宜鼎国际也推...

2019年12月3日消息,闪存市场的工业领域,明年将随着5G以及AIoT的大量应用兴起,陆续推出高规....
发表于 2019-12-03 14:45 27次阅读
随着5G以及AIoT的大量应用兴起 宜鼎国际也推...

人工智能的这三年发生了什么?

据Gartner发布的2017年《技术成熟度报告》显示,其中出现了8项新增技术成果,其中包括5G、人....
发表于 2019-12-03 14:32 120次阅读
人工智能的这三年发生了什么?

人工智能是如何被称为第四次工业革命的催化剂的

人工智能,机器学习,物联网,区块链—随着这些技术的问世,当今人类正在经历一场继互联网之后的重大科技变....
发表于 2019-12-03 14:28 23次阅读
人工智能是如何被称为第四次工业革命的催化剂的

天猫精灵反映了中国AIoT产业带什么情况

着语音交互这条产品路径,天猫精灵正在为中国智能产业化撰写出的独家样本。
发表于 2019-12-03 13:47 30次阅读
天猫精灵反映了中国AIoT产业带什么情况

AI三年的情况是怎样的

围棋所包含的巨大的搜索空间(其状态数远远超过整个宇宙中的原子数)一直是机器学习未能攻克的难题,甚至一....
发表于 2019-12-03 13:38 57次阅读
AI三年的情况是怎样的

中国人工智能芯片行业的规模怎样

随着大数据的发展,计算能力的提升,人工智能近两年迎来了新一轮的爆发。
发表于 2019-12-03 11:50 72次阅读
中国人工智能芯片行业的规模怎样

中国的AI芯片行业能否赶上形式

半导体硅芯片已经成为技术革命的支柱,为移动电话、电脑、无人驾驶汽车和“智能”设备提供动力。
发表于 2019-12-03 11:38 41次阅读
中国的AI芯片行业能否赶上形式

人工智能真正的风险在哪里

面对人工智能的风险,当下存在严重两极化:比如美国加州就决定禁用人脸识别技术,但也有更多企业对风险持视....
发表于 2019-12-03 11:34 22次阅读
人工智能真正的风险在哪里

随着安全需求与经济条件的日益提高 视频监控领域五...

随着人们安全需求与经济条件的日益提高,我国监控摄像头个数逐年增加,在计算机视觉、大数据、云存储等技术....
发表于 2019-12-03 11:32 24次阅读
随着安全需求与经济条件的日益提高 视频监控领域五...

怎样为物联网寻找最佳的投资方式

许多物联网项目的演示方式,大大降低了投资者和客户的吸引力。这将导致项目永远无法启动,即使启动了,也很....
发表于 2019-12-03 11:27 19次阅读
怎样为物联网寻找最佳的投资方式

长沙大规模推进产业智能化 推动新一代人工智能与制...

“未来可能会有许多人工智能中心在世界各个城市崛起,长沙的起步不算早,但是发展却很快,我认为长沙很有机....
发表于 2019-12-03 11:16 34次阅读
长沙大规模推进产业智能化 推动新一代人工智能与制...

山东首个人工智能产业落户 打造新旧动能转换样板

近日,经山东省发展改革委同意,海尔智家股份有限公司将在青岛牵头组建山东省家庭人工智能产业创新中心,联....
发表于 2019-12-03 11:10 34次阅读
山东首个人工智能产业落户 打造新旧动能转换样板

人工智能正在学习量子力学以此来设计新分子

一种新的机器学习算法可以探测分子的量子行为,从而使化学家具有更好的从头开始设计新化合物的能力。
发表于 2019-12-03 10:30 200次阅读
人工智能正在学习量子力学以此来设计新分子

IDC和Forrester对2020年的顶级人工...

IDC和Forrester最近发布了他们对2020年及以后的人工智能(AI)的预测。Forreste....
发表于 2019-12-03 10:28 45次阅读
IDC和Forrester对2020年的顶级人工...

在数据方面人工智能赢得胜利需要一种新颖的存储策略

在数据方面,人工智能就像吃豆人。硬盘驱动器,NAS,常规数据中心和基于云的存储方案无法满足AI对速度....
发表于 2019-12-03 10:22 33次阅读
在数据方面人工智能赢得胜利需要一种新颖的存储策略

所有的金融业务都要用区块链技术

金融科技蓬勃发展,金融账户数据的关联性和交互性不断增强,金融活动的实时性和不间断性越发明显,金融风险....
发表于 2019-12-03 10:20 41次阅读
所有的金融业务都要用区块链技术

人工智能真正落地“刚需场景” 摒弃伪需求非常重要

未来人工智能无处不在,当下各行各业也都贴上了人工智能的标签,而人工智能貌似“无所不能”地渗入百业百态....
发表于 2019-12-03 10:12 26次阅读
人工智能真正落地“刚需场景” 摒弃伪需求非常重要

人工智能技术可以从三个层面对网络进行重构

人工智能加速发展人工智能是研究机器以人类思维方式学习、推理、决策的当前最前沿研究方向之一,是计算机科....
发表于 2019-12-03 10:12 67次阅读
人工智能技术可以从三个层面对网络进行重构

玖富数科集团推出小易机器人,采用最新“端+云”技...

神经网络和深度学习技术的快速发展加速了图像识别、语音识别、自然语言理解等技术的实用化突破,显著提升了....
发表于 2019-12-03 10:05 126次阅读
玖富数科集团推出小易机器人,采用最新“端+云”技...

基于AI的衰老和寿命医疗预测器正在快速兴起

虽然年代和生物年龄的预测因子是在几年前出现的,但最近使用深度学习方法开发的预测因子在研究衰老机理的研....
发表于 2019-12-03 09:54 41次阅读
基于AI的衰老和寿命医疗预测器正在快速兴起

区块链技术对粉丝经济有什么影响

随着粉丝素养不断提升,技术支撑日渐完善,“粉丝经济”正在步入发展快轨,有望保持高速增长的活力。
发表于 2019-12-03 09:53 18次阅读
区块链技术对粉丝经济有什么影响

人脸识别技术和人工智能发展已是大势所趋

人脸识别技术凭借其广阔应用前景被产业各方一致看好,在该领域更是涌现出了一大批明星企业,推动着人脸识别....
发表于 2019-12-03 09:52 122次阅读
人脸识别技术和人工智能发展已是大势所趋

对于区块链+外汇管理有怎样的期望

大力推进“数字外管”和“安全外管”建设,密切跟踪新技术发展,探索大数据、云计算、区块链、人工智能等技....
发表于 2019-12-03 09:47 11次阅读
对于区块链+外汇管理有怎样的期望

雪亮工程建设智能化 首先需要解决人工智能在雪亮工...

人工智能是计算机科学的分支,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的....
发表于 2019-12-03 09:40 30次阅读
雪亮工程建设智能化 首先需要解决人工智能在雪亮工...

【转载】如何从零入门人工智能(AI)具体学习步骤和方法

上次我们讲到人工智能的一些应用,对于计算机专业的小白,我们如果对人工智能感兴趣,我们该如何入手呢?本文主要参考...
发表于 2019-11-28 16:20 102次阅读
【转载】如何从零入门人工智能(AI)具体学习步骤和方法

史上最全AI人工智能入门+进阶学习视频全集(200G)【免费领取】

近几年来,人工智能(AI)概念很火热,几乎人人都在学习人工智能,AI市场人才的抢夺也非常的激烈。根据百科的解释...
发表于 2019-11-27 12:10 235次阅读
史上最全AI人工智能入门+进阶学习视频全集(200G)【免费领取】

高焕堂:VR/AR欺骗大脑,AI赋能大脑,两者结合创意无限

高焕堂,台湾VR/AR产业联盟主席、台湾铭传大学《AI潮流下的创新设计思维》课程讲师、台湾科技大学VR技术培训...
发表于 2019-11-26 13:52 5474次阅读
高焕堂:VR/AR欺骗大脑,AI赋能大脑,两者结合创意无限

传感器和人工智能的关系

  谁来阐述一下传感器和人工智能的关系? ...
发表于 2019-11-25 15:51 177次阅读
传感器和人工智能的关系

5G与人工智能的关系

  谁来阐述一下5G与人工智能的关系?
发表于 2019-11-22 17:08 229次阅读
5G与人工智能的关系

大彩智能屏在美容行业的应用.pdf

大彩智能屏在美容行业的应用:随着用户对显示效果的要求越来越高,传统的数码管已经不能满足客户的要求,智能彩屏显示...
发表于 2019-11-22 16:07 143次阅读
大彩智能屏在美容行业的应用.pdf

【瑞芯微RK1808计算棒试用体验】搭建Linux(Ubuntu18.04)环境试用RK1808

       人工智能已成为各行各业离不开的主题,电子发烧友论坛和瑞芯微电子联合推出的RK1808试用...
发表于 2019-10-25 13:05 237次阅读
【瑞芯微RK1808计算棒试用体验】搭建Linux(Ubuntu18.04)环境试用RK1808

安装Python SDK和开发插件

大数据导论实验报告
发表于 2019-10-22 13:49 81次阅读
安装Python SDK和开发插件

大数据从入门到精通

寻找新未来,大数据从入门到精通其实难度并不大...
发表于 2019-10-22 10:35 73次阅读
大数据从入门到精通

详解zookeeper原理

大数据生态之zookeeper(原理)
发表于 2019-10-22 08:44 85次阅读
详解zookeeper原理