0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据是非竞争性资源,有助于政府科学决策、商家精准营销

悟空智能科技 来源:未知 作者:李倩 2018-05-24 17:19 次阅读

在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统计学家、哈佛大学终身教授刘军担任主任。日前,刘军做客人民日报、人民网《文化讲坛》,分享他的思考。

让大数据区别于数据的,是其海量积累、高增长率和多样性

什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。古人“结绳记事”,打了结的绳子就是数据。步入现代社会,信息的种类和数量越来越丰富,载体也越来越多。数字是数据,文字是数据,图像、音频视频等都是数据。

什么是大数据呢?量的增多,是人们对大数据的第一个认识。随着科技发展,各个领域的数据量都在迅猛增长。有研究发现,近年来,数字数据的数量每3年多就会翻一番。

大数据区别于数据,还在于数据的多样性。正如高德纳咨询公司研究报告指出的,数据的爆炸是三维的、立体的。所谓的三维,除了指数据量快速增大外,还指数据增长速度的加快,以及数据的多样性,即数据的来源、种类不断增加。

从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析,原本孤立的数据变得互相联通。这使得人们通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。

通过数据来研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据采集分析直接相关,例如现代医学流行病学的开端。伦敦1854年发生了大规模的霍乱,很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系,发现有一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因:一口被污染的水井。关闭这口水井之后,霍乱的发病率明显下降。这种方法,充分展示了数据的力量。

本质上说,许多科学活动都是数据挖掘,不是从预先设定好的理论或者原理出发,通过演绎来研究问题,而是从数据本身出发通过归纳来总结规律。近现代以来,随着我们面临的问题变得越来越复杂,通过演绎的方式来研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要,数据的重要性也越发凸显出来。

大数据是非竞争性资源,有助于政府科学决策、商家精准营销

大数据时代,数据的重要作用更加凸显,许多国家都把大数据提升到国家战略的高度。

政府合理利用大数据,引导决策的将是基于实证的事实,政府会更有预见性、更加负责、更加开放。中国古代治国就已经有重数据的思想,如商鞅提出,“强国知十三数……欲强国,不知国十三数,地虽利,民虽众,国愈弱至削”。大数据时代,循“数”治国将更加有效。小数据时代,政府做决策更多依凭经验和局部数据,难免头痛医头、脚痛医脚。比如,交通堵塞就多修路。大数据时代,政府做决策能够从粗放型转向集约型。路堵了,利用大数据分析,可以得知哪一时间、哪一地段最容易堵,或在这一地段附近多修路,或提前预警引导居民合理安排出行,实现对交通流的最佳配置和控制,改善交通。

对于商家来说,大数据使精准营销成为可能。一个有趣的故事,是沃尔玛超市的“啤酒、尿布”现象。沃尔玛超市分析销售数据时发现,顾客消费单上和尿布一起出现次数最多的商品,竟然是啤酒。跟踪调查后发现,有不少年轻爸爸会在买尿布时,顺便买些啤酒喝。沃尔玛发现这一规律后,搭配促销啤酒、尿布,销量大幅增加。大数据时代,每个人都会“自发地”提供数据。我们的各种行为,如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车,都会生成数据并被记录下来,我们的性别、职业、喜好、消费能力等信息,都会被商家从中挖掘出来,以分析商机。

大数据也将使个人受益。从生物学、医学上讲,以前生物学家只是通过对单个或几个基因的操控来观察其对生物体的影响,很难发现整体的关联。现在由于技术的发展,可以分析很多,如遗传信息、全体基因的表达量信息、蛋白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时还有个人健康指标、病历、药物反应等数据。如果真能达成生物学上多维多向数据的有机融合,就能够把个人完整地描述出来,从而实现精准医疗的目的。

大数据时代,审核数据的真实性也有了更有效的手段。大数据的特征之一是多样性,不同来源、不同维度的数据之间存在一定的关联度,可以交叉验证。例如,某地的工业产值虚报了一倍,但用电量和能耗却没有达到相应的规模。这就是数据异常,很容易被系统识别出来。发现异常后,相关部门再进行复核,就能更有针对性地防止、打击数据造假。

数据是一种资源,但数据又跟煤、石油等物质性资源不一样。物质性资源不可再生,你用多了,别人就用少了,因而很难共享。数据可以重复使用、不断产生新的价值。大数据资源的使用是非恶性竞争的,共享的前提下,更能够制造双赢。从另一个角度来说,数据如果不被融合、联系在一起,也不能称之为大数据。

大数据不能被直接拿来使用,统计学依然是数据分析的灵魂

现在社会上有一种流行的说法,认为在大数据时代,“样本 = 全体”,人们得到的不是抽样数据而是全数据,因而只需要简单地数一数就可以下结论了,复杂的统计学方法可以不再需要了。

在我看来,这种观点非常错误。首先,大数据告知信息但不解释信息。打个比方说,大数据是“原油”而不是“汽油”,不能被直接拿来使用。就像股票市场,即使把所有的数据都公布出来,不懂的人依然不知道数据代表的信息。大数据时代,统计学依然是数据分析的灵魂。正如加州大学伯克利分校迈克尔·乔丹教授指出的:没有系统的数据科学作为指导的大数据研究,就如同不利用工程科学的知识来建造桥梁,很多桥梁可能会坍塌,并带来严重的后果。

其次,全数据的概念本身很难经得起推敲。全数据,顾名思义就是全部数据。这在某些特定的场合对于某些特定的问题确实可能实现。比如,要比较清华、北大两校同学数学能力整体上哪个更强,可以收集到两校同学高考时的数学成绩作为研究的数据对象。从某种意义上说,这是全数据。但是,并不是说我们有了这个全数据就能很好地回答问题。

一方面,这个数据虽然是全数据,但仍然具有不确定性。入校时的数学成绩并不一定完全代表学生的数学能力。假如让所有同学重新参加一次高考,几乎每个同学都会有一个新的成绩。分别用这两组全数据去做分析,结论就可能发生变化。另一方面,事物在不断地发展和变化,同学入校时的成绩并不能够代表现在的能力。全体同学的高考成绩数据,仅对于那次考试而言是全数据。“全”是有边界的,超出了边界就不再是全知全能了。事物的发展充满了不确定性,而统计学,既研究如何从数据中把信息和规律提取出来,找出最优化的方案;也研究如何把数据当中的不确定性量化出来。

所以说,在大数据时代,数据分析的很多根本性问题和小数据时代并没有本质区别。当然,大数据的特点,确实对数据分析提出了全新挑战。例如,许多传统统计方法应用到大数据上,巨大计算量和存储量往往使其难以承受;对结构复杂、来源多样的数据,如何建立有效的统计学模型也需要新的探索和尝试。对于新时代的数据科学而言,这些挑战也同时意味着巨大的机遇,有可能会产生新的思想、方法和技术。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8652

    浏览量

    136600

原文标题:大数据时代,传统统计学依然是数据分析的灵魂

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    在微芯片上使用3D反射器堆栈有助于加快6G通信的发展

    一项新的研究发现,在微芯片上使用3D反射器堆栈可以使无线链路的数据速率提高三倍,从而有助于加快6G通信的发展。
    的头像 发表于 03-13 16:31 238次阅读

    工业物联网数据大屏看板:让你成为遍览数据科学决策

    你是否已经厌倦了那些枯燥无味的数据报告?是否已经对那些繁琐的数据分析过程感到疲惫?来自多种工业设备的海量不同类型数据如果得不到合理分类与统计,也没有直观个性化的展示界面,那么对于管理决策
    的头像 发表于 01-11 11:27 352次阅读
    工业物联网<b class='flag-5'>数据</b>大屏看板:让你成为遍览<b class='flag-5'>数据</b><b class='flag-5'>科学决策</b>

    Modbus转ethercat网关在农业中的应用主要体现

    应对措施,保障农业生产顺利进行。 Modbus转ethercat网关在农业中的应用具有广泛和多样,可以实现数据采集和监控、自动化控制、精准农业应用、农机自动化应用、智能农业
    发表于 12-31 08:42

    ADI全新集成电路有助于监测心率

    电子发烧友网站提供《ADI全新集成电路有助于监测心率.pdf》资料免费下载
    发表于 11-24 10:38 0次下载
    ADI全新集成电路<b class='flag-5'>有助于</b>监测心率

    多层pcb生产,更有助于高精度布线

    多层pcb生产,更有助于高精度布线
    的头像 发表于 11-15 11:02 253次阅读

    MATLAB编程在优化中的应用介绍

    ,这样的组合对自学者来说也是极其困难的。 廉价桌面计算资源的爆炸式增长有助于当今的工程设计实践。与这一发展并行的是互联网上广泛的学习和部署资源。软件系统的可用为以一致的方式处理数学、
    发表于 09-21 07:07

    AI智能呼叫中心

    ,对用户的需求进行准确的预判,并针对性地提供解决方案,有助于提高用户体验和忠诚度三、数据驱动决策AI智能呼叫中心能够实时收集并分析大量的数据,包括呼叫记录、客户反馈、问题类型和解决方案
    发表于 09-20 17:53

    大数据如何应用于业务和决策

    大数据已经成为当今商业和决策制定中的一个关键因素。随着互联网的普及和技术的不断进步,我们生产的数据量呈指数级增长。这些数据不仅包括来自社交媒体、传感器、移动设备等各种来源的信息,还包括
    的头像 发表于 09-08 11:00 307次阅读

    激光脉冲或将有助于开发下一代高容量电池

    近日,阿卜杜拉国王科技大学(King Abdullah University,KAUST)了一项研究成果,该成果可能有助于改进下一代电池的阳极材料。
    发表于 08-08 14:44 188次阅读

    城市雨水情监测系统,助力降雨防汛快速预警与科学决策

    ,进而分析出城市排水系统的负荷和处理能力,快速预警并采取措施,也能为城市水环境灾害治理提供科学决策。 通过在城市各处布置雨水情监测站点,特别是地下车库、河流、排水管网等地区,通过接入物通博联工业智能网关,实时采
    的头像 发表于 08-01 15:58 274次阅读

    研华推出WISE-BI精益数字化决策中心解决方案

    本期导读 数字决策是践行数字中国战略的重要渠道之一,数字化决策中心已经成为企业数字化转型加速器。研华WISE-BI数字化决策中心解决方案,聚焦制造业核心应用场景,以数据驱动
    的头像 发表于 07-25 16:56 596次阅读

    孔环是什么?深入了解孔环有助于实现PCB设计

    本文将探讨孔环,因为更深入的了解孔环有助于确保成功地实现PCB设计。
    的头像 发表于 07-19 10:21 2755次阅读
    孔环是什么?深入了解孔环<b class='flag-5'>有助于</b>实现PCB设计

    三维天地数据可视化分析平台助力企业科学决策,高质量发展

    作为制造业数字化转型与智能化升级的关键技术,受到了社会各界的普遍关注。 当前,越来越多的企业也开始意识到数据的价值,强调运用数据进行科学化运营,传统的粗放式经营弊端已经越发明显,“拍脑袋”的
    的头像 发表于 07-18 16:53 407次阅读
    三维天地<b class='flag-5'>数据</b>可视化分析平台助力企业<b class='flag-5'>科学决策</b>,高质量发展

    Maxim芯片有助于设计人员降低系统功耗

    已经成为设计者追求的新目标,特别是对于每天工作24小时的系统。为了满足低功耗要求,电路设计人员深知细节决定成败,需要对每一部分电路的电流进行仔细测算。本文介绍了Maxim芯片在典型系统中的应用,有助于设计人员降低系统功耗。文中给出的实例只是Maxim众多超低电流器件中的几个典型例子。
    的头像 发表于 06-10 09:31 529次阅读
    Maxim芯片<b class='flag-5'>有助于</b>设计人员降低系统功耗

    大数据分析的重要性

    大数据分析有助于找到问题的解决方案,如降低成本,节省时间并降低决策风险。通过结合数据分析和机器学习,企业可以通过以下方式获益匪浅:
    的头像 发表于 05-10 15:34 672次阅读