0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析学习的挑战:复杂性、不确定性及涌现性

454398 来源:alpha007 作者:alpha007 2022-11-17 10:19 次阅读

来源:ST社区

科多分享的大数据分析学习与研究的新挑战:对于习惯结构化数据研究的统计学来说,大数据分析显然是一种崭新的挑战。

挑战来自何方?来自于大数据的复杂性、不确定性和涌现性三个方面,其中复杂性最为根本。

大数据的复杂性

复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。对于大数据的类型与结构的复杂性这里不再赘述,但它们决定了数据模式的多样化,使得刻画数据特征的模式不断变化、呈几何级数增加。统计学尽管长期以来研究复杂现象的数量特征,但所涉及的数据是结构化的,模式是固定化的,比起大数据要简单得多。

因此,学习大数据,我们不仅要熟悉各种类型的数据模式,还要善于把握它们之间的相互关系与作用,善于综合利用各方面的知识(包括文本挖掘、图像处理、信息网络技术、心理学、社会学等等)加以研究。已有一些学者提出利用网络来描述异质数据间的关系,同时提出了目标数据的“元路径(Meta-Path)”概率刻画模式。同时,由于非结构化数据通常比结构化数据包含更多的无用信息和垃圾信息,因此需要运用特定的方法来去伪存真、去粗存精,例如通过搜索引擎从非结构化数据中检索出有用的信息等等。

大数据的不确定性

网络大数据通常是高维的,以往的统计学习方法往往难以产生令人满意的效果。复杂性必然带来不确定性。

大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。数据的不确定性既包括原始数据的不准确,也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性。例如阿里巴巴数据官曾经介绍,区淘宝网上购物者的性别特征就可以有十几种判断。虽然传统的统计学方法主要研究不确定性数据,但传统数据的不确定性明显不同于大数据的不确定性,面对海量、高维、多类型的不确定性数据,传统的统计方法显得力不从心,无论是数据的采集、存储、建模还是查询、检索和挖掘,都需要创新方法。大数据的不确定性必然带来数据处理与分析模型的不确定性,但要解决这一点非常困难,有人提出了“可能世界模型”,认为应该在一定的结构规范下刻画出数据的每一种状态,但这同样极其困难,在实际应用中不可能存在这样一种通用的模型结构,只能采取简化的模型,例如独立性假设、同分布假设等等,尤其是概率图模型已在数据相关性建模等方面得到了广泛的应用。

模型的不确定性又必然带来大数据学习的不确定性,使得模型参数的学习很难找到最优解,找到一个局部最优解都很困难,通常只能采用近似的方法来替代。

随着多核CPU/GPU的普及以及并行计算框架的研究,碎片化方法被普遍认为是解决网络大数据问题的可行方法,但需要做的工作仍然非常多。近些年来,统计学习领域的非参数模型方法提供了一种自动学习思路,但计算过程依然复杂,如何应用到网络大数据以及大数据培训中仍然是个问题。

大数据的涌现性

涌现性是网络大数据有别于其他数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。

涌现性的背后是各种信息的交互作用,是产生新的人类行为方式、以及社会经济规律的重要基础。模式的涌现性是指网络数据由于多尺度、异质性而表现出来的、在属性和功能等方面既存在差异又相互关联的特定模式特征,这种涌现性结果对于研究社会网络模型、理解网络瓦解原因具有重要意义。行为的涌现性则与数据的时序性有关,是社会网络中个体行为基于时序分布的统计结果,表现为较大相似性个体之间容易建立社会关系,使得网络在演化过程中自发形成相互分离的连通块。这种涌现性对于研究更多的社会网络模型、理解行为涌现规律具有重要意义。例如,著名网络科学家巴拉巴斯(Barabasi)通过研究发现,人们发送邮件的数量存在着特定的时间分布特征。智慧的涌现性是指网络数据在没有全局控制和预先定义的情况下,来自大量个体的自发语义通过互相融合和连接可以形成为有特定意义的通用语义,整个过程随着数据的变化而持续演进。这种涌现性对于理解网络语义的形成与变化具有重要意义。

总体而言,尽管近些年与大数据研究密切相关的数据库、数据挖掘、机器学习智能工程等领域都取得了很大的进展,但由于大数据的复杂性、不确定性和涌现性,使得相关研究成果难以被直接应用于学习大数据的分析研究之中。传统的分析方法不能准确表示网络大数据在异构性、交互性、时效性和突发性等方面的特点,传统的“假设—模型—验证”的统计方法受到了质疑,而从“数据”到“数据”的第四研究范式还没有真正建立,因此亟需一个新的理论体系来指导,建立新的分析模型。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8652

    浏览量

    136600
收藏 人收藏

    评论

    相关推荐

    三星电子急签WOLED订单:为应对LCD供应不确定性

     尽管去年三星电子从LG Display购买的W-OLED电视面板数量有限,但随着市场不确定性的上升和供应链问题的加剧,三星电子正在调整策略,寻求更多元化的供应来源。
    的头像 发表于 01-03 15:10 572次阅读

    Get职场新知识:做分析,用大数据分析工具

    综合分析。但现在有了大数据分析工具,一切问题都可迎刃而解。 大数据分析工具,顾名思义就是专门为分析海量数据而开发的一类工具。这类工具具有极强
    发表于 12-05 09:36

    消除热电偶温度测量中的不确定性(使用AD594/AD595)

    电子发烧友网站提供《消除热电偶温度测量中的不确定性(使用AD594/AD595).pdf》资料免费下载
    发表于 11-23 11:34 0次下载
    消除热电偶温度测量中的<b class='flag-5'>不确定性</b>(使用AD594/AD595)

    乌卡时代确定性稀缺,企业多云战略最需看中什么?

    双十一刚过,云服务商宕机导致大面积故障的新闻就引爆全网,再一次引发全网关于云计算安全可靠的大讨论。 在一个充满着复杂性、不稳定性不确定性的乌卡时代,云故障频发似乎已发展成一种“常态”,让企业对于
    的头像 发表于 11-23 10:28 123次阅读

    大规模确定性网络技术分析与展望

    确定性网络可以分为不同的技术路线,不同的技术路线往往从不同的层次切入来构建确定性网络,借助分层技术图谱可以清晰、快速地理清各个技术路线相关技术间的关系,其中不同技术工作或适应在不同的网络层次和网络
    的头像 发表于 11-06 16:26 843次阅读
    大规模<b class='flag-5'>确定性</b>网络技术<b class='flag-5'>分析</b>与展望

    如何实施时间敏感型网络以确保确定性通信

    间敏感型网络 (TSN))已经扩展,以支持确定性通信。如果实施得当,TSN 可以与非 TSN 设备互操作,但确定性通信仅可在启用 TSN 的设备之间进行。在实施 TSN 时,有许多 IEEE 802 标准需要协调,并确保其提供确定性
    的头像 发表于 10-03 14:51 634次阅读
    如何实施时间敏感型网络以确保<b class='flag-5'>确定性</b>通信

    基于Transformer和深度证据学习的立体匹配框架

    作者在各种数据集上评估了所提出的ELFNet,包括Scene Flow ,KITTI 2012和KITTI 2015 和Middlebury 2014 。此外,作者进行不确定性分析,探讨模型性能和不确定性之间的关系。
    发表于 09-18 18:29 175次阅读
    基于Transformer和深度证据<b class='flag-5'>学习</b>的立体匹配框架

    不确定性时代下的新投资范式

    对此,广发证券在研报中指出,全球新投资范式的表象是拥抱“确定性资产”,这种确定性一方面体现为低估低波稳定分红永续经营的确定性,另一方面是新科技创新周期的远景确定性,本质都是对
    的头像 发表于 07-10 10:51 481次阅读
    <b class='flag-5'>不确定性</b>时代下的新投资范式

    时序分析基本概念介绍&lt;Uncertainty&gt;

    今天我们要介绍的时序分析命令是uncertainty,简称时钟不确定性
    的头像 发表于 07-07 17:23 1961次阅读
    时序<b class='flag-5'>分析</b>基本概念介绍&lt;Uncertainty&gt;

    芯片Signoff是通过什么机制去控制偏差带来的不确定性风险的?

    在芯片设计、制造、应用等各个环节都不可避免地会引入偏差,其直接造成的影响是晶体管、电阻电容以及绕线等电特性的不确定性
    的头像 发表于 06-28 16:35 1580次阅读
    芯片Signoff是通过什么机制去控制偏差带来的<b class='flag-5'>不确定性</b>风险的?

    可靠性预测的不确定性是否证明强制要求双通道安全是合理的?

    在这篇博客中,我将集中讨论针对此类要求给出的最常见的理由之一,即可靠性数字的不确定性。人们的担忧主要集中在较旧的机械技术上,大多数人都认为半导体等新技术的可靠性预测更好。
    的头像 发表于 06-27 11:40 474次阅读
    可靠性预测的<b class='flag-5'>不确定性</b>是否证明强制要求双通道安全是合理的?

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有一套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是一种基于数据挖掘和机器
    发表于 06-27 09:22

    什么是大数据分析

    大数据分析行业是最近这几年比较火,比较高薪的行业了,很多人都想分一杯羹,经常同学问我什么是大数据分析?什么是python?这些能学到什么技能?以后能学到什么知识?有太多的疑问,小编今天就简单写出来
    的头像 发表于 05-19 11:47 882次阅读

    事实证明,国产BI软件的财务数据分析性价比极高!

    模板购买、零编程构建分析模型,不管是BI大数据分析平台的使用成本,还是企业需要付出的开发维护成本都比国外BI要低。 2、标准化财务数据分析方案,风险低、适用高 奥威BI软件是同类型的
    发表于 05-16 11:06

    大数据分析的重要性

    大数据分析有助于找到问题的解决方案,如降低成本,节省时间并降低决策风险。通过结合数据分析和机器学习,企业可以通过以下方式获益匪浅:
    的头像 发表于 05-10 15:34 672次阅读