0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据分析学习的挑战:复杂性、不确定性及涌现性

454398 来源:alpha007 作者:alpha007 2022-11-17 10:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:ST社区

科多分享的大数据分析学习与研究的新挑战:对于习惯结构化数据研究的统计学来说,大数据分析显然是一种崭新的挑战。

挑战来自何方?来自于大数据的复杂性、不确定性和涌现性三个方面,其中复杂性最为根本。

大数据的复杂性

复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。对于大数据的类型与结构的复杂性这里不再赘述,但它们决定了数据模式的多样化,使得刻画数据特征的模式不断变化、呈几何级数增加。统计学尽管长期以来研究复杂现象的数量特征,但所涉及的数据是结构化的,模式是固定化的,比起大数据要简单得多。

因此,学习大数据,我们不仅要熟悉各种类型的数据模式,还要善于把握它们之间的相互关系与作用,善于综合利用各方面的知识(包括文本挖掘、图像处理、信息网络技术、心理学、社会学等等)加以研究。已有一些学者提出利用网络来描述异质数据间的关系,同时提出了目标数据的“元路径(Meta-Path)”概率刻画模式。同时,由于非结构化数据通常比结构化数据包含更多的无用信息和垃圾信息,因此需要运用特定的方法来去伪存真、去粗存精,例如通过搜索引擎从非结构化数据中检索出有用的信息等等。

大数据的不确定性

网络大数据通常是高维的,以往的统计学习方法往往难以产生令人满意的效果。复杂性必然带来不确定性。

大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。数据的不确定性既包括原始数据的不准确,也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性。例如阿里巴巴数据官曾经介绍,区淘宝网上购物者的性别特征就可以有十几种判断。虽然传统的统计学方法主要研究不确定性数据,但传统数据的不确定性明显不同于大数据的不确定性,面对海量、高维、多类型的不确定性数据,传统的统计方法显得力不从心,无论是数据的采集、存储、建模还是查询、检索和挖掘,都需要创新方法。大数据的不确定性必然带来数据处理与分析模型的不确定性,但要解决这一点非常困难,有人提出了“可能世界模型”,认为应该在一定的结构规范下刻画出数据的每一种状态,但这同样极其困难,在实际应用中不可能存在这样一种通用的模型结构,只能采取简化的模型,例如独立性假设、同分布假设等等,尤其是概率图模型已在数据相关性建模等方面得到了广泛的应用。

模型的不确定性又必然带来大数据学习的不确定性,使得模型参数的学习很难找到最优解,找到一个局部最优解都很困难,通常只能采用近似的方法来替代。

随着多核CPU/GPU的普及以及并行计算框架的研究,碎片化方法被普遍认为是解决网络大数据问题的可行方法,但需要做的工作仍然非常多。近些年来,统计学习领域的非参数模型方法提供了一种自动学习思路,但计算过程依然复杂,如何应用到网络大数据以及大数据培训中仍然是个问题。

大数据的涌现性

涌现性是网络大数据有别于其他数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。

涌现性的背后是各种信息的交互作用,是产生新的人类行为方式、以及社会经济规律的重要基础。模式的涌现性是指网络数据由于多尺度、异质性而表现出来的、在属性和功能等方面既存在差异又相互关联的特定模式特征,这种涌现性结果对于研究社会网络模型、理解网络瓦解原因具有重要意义。行为的涌现性则与数据的时序性有关,是社会网络中个体行为基于时序分布的统计结果,表现为较大相似性个体之间容易建立社会关系,使得网络在演化过程中自发形成相互分离的连通块。这种涌现性对于研究更多的社会网络模型、理解行为涌现规律具有重要意义。例如,著名网络科学家巴拉巴斯(Barabasi)通过研究发现,人们发送邮件的数量存在着特定的时间分布特征。智慧的涌现性是指网络数据在没有全局控制和预先定义的情况下,来自大量个体的自发语义通过互相融合和连接可以形成为有特定意义的通用语义,整个过程随着数据的变化而持续演进。这种涌现性对于理解网络语义的形成与变化具有重要意义。

总体而言,尽管近些年与大数据研究密切相关的数据库、数据挖掘、机器学习和智能工程等领域都取得了很大的进展,但由于大数据的复杂性、不确定性和涌现性,使得相关研究成果难以被直接应用于学习大数据的分析研究之中。传统的分析方法不能准确表示网络大数据在异构性、交互性、时效性和突发性等方面的特点,传统的“假设—模型—验证”的统计方法受到了质疑,而从“数据”到“数据”的第四研究范式还没有真正建立,因此亟需一个新的理论体系来指导,建立新的分析模型。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    9031

    浏览量

    143090
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    涡轮部件多源不确定性机理与分类体系研究:从几何变异到认知局限的系统解析

    涡轮部件作为航空发动机和燃气轮机的核心组成部分,其性能直接决定了整个动力系统的效率、可靠与寿命。在实际运行环境中,涡轮部件的气动与换热性能往往与设计预期存在显著差异,这种差异主要源于全寿命周期中存在的多源不确定性因素。
    的头像 发表于 11-12 14:29 339次阅读
    涡轮部件多源<b class='flag-5'>不确定性</b>机理与分类体系研究:从几何变异到认知局限的系统解析

    4种神经网络不确定性估计方法对比与代码实现

    患者血压,假设输出是120/80这样的正常值,表面看没问题。但如果模型其实对这个预测很不确定呢?这时候光看数值就不够了。神经网络有几种方法可以在给出预测的同时估计不
    的头像 发表于 11-10 10:41 195次阅读
    4种神经网络<b class='flag-5'>不确定性</b>估计方法对比与代码实现

    广立微DE-G零断档重构智能数据分析

    近日,数据分析领域被一则消息推上风口浪尖:一家老牌软件巨头将撤出中国。在此背景下,其旗下以灵活著称的数据分析软件,在中国市场的未来将面临极大的不确定性
    的头像 发表于 11-07 10:39 466次阅读

    寻迹智行AMR融合RFID识别技术,为柔性搬运注入“确定性&quot;

    在智能物流与制造业不断追求高效与柔性的今天,自主移动机器人(AMR)已成为革新场内物流的核心力量。其“柔性”特质——灵活部署、智能调度、自主避障——完美应对了现代生产中的不确定性
    的头像 发表于 10-27 14:34 144次阅读
    寻迹智行AMR融合RFID识别技术,为柔性搬运注入“<b class='flag-5'>确定性</b>&quot;

    从微秒级响应到确定性延迟:深入解析米尔全志T536核心板的实时技术突破

    延迟、调度器抖动...这些因素导致Linux的延迟通常在几十毫秒级别波动,根本无法满足工业场景对确定性的苛刻要求。 一、工业实时挑战:从理论到实践的鸿沟1.1 实时的分级标准在
    发表于 10-22 17:25

    深入解析米尔全志T536核心板的实时技术突破

    延迟、调度器抖动...这些因素导致Linux的延迟通常在几十毫秒级别波动,根本无法满足工业场景对确定性的苛刻要求。 一、工业实时挑战:从理论到实践的鸿沟1.1 实时的分级标准在工业
    发表于 10-17 17:41

    医疗PCB供应链复杂性与风险管控

    所谈的PCB,可能涉及多层叠层结构、多次钻孔压合工序,并需要通过大量认证来满足特定行业应用标准。 这些复杂性仅仅是PCB供应链宏观概念中的一小部分。管理好常规PCB供应链的风险已颇具挑战 – 当PCB被应用到关乎患者健康的医疗器械时
    的头像 发表于 10-14 14:17 261次阅读

    NVIDIA开源物理引擎与OpenUSD加速机器人学习

    开发能在工厂、医院和公共空间与人类协同作业的机器人是一项巨大的技术挑战。这类机器人需具备与人类接近的灵巧、感知能力、认知能力和全身协调性,以便于实时应对充满不确定性的真实环境。
    的头像 发表于 10-13 11:15 680次阅读

    电磁兼容与电磁干扰在电磁兼容大数据分析中的智能管理系统

    北京华盛恒辉电磁兼容 (EMC) 大数据智能管理系统精简解析 在 EMC 大数据分析中,电磁兼容与电磁干扰(EMI)智能管理系统是保障设备稳定、提升系统可靠的核心工具。系统整合 EMC/EMI
    的头像 发表于 09-17 14:58 456次阅读

    电磁兼容与电磁干扰在电磁兼容大数据分析中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容大数据分析中的智能管理系统
    的头像 发表于 09-17 14:58 387次阅读
    电磁兼容与电磁干扰在电磁兼容<b class='flag-5'>性</b><b class='flag-5'>大数据分析</b>中的智能管理平台

    电磁兼容与电磁干扰在电磁兼容大数据分析中的智能管理系统

    电磁兼容与电磁干扰在电磁兼容大数据分析中的智能管理系统
    的头像 发表于 09-17 14:42 598次阅读
    电磁兼容与电磁干扰在电磁兼容<b class='flag-5'>性</b><b class='flag-5'>大数据分析</b>中的智能管理系统

    康谋分享 | 基于多传感器数据的自动驾驶仿真确定性验证

    自动驾驶仿真测试中,游戏引擎的底层架构可能会带来非确定性的问题,侵蚀测试可信度。如何通过专业仿真平台,在多传感器配置与极端天气场景中实现测试数据零差异?确定性验证方案已成为自动驾驶研发的关键突破口!
    的头像 发表于 07-02 13:17 4003次阅读
    康谋分享 | 基于多传感器<b class='flag-5'>数据</b>的自动驾驶仿真<b class='flag-5'>确定性</b>验证

    Marvell展示2纳米芯片3D堆叠技术,应对设计复杂性挑战

    随着现代科技的迅猛发展,芯片设计面临着前所未有的挑战。特别是在集成电路(IC)领域,随着设计复杂性的增加,传统的光罩尺寸已经成为制约芯片性能和功能扩展的瓶颈。为了解决这一问题,3D堆叠技术应运而生
    的头像 发表于 03-07 11:11 912次阅读
    Marvell展示2纳米芯片3D堆叠技术,应对设计<b class='flag-5'>复杂性</b><b class='flag-5'>挑战</b>!

    优刻得:与DeepSeek模型适配,业绩贡献存不确定性

    全系列模型的适配工作。然而,目前相关业务的效果以及对公司未来业绩的具体贡献仍存在重大不确定性。 同时,经公司核实,截至公告披露日,优刻得并未直接或间接持有杭州深度求索人工智能基础技术研究有限公司的股权。这意味着,尽管双方已展开合作
    的头像 发表于 02-07 10:37 1004次阅读

    AFE5808A串并变换之后数据错位,输出结果具有不确定性,为什么?

    AFE5808A串并变换之后数据错位,输出结果具有不确定性,求问可能的原因有哪些?
    发表于 01-01 07:23