0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

陈纯院士报告分享:时序大数据流(图)实时计算及智能决策

bzdlyqxsl 来源:中国计算机学会 2023-04-03 11:26 次阅读

人类社会和物理空间在信息空间中映射有两种基本表达结构,分别是针对对象的特征空间结构和针对关系的关联图谱结构。在互联网、移动互联网出现之后,这两种结构所表达的数据都可以拥有时间戳。基于时间戳的数据被称为 “时序数据”,时序数据是从2013年开始提出了的概念。从计算机算法的角度来看,时序数据有几个特点:第一是增量的;第二是时序的,时间不能隔断;第三是动态的;第四需要处理复杂的时序变化。

在2015年的时候,我们开始研究时序数据,有别于历史数据和实时数据的处理,针对时序大数据流的实时计算,我们希望做到每秒千万级并发访问,千亿级流水和高实时。

41143dd6-d16c-11ed-bfe3-dac502259ad0.png

大数据、流数据到“时序大数据”发展历程

针对时序大数据的处理,我们的研究工作涉及到四项关键技术,分别是:

1. 面向复杂统计指标的实时增量计算。基于多项式拆解的复杂算子增量计算算法,实现了在长周期、多尺度、高密度时间窗口中的方差、协方差、K阶中心矩等数十种复杂算子实时计算。例如,从数学上,我们需要把计算协方差的方法重新写成增量的方法,以前的数据不是简单的原数据,而是通过计算以后的中间量,这需要花费很长的时间。我们用了十几年的时间,把每个算法从数学的角度重新定义。

2. 面向时序数据处理的动态时间窗口技术。时间窗口需要提供滚动、滑动的漂移能力,也要支持长周期时间窗口的动态精度控制,并且还要支持基于弹性时间窗口的实时ADHoc查询。

3. 多源时序数据的实时关联计算。关联分析非常重要,不仅仅是一个特征的时序分析,还需要关联起来,这个时候需要有一个关联分析的引擎。针对关联分析的引擎,我们必须在内存里面有非常大的空间,但是要做到实时也是非常难的。

4. 基于流的事件序列识别(复杂事件处理CEP)。主要是支持CEP的增量匹配及数理统计问题,要把增量匹配增量统计。

通过多年的努力,我们基本上解决了四大关键技术问题,形成了我们称之为的流立方技术。流立方能够和均匀流架构完全结合起来,具有历史数据的大数据量的处理能力,同时又具有流处理的实时能力。这是一个大数据处理的方式,因为在具体应用当中,大家会碰到很多大数据的分析,但是很多时候,都没有加上时间这个纬度的分析,当然没有加上时间纬度的分析也许能够解决问题,但是要花费很大的计算量。这四项关键是处理大数据实时时序的大数据流分析,后面结合AI的模型,可以形成一个实时的流的管理。

流立方,除了流之外,还可以在图上展示。特征空间的分析用特征向量就可以,加了一个在每个特征空间里面时间纬度,形成时序的时间分析。图的分析是关联分析,关联分析图也是可以加时间纬度。

如下图所示,在2017年的时候已经知道图数据的处理非常重要。同样的,到了2018年的时候,图越来越大,需要进行实时的图计算,这个时候我们想到很多的方式,分布式的实时图数据也有,类似于流处理,和以前的批处理的架构一样。以前所谓的图处理,现在是实时图处理,关键是加上时序分析。到了2018年有1.0版,目前我们希望有2.0版,这里有大量的工作需要做。尤其是图计算越来越重要,图计算能够产生80%的数据创新。通过图计算分析能够洞彻数据之间的关联关系,提高社会运行效率,这是战略的制高点。

41584c06-d16c-11ed-bfe3-dac502259ad0.png

从“时序流”到“时序动态图”的发展历程

图计算也是非常难的,实时图计算,时序图的动态回溯和分析,百亿级顶点,万亿亿的边,两两都有边,时间轴会变一下,有的顶点增加,有的顶点减少,有的关联边没有了,有的边增加了,这个关联度要建立起来。这样的应用案例非常多,去年在新冠期间,在实时的时空关联中,有很多顶点,除了每个人是一个顶点之外,把时空分割起来也是一个顶点。所以,一个人在时间、空间上和你关联起来,就是时空关联。几百亿的顶点和边,怎么做都是困难的,这里通过时序图的实时增量计算和动态回溯,时序图的分布式处理,时序图的智能决策都有很大的挑战性。在我们的研究工作中,这里依然由四项关键技术。

1. 时序图的实时增量计算,包括统计特征,聚合的统计,聚合边的关联。图和流不一样,图实时动,图的结构就变了,到了下一时刻,原来是两亿的点的图,变成了现在的2.3亿,增加三千万点。需要动态建图,并且时序图的增量匹配是个问题。事件驱动的图模式并行匹配,需要很大的工作量,除此之外,更难的是原有的图算法很多,需要进行图算法的增量计算,有大量工作要做。

2. 时序图的实时动态回溯。支持长周期、混合时间尺度的时序计算能力,以及支持弹性时间窗口的视图实时回溯能力。关系在变化,每个切面都要变,需要实时进行查询。

3. 时序图的分布式内存存储引擎。这么大的图做到实时,一定要把数据导进内存,能不能做一个分布式的内存架构显得非常重要。到目前为止,开源的流效益依然不高。我们做的时序图分布式存储引擎叫做cubebose,希望对图的结构更加有效。

4. 面向时序图的实时决策(三核智能决策引擎),把数据从实时采集到实时决策,指标计算特征提取这里面有图数据库,时间关系等。

针对时序图的应用,银行交易反欺诈系统是一个典型的案例。这个系统用到了流的处理引擎,是一个精巧的计算,可以不用大量的算力和计算机来做这个工作。银联要求每秒5万个并发,希望在50毫秒内全球要响应,IBM的硬件要一千多万,我们的算法只使用4台PC设备。如果没有时序流的计算,硬件不仅仅4台,可能要40台都不够。

第二案例是铁路12306,大量的爬票程序存在,需要在每秒170万的并发量,几千台设备管理买票都要宕机。阿里的双11支付的峰值是每秒60多万,铁路12306峰值达到180万,是阿里的双11的3倍。采用了我们的算法,仅仅使用了22台设备。现在铁路12306核心处理只有22台,安装了22个节点的流立方,可以做到每秒200万的处理能力。

在数字经济时代,数据怎么处理,从时间轴上面考虑,这是非常重要的。因为以前的算法没有时间这个纬度,我们通过很多AI模型来计算来解决这个问题,但是加上时间,一切问题迎刃而解。黑客攻击也是一样,以前没有时间戳,没有办法,加上时间戳很多问题很多模型都简化很多,所以我建议大家在具体的数字经济时代,当我们在处理数据的时候,结合场景,加一个纬度(时间)加上去看看,能不能起到一个很好的作用。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4455

    浏览量

    90756
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47687
  • 大数据
    +关注

    关注

    64

    文章

    8649

    浏览量

    136589

原文标题:陈纯院士报告分享:时序大数据流(图)实时计算及智能决策

文章出处:【微信号:信息与电子工程前沿FITEE,微信公众号:信息与电子工程前沿FITEE】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大众数据流分析

    、3.0发动机数据流定义与解释别克君威2.0发动机数据流定义与解释凯越数据流列表凯越发动机数据流定义赛欧数据流列表赛欧
    发表于 06-15 12:28

    LabVIEW数据流控制方法研究

    本文剖析了LabVIEW数据流语言的特点,提供了其若干有效控制方法,指出LabVIEW本身即可解决数据流控制上的变量冲突、响应时序控制、初始状态自适应调整等问题并保证其通用性,而不必求助于其它代码
    发表于 12-23 10:11

    2017医疗科技大会-医疗大数据、互联网医疗的绽放

    国内医疗科技前沿技术和学术交流的一平台。本届大会除顶级专家的特邀报告外,还设有健康医疗大数据、精准医疗、互联网医疗和医疗健康投融资等4个专场。本次活动邀请了张元亭院士、张建伟
    发表于 10-23 11:18

    常见大数据应用有哪些?

    设计阶段大数据架构设计阶段需掌握的技术有:Flume分布式、Zookeeper、Kafka等。四、大数据实时计算阶段大数据实时计算阶段需掌握的技术有:Mahout、Spark、storm。五、
    发表于 03-13 16:50

    ARMS: 原来实时计算可以这么简单!

    的基础,整合和封装了数据收集,消息通道,实时计算时序存储,以及在线报表等多种先进互联网技术组件。本文主要介绍一下 ARMS 自定义监控中聚合逻辑以及时序查询设计。离线
    发表于 06-19 17:19

    LabVIEW中的数据流编程基础

    。   1显示了一个数据流编程的范例,程序框图中两个数字相加,然后从结果中减去50.00。 在这个范例中,程序框图从左向右执行,这并非因为对象的放置顺序,而是因为“减”函数必须在“加”函数执行完,并将数据
    发表于 11-20 10:47

    LabVIEW数据流语言的特点和有效控制方法

    摘 要:本文剖析了LabVIEW数据语言特点,提供了其若干有效控制方法,指出LabVIEW本身即可解决数据流控制上的变量冲突、响应时序控制、初始状态自适应调整等问题并保证其通用性,
    发表于 04-11 09:40

    部署实时数据流平台面临的挑战有哪些?

    部署实时数据流平台面临的五大挑战
    发表于 03-17 07:00

    基于大数据的流式计算

    流式计算大数据的一种重要计算模式,大数据流计算已成为研究热点。任务管理是大数据流
    发表于 11-22 17:34 1次下载
    基于<b class='flag-5'>大数据</b>的流式<b class='flag-5'>计算</b>

    下一代大数据处理引擎,阿里云实时计算独享模式重磅发布

    的。而实时计算作为一类针对流数据实时计算模型,可有效地缩短全链路数据流时延、实时计算逻辑、平
    发表于 11-15 15:47 167次阅读

    实时计算在贝壳的实践

    摘要:Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。本文由贝壳找房的资深工程师刘力云将带来Apache Flink技术在贝壳找房业务中
    发表于 03-15 17:16 1104次阅读
    <b class='flag-5'>实时计算</b>在贝壳的实践

    腾讯云大数据平台d的算力资源池达500万核,日实时计算量超40万亿

    9月11日,在2020腾讯全球数字生态大会上,腾讯云副总裁刘煜宏透露,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度
    发表于 09-11 10:53 675次阅读

    《自动化学报》—大数据智能决策

    大数据智能决策 来源:《自动化学报》 ,作者于洪等 摘 要 在全球信息化快速发展的背景下,大数据已经成为一种战略资源.各行各业的决策活动在频
    发表于 01-08 08:36 932次阅读

    金融机构如何构建实时计算能力

    后中台时代,金融机构在批处理计算能力方面差距已不明显,实时计算将成为银行错位竞争的分水岭。在IBM商业价值研究院(IBV)最新出品的洞察报告《马作的卢 弓如霹雳》中,IBM咨询专家提出了“六位一体
    的头像 发表于 01-20 10:27 1608次阅读

    实时计算汽车数量开源分享

    电子发烧友网站提供《实时计算汽车数量开源分享.zip》资料免费下载
    发表于 06-28 09:26 0次下载
    <b class='flag-5'>实时计算</b>汽车数量开源分享