您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

大数据基础设施建设的技术关键及解决办法

大小:0.26 MB 人气: 2017-10-13 需要积分:1
 2015中国大数据技术大会第二天的大数据基础设施分论坛中,来自阿里云、Hulu、北京忆恒创源、阿里巴巴、企事录以及中科院计算所的技术专家分享了大数据基础设施从设计、搭建到平台测试标准各个方面的技术关键点、实际问题和解决方法。
  
  阿里云的高级技术专家李超
  首先,来自阿里云的高级技术专家李超通过双11活动讲解了阿里如何构建自己的大数据平台。他首先讲解了阿里云大数据的发展史,接下来讲解了今天的阿里巴巴大数据平台到底能做什么事情,第一点最重要就是海量处理能力,这个离线计算平台支持SQL、MR、MPI、BSP算法平台。单个集群规模上线达到一万台,存储有800PB的数据,有100万以上的JOB数,响应速度做到100个毫秒级别,导出速度达到100万。除了海量数据处理能够,平台还可以提供数据整合能力,包括大数据的整合,把集团内部各个业务的数据整合在自己的平台,现在已经达到800PB的数据量,相互之间可以流转,包括结构化半结构化非结构化的数据,用统一的数据进行整合。还有数据交换能力,完全可信的数据交换平台,多层次的数据交换,还有数据管理能力,包括原数据管理,数据质量管理,数据标准管理。接下来李超讲解了大数据平台里面三个比较重要的计算框架,一个是ODPS,第二个ADS实时数据分析,第三个StreamSQL,离线实时计算。前面两个已经在阿里云官网有云服务提供,后面一个处于准备当中。此外,阿里云的伏羲系统今年打破了sort benchmark的4项世界纪录,而ODPS和ADS系统的底层,都是基于伏羲分布式调度。李超也从技术上讲解了如何用377秒将100TB的数据做出排序。
  
  Hulu公司的资深研发主管梁宇明
  Docker 技术越来越得到了很多开发者的青睐,而YARN对于多数爱好者来说还是一个比较新的平台。来自Hulu公司的资深研发主管梁宇明为大家讲解了如何把Voidbox用在YARN中。他的演讲题目是《Voidbox - Docker On YARN在Hulu的实践》。
  Voidbox是什么?可以做什么呢?梁宇明说, 在一个集群中,你把不同的应用在同一个计算的集群中共同的运行起来,这时候其实需要一个很好的调度系统,在开源的社区一般情况下大家就用Voidbox。为了把更多的应用,在全部的基础框架之上,用户构建一些Voidbox。
  在集群中的很多部署问题,用户可以写完打包到同一个集群去,利用Voidbox就可自动匹配,类似于虚拟机提供复杂环境得包的能力,提供一个相对比较好的资源隔离。Yarn作为资源调度系统实现了资源调度,VoidboxAPI使得用户把复杂的东西统一到Yarn上去。
  梁宇明介绍说:“我们之所以选择Voidbox有两个原因,第一个对应用程序可以进行很好封装,可以屏蔽环境的依赖。把这些复杂环境封装更好的打包在里面这是第一点。第二点本身CPU有很好隔离,在新版本中做到一定对网络比较好的隔离,这一点是可以提供的,这些隔离基于在一个程序之中,通过设置不同的队列,你可以把不同的任务分到不同业务运行,你可以把不同运用程序支持不同队列当中去,不同队列支持不同的机器。”
  

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!