0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

eBay利用Hadoop建立了一个大规模的集群系统—Athena

倩倩 来源:IT168 2020-03-20 11:03 次阅读

在eBay上存储着上亿种商品信息,而且每天有数百万种的新商品增加,因此需要用云系统来存储和处理PB级别的数据,而Hadoop则是个很好的选择。

Hadoop是建立在商业硬件上的容错、可扩展、分布式的云计算框架,eBay利用Hadoop建立了一个大规模的集群系统—Athena,它被分为五层(如下图所示),下面从最底层向上开始介绍:

1)Hadoop核心层,包括Hadoop运行时环境、一些通用设施和HDFS,其中文件系统为读写大块数据而做了一些优化,如将块的大小由128MB改为256MB。

2)MapReduce层,为开发和执行任务提供API和控件。

3)数据获取层,现在数据获取层的主要框架是HBase、Pig和Hive:

·HBase是根据Google BigTable开发的按列存储的多维空间数据库,通过维护数据的划分和范围提供有序的数据,其数据储存在HDFS上。

·Pig(Latin)是提供加载、筛选、转换、提取、聚集、连接、分组等操作的面向过程的语言,开发者使用Pig建立数据管道和数据工厂。

·Hive是用于建立数据仓库的使用SQL语法的声明性语言。对于开发者、产品经理和分析师来说,SQL接口使得Hive成为很好的选择。

4)工具和加载库层,UC4是eBay从多个数据源自动加载数据的企业级调度程序。加载库有:统计库(R)、机器学习库(Mahout)、数学相关库(Hama)和eBay自己开发的用于解析网络日志的库(Mobius)。

5)监视和警告层,Ganglia是分布式集群的监视系统,Nagios则用来警告一些关键事件如服务器不可达、硬盘已满等。

eBay的企业服务器运行着64位的RedHat Linux

·NameNode负责管理HDFS的主服务器;

·JobTracker负责任务的协调;

·HBaseMaster负责存储HBase存储的根信息,并且方便与数据块或存取区域进行协调;

·ZooKeeper是保证HBase一致性的分布式锁协调器。

用于存储和计算的节点是1U大小的运行Cent OS的机器,每台机器拥有2个四核处理器和2TB大小的存储空间,每38~42个节点单元为一个rack,这组建成了高密度网格。有关网络方面,顶层rack交换机到节点的带宽为1Gbps,rack交换机到核心交换机的带宽为40Gpbs。

这个集群是eBay内多个团队共同使用的,包括产品和一次性任务。这里使用Hadoop公平调度器(Fair Scheduler)来管理分配、定义团队的任务池、分配权限、限制每个用户和组的并行任务、设置优先权期限和延迟调度。

▲数据流

数据流的具体处理过程如上图所示,系统每天需要处理8TB至10TB的新数据,而Hadoop主要用于:

·基于机器学习的排序,使用Hadoop计算需要考虑多个因素(如价格、列表格式、卖家记录、相关性)的排序函数,并需要添加新因素来验证假设的扩展功能,以增强eBay物品搜索的相关性。

·对物品描述数据的挖掘,在完全无人监管的方式下使用数据挖掘和机器学习技术将物品描述清单转化为与物品相关的键/值对,以扩大分类的覆盖范围。

·eBay的研究人员在系统构建和使用过程中遇到的挑战及一些初步计划有以下几个方面:

·可扩展性,当前主系统的NameNode拥有扩展的功能,随着集群的文件系统不断增长,需要存储大量的元数据,所以内存占有量也在不断增长。若是1PB的存储量则需要将近1GB的内存量,可能的解决方案是使用等级结构的命名空间划分,或者使用HBase和ZooKeeper联合对元数据进行管理。

·有效性,NameNode的有效性对产品的工作负载很重要,开源社区提出了一些备用选择,如使用检查点和备份节点、从Secondary NameNode中转移到Avatar节点、日志元数据复制技术等。eBay研究人员根据这些方法建立了自己的产品集群。

·数据挖掘,在存储非结构化数据的系统上建立支持数据管理、数据挖掘和模式管理的系统。新的计划提议将Hive的元数据和Owl添加到新系统中,并称为Howl。eBay研究人员努力将这个系统联系到分析平台上去,这样用户可以很容易地在不同的数据系统中挖掘数据。

·数据移动,eBay研究人员考虑发布数据转移工具,这个工具可以支持在不同的子系统如数据仓库和HDFS之间进行数据的复制。

·策略,通过配额实现较好的归档、备份等策略(Hadoop现有版本的配额需要改进)。eBay的研究人员基于工作负载和集群的特点对不同的集群确定配额。

·标准,eBay研究人员开发健壮的工具来为数据来源、消耗情况、预算情况、使用情况等进行度量。

同时eBay正在改变收集、转换、使用数据的方式,以提供更好的商业智能服务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6500

    浏览量

    87401
  • 机器学习
    +关注

    关注

    66

    文章

    8040

    浏览量

    130405
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    15810
收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    大模型实践和理论研究的过程中,历时8月完成 《大规模语言模型:从理论到实践》 书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用,并解决相关技术问题。 本书经上市,便摘
    发表于 03-11 15:16

    Hadoop是什么?其核心由两大部分组成,分别是什么?

    Hadoop是一个开源的分布式计算框架,它可以处理大规模数据集并能够在通常由计算机集群或者计算机网络上的数千台计算机上并行运行。Hadoop的设计初衷是为了解决
    的头像 发表于 02-05 10:52 281次阅读

    美国电商巨头(EBay)易贝宣布裁员约1000人

    美国电商巨头(EBay)易贝宣布裁员约1000人 据央视财经报道,即使已经进入到2024年,但是受经济大环境的影响,全球科技企业的裁员潮仍在持续,美国电商巨头易贝(EBay)23日正式宣布将要裁员1000名全职员工。
    的头像 发表于 01-25 18:01 377次阅读

    GGII预计2024快充大规模应用元年将至

    GGII预计2024年中国新上市2C以上快充车型将超过15款,快充大规模应用元年正在到来。
    的头像 发表于 01-05 10:05 242次阅读
    GGII预计2024快充<b class='flag-5'>大规模</b>应用元年将至

    芯华章与芯擎科技合作助力大规模缩短产品上市周期

      12月4日,系统级验证EDA解决方案提供商芯华章,与国产高端车规芯片设计公司芯擎科技正式建立战略合作。双方强强联手,芯擎科技导入芯华章相关EDA验证工具,赋能车规级芯片和应用软件的协同开发,助力
    的头像 发表于 12-04 09:09 1044次阅读

    使用sigmastudio建立了工程,怎么将这个工程烧写到ADSP-21489中,并且断电重启后该工程的代码不会丢失?

    使用sigmastudio建立了工程,怎么将这个工程烧写到ADSP-21489中,并且断电重启后该工程的代码不至于丢失,需要的LDR文件已经有了,
    发表于 11-30 07:18

    WiFi 6下的大规模部署策略

    随着数字化时代的快速发展,我们正处于一个多设备、高密度连接的时代。在这个背景下,WiFi 6(802.11ax)作为一项新的无线通信标准,被广泛认为是满足未来大规模连接需求的关键技术。本文将深入研究WiFi 6在大规模部署中的关键策略,以确保网络的高效性、可靠性和安全性。
    的头像 发表于 11-02 16:33 185次阅读

    RTX在分布式实时仿真系统中的应用

    RTX在分布式实时仿真系统中的应用 摘要  计算机高速互联是计算机界追求的目标。集群系统的一个特点是分布处理。它将一个应用分成多个子任务,这些子任务被分布在集群系统的各个成员上,成员之间通过网络连接
    的头像 发表于 10-30 17:19 772次阅读
    RTX在分布式实时仿真<b class='flag-5'>系统</b>中的应用

    利用大规模GTH收发器实现SMPTE SDI接口应用说明

    电子发烧友网站提供《利用大规模GTH收发器实现SMPTE SDI接口应用说明.pdf》资料免费下载
    发表于 09-13 11:09 2次下载
    <b class='flag-5'>利用</b>超<b class='flag-5'>大规模</b>GTH收发器实现SMPTE SDI接口应用说明

    模拟矩阵在大规模电力系统中的应用

    讯维模拟矩阵在大规模电力系统中的应用主要是通过构建一个包含多种电力系统和设备信息的模拟矩阵,来模拟和预测电力系统的运行状态和性能,从而优化电力系统
    的头像 发表于 09-04 14:19 305次阅读
    模拟矩阵在<b class='flag-5'>大规模</b>电力<b class='flag-5'>系统</b>中的应用

    BigCode背后的大规模数据去重方法有哪些?

    本文面向对大规模文档去重感兴趣,且对散列 (hashing) 、图 (graph) 及文本处理有一定了解的读者。
    的头像 发表于 08-02 10:27 467次阅读
    BigCode背后的<b class='flag-5'>大规模</b>数据去重方法有哪些?

    浪潮云海OS完成业界首个&quot;一云多芯&quot;SPEC Cloud基准测试

    到全球领先水平,验证了云海OS在业务应用跨处理器架构场景下的高效率、高性能和高扩展能力。云海OS在成功完成全球最大规模单一集群云数智融合实践,建立"大规模
    的头像 发表于 06-21 05:49 255次阅读
    浪潮云海OS完成业界首个&quot;一云多芯&quot;SPEC Cloud基准测试

    PyTorch教程11.9之使用Transformer进行大规模预训练

    电子发烧友网站提供《PyTorch教程11.9之使用Transformer进行大规模预训练.pdf》资料免费下载
    发表于 06-05 15:07 0次下载
    PyTorch教程11.9之使用Transformer进行<b class='flag-5'>大规模</b>预训练

    要在SDRM中建立个大的数组,请问如何定位到SRAM中?

    我要在SDRM中建立个大的数组,请问如何定位到SRAM中?
    发表于 05-26 06:12

    大规模MIMO技术的原理、与传统MIMO相比的优势

      大规模MIMO(Massive MIMO)技术是一种利用大量天线进行信号传输和接收的技术,可以提高无线通信系统的容量、速率和可靠性。大规模MIMO技术是MIMO技术的一种扩展,通过
    发表于 05-19 18:10 4498次阅读