0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

eBay利用Hadoop建立了一个大规模的集群系统—Athena

倩倩 来源:IT168 2020-03-20 11:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在eBay上存储着上亿种商品的信息,而且每天有数百万种的新商品增加,因此需要用云系统来存储和处理PB级别的数据,而Hadoop则是个很好的选择。

Hadoop是建立在商业硬件上的容错、可扩展、分布式的云计算框架,eBay利用Hadoop建立了一个大规模的集群系统—Athena,它被分为五层(如下图所示),下面从最底层向上开始介绍:

1)Hadoop核心层,包括Hadoop运行时环境、一些通用设施和HDFS,其中文件系统为读写大块数据而做了一些优化,如将块的大小由128MB改为256MB。

2)MapReduce层,为开发和执行任务提供API和控件。

3)数据获取层,现在数据获取层的主要框架是HBase、Pig和Hive:

·HBase是根据Google BigTable开发的按列存储的多维空间数据库,通过维护数据的划分和范围提供有序的数据,其数据储存在HDFS上。

·Pig(Latin)是提供加载、筛选、转换、提取、聚集、连接、分组等操作的面向过程的语言,开发者使用Pig建立数据管道和数据工厂。

·Hive是用于建立数据仓库的使用SQL语法的声明性语言。对于开发者、产品经理和分析师来说,SQL接口使得Hive成为很好的选择。

4)工具和加载库层,UC4是eBay从多个数据源自动加载数据的企业级调度程序。加载库有:统计库(R)、机器学习库(Mahout)、数学相关库(Hama)和eBay自己开发的用于解析网络日志的库(Mobius)。

5)监视和警告层,Ganglia是分布式集群的监视系统,Nagios则用来警告一些关键事件如服务器不可达、硬盘已满等。

eBay的企业服务器运行着64位的RedHat Linux

·NameNode负责管理HDFS的主服务器;

·JobTracker负责任务的协调;

·HBaseMaster负责存储HBase存储的根信息,并且方便与数据块或存取区域进行协调;

·ZooKeeper是保证HBase一致性的分布式锁协调器。

用于存储和计算的节点是1U大小的运行Cent OS的机器,每台机器拥有2个四核处理器和2TB大小的存储空间,每38~42个节点单元为一个rack,这组建成了高密度网格。有关网络方面,顶层rack交换机到节点的带宽为1Gbps,rack交换机到核心交换机的带宽为40Gpbs。

这个集群是eBay内多个团队共同使用的,包括产品和一次性任务。这里使用Hadoop公平调度器(Fair Scheduler)来管理分配、定义团队的任务池、分配权限、限制每个用户和组的并行任务、设置优先权期限和延迟调度。

▲数据流

数据流的具体处理过程如上图所示,系统每天需要处理8TB至10TB的新数据,而Hadoop主要用于:

·基于机器学习的排序,使用Hadoop计算需要考虑多个因素(如价格、列表格式、卖家记录、相关性)的排序函数,并需要添加新因素来验证假设的扩展功能,以增强eBay物品搜索的相关性。

·对物品描述数据的挖掘,在完全无人监管的方式下使用数据挖掘和机器学习技术将物品描述清单转化为与物品相关的键/值对,以扩大分类的覆盖范围。

·eBay的研究人员在系统构建和使用过程中遇到的挑战及一些初步计划有以下几个方面:

·可扩展性,当前主系统的NameNode拥有扩展的功能,随着集群的文件系统不断增长,需要存储大量的元数据,所以内存占有量也在不断增长。若是1PB的存储量则需要将近1GB的内存量,可能的解决方案是使用等级结构的命名空间划分,或者使用HBase和ZooKeeper联合对元数据进行管理。

·有效性,NameNode的有效性对产品的工作负载很重要,开源社区提出了一些备用选择,如使用检查点和备份节点、从Secondary NameNode中转移到Avatar节点、日志元数据复制技术等。eBay研究人员根据这些方法建立了自己的产品集群。

·数据挖掘,在存储非结构化数据的系统上建立支持数据管理、数据挖掘和模式管理的系统。新的计划提议将Hive的元数据和Owl添加到新系统中,并称为Howl。eBay研究人员努力将这个系统联系到分析平台上去,这样用户可以很容易地在不同的数据系统中挖掘数据。

·数据移动,eBay研究人员考虑发布数据转移工具,这个工具可以支持在不同的子系统如数据仓库和HDFS之间进行数据的复制。

·策略,通过配额实现较好的归档、备份等策略(Hadoop现有版本的配额需要改进)。eBay的研究人员基于工作负载和集群的特点对不同的集群确定配额。

·标准,eBay研究人员开发健壮的工具来为数据来源、消耗情况、预算情况、使用情况等进行度量。

同时eBay正在改变收集、转换、使用数据的方式,以提供更好的商业智能服务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7315

    浏览量

    93986
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    16821
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中科曙光AI超集群系统和scaleX640超节点等产品全面适配DeepSeek V3.2

    层实现“跨层协同”,曙光AI超集群系统、scaleX640超节点等产品0day完成对DeepSeek新版本的深度适配与调优,支持各行各业客户进行全量落地部署。
    的头像 发表于 12-05 14:32 264次阅读

    如何获取易贝EBAY商品详情 API 返回值说明?

    易贝(eBay)是在线拍卖和购物网站,提供了API(应用程序接口)供开发者获取商品详情等信息。使用
    的头像 发表于 11-19 11:57 105次阅读

    曙光AI超集群系统全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式发布并开源,引入创新的稀疏Attention架构。基于中国首个AI计算开放架构,芯片层、软件层、模型层实现“跨层协同”,使得曙光AI超集群系统完成对DeepSeek新版本的深度适配与调优,支持各行各业客户进行全量落地部署。
    的头像 发表于 09-30 16:18 1473次阅读

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 698次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    标准集群和虚拟集群的区别是什么?

    遵循行业标准就可以互联互通。 虚拟集群则是在DMR常规数字模式基础上,通过私有协议和软件控制实现的“准集群”功能。它不是官方标准,而是对标准功能的增强,如海能达XPT、北峰SVT、
    的头像 发表于 09-19 16:52 552次阅读
    标准<b class='flag-5'>集群</b>和虚拟<b class='flag-5'>集群</b>的区别是什么?

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源模型的设计原则也采用了类似的大规模细粒度 MoE 架构。但大规模 M
    的头像 发表于 09-06 15:21 924次阅读
    <b class='flag-5'>大规模</b>专家并行模型在TensorRT-LLM的设计

    中科曙光发布国内首个开放架构AI超集群系统

    9月5日,在2025重庆世界智能产业博览会上,中科曙光发布了国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统。该系统以GPU为核心,实现了“算、存、网、电、冷、管、软”体化紧耦合
    的头像 发表于 09-06 09:11 1167次阅读

    使用Ansible实现大规模集群自动化部署

    当你面对1000+服务器需要部署时,你还在台台手工操作吗?本文将揭秘如何用Ansible实现大规模集群的自动化部署,让运维效率提升10倍!
    的头像 发表于 08-27 14:41 526次阅读

    大规模部署(如分布式光伏集群)时,装置的通信网络易出现哪些瓶颈(如拥堵、延迟

    LZ-DZ200A侧面 在大规模分布式光伏集群等场景中,装置通信网络的瓶颈主要源于节点规模激增、数据量暴增、环境复杂等特点,具体可从以下维度分析: 、节点
    的头像 发表于 08-22 09:50 569次阅读
    <b class='flag-5'>大规模</b>部署(如分布式光伏<b class='flag-5'>集群</b>)时,装置的通信网络易出现哪些瓶颈(如拥堵、延迟

    北京东六环“焕新” 带来城市空间新体验→“集远通信隧道无线通信系统

    FM调频广播应急系统、350M公安消防集群系统、400M调度对讲系统、800M政务集群系统
    的头像 发表于 05-12 14:31 1210次阅读
    北京东六环“焕新” 带来城市空间新体验→“集远通信隧道无线通信<b class='flag-5'>系统</b>”

    解锁树莓派集群步步打造你的超级计算阵列!

    数据处理和云原生计算学习等多种任务。什么是树莓派集群?在树莓派集群中,每台树莓派都充当集群中的节点,贡献处理能力和内存以分担工作负载。这
    的头像 发表于 04-25 16:17 1941次阅读
    解锁树莓派<b class='flag-5'>集群</b>:<b class='flag-5'>一</b>步步打造你的超级计算阵列!

    谷歌新代 TPU 芯片 Ironwood:助力大规模思考与推理的 AI 模型新引擎​

    Cloud 客户开放,将提供 256 芯片集群以及 9,216 芯片集群两种配置选项。   在核心亮点层面,Ironwood 堪称谷歌首款专门为 AI 推理精心设计的 TPU 芯片,能够有力支持大规模思考
    的头像 发表于 04-12 00:57 3220次阅读

    5G 大规模物联网系统级封装 skyworksinc

    电子发烧友网为你提供()5G 大规模物联网系统级封装相关产品参数、数据手册,更有5G 大规模物联网系统级封装的引脚图、接线图、封装手册、中文资料、英文资料,5G
    发表于 04-11 15:21
    5G <b class='flag-5'>大规模</b>物联网<b class='flag-5'>系统</b>级封装 skyworksinc

    大规模硬件仿真系统的编译挑战

    大规模集成电路设计的重要工具。然而,随着设计规模的扩大和复杂度的增加,硬件仿真系统的编译过程面临着诸多挑战。本文旨在探讨基于FPGA的硬件仿真系统在编译过程中所遇到的关
    的头像 发表于 03-31 16:11 1229次阅读
    <b class='flag-5'>大规模</b>硬件仿真<b class='flag-5'>系统</b>的编译挑战

    Hadoop 生态系统在大数据处理中的应用与实践

    基础。它将大文件分割成多个数据块,存储在不同节点上,实现高容错性和高扩展性。NameNode 负责管理文件系统命名空间和元数据,DataNode 负责实际数据存储。上传文件时,HDFS 自动将文件切块并分配到不同 DataNode,确保数据可靠性。 MapReduce 是分布式计算模型,用于
    的头像 发表于 01-21 17:48 673次阅读