0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里巴巴再度开放一份计算机集群的真实数据集(Alibaba Cluster Data V2018)

vsUE_AI_Career 来源:lq 2018-12-25 16:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阿里妹导读:打开一篇篇 IT 技术文章,你总能够看到“大规模”、“海量请求”这些字眼。这些功能强大的互联网应用,都运行在大规模数据中心上。数据中心每个机器的运行情况如何?运行着什么样的应用?应用有什么特点?除了少数资深从业者之外,普通学生和企业的研究者很难了解其中细节。

今天,阿里巴巴再度开放一份计算机集群的真实数据集(Alibaba Cluster Data V2018)。该数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离,推动产业的进一步发展。

下面,阿里系统软件事业部的技术专家临石,为大家深入介绍这份独特的数据集。

2015 年,我们尝试在阿里巴巴的数据中心,将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行,让在线服务用不完的资源充分被离线使用以提高机器的整体利用率。

经过 3 年多的试验论证、架构调整和资源隔离优化,目前这个方案已经走向大规模生产。我们通过混部技术将集群平均资源利用率从 10% 大幅度提高到 45%。另外,通过各种优化手段,可以让更多任务运行在数据中心,将“双11”平均每万笔交易成本下降了 17%。

那么,实施了一系列优化手段之后的计算机集群究竟是什么样子?混部的情况究竟如何?

为了让有兴趣的学生以及相关研究人员,可以从数据上更加深入地理解大规模数据中心,我们特别发布了这份数据集(Alibaba Cluster Data V2018)。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中,你可以详细了解到我们是如何通过混部把资源利用率提高到 45%;我们每天到底运行了多少任务;以及业务的资源需求有什么特点。如何使用这份数据集,完全取决于你的需要。

这个数据可以做什么?

这份 Alibaba Cluster Data V2018 包含 6 个文件,压缩后大小近 50GB(压缩前270+GB),里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行情况。

通过这份数据,你可以:

了解当代先进数据中心的服务器以及任务运行特点;

试验你的调度、运筹等各种任务管理和集群优化方面的各种算法并撰写论文;

利用这份数据学习如何进行数据分析,揭示更多我们自己都未曾发现的规律。

上面这几点,没有接触过类似数据的朋友,可能对于这份数据的用处并没有直观的印象,下面我举几个简单的例子:

电商业务在白天和晚上面临的压力不同,我们如何在业务存在波峰波谷的情况下提高整体资源利用率?

你知道我们最长的 DAG 有多少依赖吗?

一个典型的容器存在时间是多久?

一个计算型任务的典型存在时间是多少?一个 Task 的多个 Instance 理论上彼此很相似,但是它们运行的时间都一样吗?

实际上,学者们甚至可以用这些数据作出更加精彩的分析。2017年,我们开放的第一波数据(Alibaba Cluster Data V2017),已经产生了多篇优秀的学术成果。

以下是学者们在论文中引用数据(Alibaba Cluster Data V2017)的例子,其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。我们期待,未来你也能与我们共同分享你用这份数据产生的成果!

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18"(Best paper award!)

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"

Cluster Data V2018 更出色

新版本 V2018 与 V2017 存在两个最大的区别:

DAG 信息加入

我们加入了离线任务的 DAG 任务信息,据了解,这是目前来自实际生产环境最大的 DAG 数据。

究竟什么是 DAG?离线计算任务,例如 Map Reduce、Hadoop、Spark、Flink 中常用的任务,都是以有向无环图(Directed Acyclic Graph,DAG)的形式进行编排的,其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。

规模更大

上一版数据包含了约 1300 台机器在约 24 小时的内容数据,而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。

我们建立了一个关于Cluster Data V2018的交流钉钉群。使用钉钉搜索群号:23112775,即可加入。点击文末“阅读原文”,可填写调查问卷。

想看到更多数据?我们长期招收研究型实习生,与我们一起发现问题、解决问题,挑战世界级技术问题,欢迎投递简历:haiyang.dhy@alibaba-inc.com

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    13

    文章

    10094

    浏览量

    90880
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1645

    浏览量

    48932
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:阿里重磅开源!4000台服务器真实数据集,揭秘世界级数据中心

文章出处:【微信号:AI_Career,微信公众号:人工智能见闻】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    海外电商平台阿里巴巴国际站获取商品详情的API接口

    ​ 在跨境电商领域,阿里巴巴国际站(Alibaba.com)是个领先的平台,为企业提供全球贸易服务。其API接口允许开发者通过编程方式获取商品详情,便于构建自动化工具或集成到第三方系统。本文将
    的头像 发表于 11-14 15:36 202次阅读
    海外电商平台<b class='flag-5'>阿里巴巴</b>国际站获取商品详情的API接口

    阿里巴巴开放平台商品详情接口实操:数据解析 + 核心实现方案(附避坑指南)

    本文提供阿里巴巴商品详情接口的实用开发指南,涵盖B2B场景下的核心功能实现。重点解析接口基础参数、关键返回字段(价格梯度、SKU、供应商信息)及典型应用场景(采购决策、供应商评估)。通过精简代码示例
    的头像 发表于 09-17 13:54 293次阅读

    阿里巴巴开放平台关键字搜索商品接口实战详解:OAuth2.0 认证落地 + 检索效率优化(附避坑代码)

    在 B2B 电商数据对接中,阿里巴巴开放平台的关键字搜索商品接口(alibaba.aliindex.search)是获取批发商品、供应商数据
    的头像 发表于 09-16 16:26 641次阅读

    博世与阿里巴巴集团深化战略合作

    9月2日,全球领先的汽车技术与服务商博世与阿里巴巴集团宣布深化战略合作伙伴关系,以先进的云计算与人工智能技术加速推动企业数字化转型。双方将重点聚焦云端驱动的企业运营、AI赋能的业务创新,以及电商领域的拓展。
    的头像 发表于 09-02 16:09 501次阅读

    阿里巴巴达摩院刘志伟:QEMU RISC-V 的进展、特性与未来规划

    2025 年 7 月 18 日,在第五届(2025)RISC-V 中国峰会的软件与生态系统分论坛上,阿里巴巴达摩院 RISC-V 及生态部技术专家刘志伟带来了关于 QEMU RISC-V
    发表于 07-18 11:20 5427次阅读
    <b class='flag-5'>阿里巴巴</b>达摩院刘志伟:QEMU RISC-<b class='flag-5'>V</b> 的进展、特性与未来规划

    季丰电子启用全新高性能仿真计算机集群

    季丰已成功部署并正式启用全新代高性能仿真计算机集群。此次升级是公司在研发基础设施领域的项战略性投资,旨在通过技术驱动,全面提升项目交付的效率、规模与可靠性。
    的头像 发表于 07-15 11:04 703次阅读

    普华基础软件莅临阿里巴巴达摩院调研交流

    近日, 普华基础软件股份有限公司(以下简称普华基础软件)董事、总经理刘宏倩行前往阿里巴巴达摩院(杭州)科技有限公司(以下简称达摩院)调研交流,阿里巴巴集团高层及达摩院核心团队参与了本次调研交流活动
    的头像 发表于 04-08 10:10 949次阅读

    Arm与阿里巴巴合作加速端侧多模态AI体验

    Arm 控股有限公司(纳斯达克股票代码:ARM,以下简称“Arm”)近日发布与阿里巴巴淘天集团轻量级深度学习框架 MNN 的又新合作。
    的头像 发表于 03-10 09:07 1025次阅读

    谷景阿里巴巴国际站正式上线

    在行业发展的关键节点,谷景电子取得了重大突破,谷景阿里巴巴国际站正式上线!此次上线聚焦电感领域,旨在为全球客户提供更较大好的电感产品与服务,也标志着谷景电感业务在国际化道路上迈出了关键步。
    的头像 发表于 02-26 09:44 768次阅读

    苹果与阿里巴巴或合作开发中国iPhone AI功能

    据最新报道,苹果公司正与阿里巴巴集团商讨合作,计划为中国iPhone用户量身打造系列AI功能。这举措被视为苹果应对中国市场销售下滑挑战的重要策略,旨在通过提供更加贴合本土需求的软件功能,吸引并留住中国用户。
    的头像 发表于 02-13 15:18 888次阅读

    阿里巴巴否认投资DeepSeek传闻

    近日,市场流传出则消息,称阿里巴巴计划向人工智能企业DeepSeek投资10亿美元,意在获取该公司10%的股份,并考虑将阿里云作为其首要推理算力平台。此消息出,立即引起了市场的广泛
    的头像 发表于 02-10 09:10 865次阅读

    阿里巴巴否认投资DeepSeek

    近日,有传闻称阿里巴巴计划以100亿美元的估值,投资10亿美元认购中国AI初创企业DeepSeek的10%股权。然而,阿里高管颜乔迅速对此进行了否认,他表示:“同为中国杭州企业,我们为DeepSeek的成就鼓掌,但外界流传的阿里
    的头像 发表于 02-08 16:47 940次阅读

    阿里否认投资DeepSeek传闻

    同为中国杭州的企业,且对DeepSeek在AI领域所取得的成就表示赞赏与鼓励,但外界所流传的阿里投资DeepSeek的信息纯属虚假消息。 这澄清无疑给市场注入了剂清醒剂。在信息时代,谣言和传闻往往容易误导投资者和消费者,对企
    的头像 发表于 02-08 09:30 794次阅读

    阿里巴巴出售高鑫零售股权,聚焦核心业务

    近日,阿里巴巴集团正式对外发布公告,宣布其子公司及New Retail与德弘资本达成了项重要协议。根据该协议,阿里巴巴将出售其所持有的高鑫零售全部股权,这些股权合计占高鑫零售已发行股份总数的约
    的头像 发表于 01-02 10:54 695次阅读

    阿里巴巴74亿出售银泰百货予雅戈尔

    近日,电子商务巨头阿里巴巴集团宣布了项重大决策,决定将旗下银泰百货的全部股权转让给由雅戈尔集团与银泰管理团队联合组成的财团。这消息引起了业界的广泛关注。 据悉,此次交易涉及的金额高达74亿元
    的头像 发表于 12-18 10:04 699次阅读