0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作

倩倩 来源:绿色消费网 2020-04-26 14:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

麻省理工学院的研究人员开发的新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作,而这通常是由不精确的人工设计算法完成的任务。这样做可以帮助当今耗电的数据中心更加高效地运行。

数据中心可以包含数以万计的服务器,这些服务器不断运行来自开发人员和用户的数据处理任务。群集调度算法可实时跨服务器分配传入任务,以有效利用所有可用的计算资源并快速完成工作。

但是,传统上,人们会根据一些基本准则(“策略”)和各种折衷来微调那些调度算法。例如,他们可以对算法进行编码,以快速完成某些作业,或者在作业之间平均分配资源。但是工作负载(意味着组合任务的组)各种各样。因此,人类几乎不可能针对特定的工作负载优化其调度算法,因此,他们常常无法发挥其真正的效率潜力。

麻省理工学院的研究人员将所有手动编码转移到了机器上。在SIGCOMM上发表的一篇论文中,他们描述了一种利用“强化学习”(RL)(一种反复试验的机器学习技术)来针对特定服务器群集中特定工作负载量身定制调度决策的系统。

为此,他们建立了新颖的RL技术,可以对复杂的工作量进行训练。在培训中,系统尝试了多种可能的方式来跨服务器分配传入的工作负载,最终在利用计算资源和快速处理速度方面找到了最佳折衷方案。除了“减少工作完成时间”这样的简单指令,不需要人工干预。

与最佳的手写调度算法相比,研究人员的系统完成工作的速度提高了大约20%到30%,而在交通繁忙时则完成速度提高了一倍。但是,大多数情况下,系统会学习如何有效压缩工作负载而几乎没有浪费。结果表明,该系统可以使数据中心使用更少的资源,以更高的速度处理相同的工作负载。

电气工程和计算机科学系的博士生Hongzi Mao说:“如果您有使用机器进行反复试验的方法,他们可以尝试以不同的方式安排作业,并自动找出哪种策略比其他方法更好。” (EECS)。“这可以自动提高系统性能。利用率的任何微小提高,即使提高1%,都可以节省数百万美元,并为数据中心节省大量能源。”

EECS教授和计算机科学与人工智能实验室(CSAIL)的研究员穆罕默德·阿里扎德(Mohammad Alizadeh)补充说:“制定调度决策没有万能的选择。” “在现有系统中,这些是您必须预先决定的硬编码参数。相反,我们的系统将根据数据中心和工作负载学习调整其调度策略特征。”

通常,数据处理作业进入数据中心,以“节点”和“边缘”的图形表示。每个节点代表一些需要完成的计算任务,其中节点越大,所需的计算能力越强。连接节点的边缘将连接的任务链接在一起。调度算法根据各种策略将节点分配给服务器。

但是传统的RL系统并不习惯于处理这样的动态图。这些系统使用软件“代理”进行决策并接收反馈信号作为奖励。从本质上讲,它会尝试在给定的上下文中学习任何理想行为,从而最大化其对任何给定动作的回报。例如,它们可以帮助机器人学习如何执行与通过与环境交互来拾取物体等任务,但这涉及通过更容易设置的像素网格处理视频或图像。

为了构建他们的基于RL的调度程序Decima,研究人员必须开发一种模型,该模型可以处理图形结构的作业,并可以扩展到大量作业和服务器。他们系统的“代理”是一种调度算法,该算法利用了图神经网络,通常用于处理图结构数据。为了提出适合计划的图神经网络,他们实现了一个自定义组件,该组件聚集了跨图路径的信息-例如快速估计完成图的给定部分需要多少计算。这对于作业调度很重要,因为“子”(下)节点要等到其“父”(上)节点完成后才能开始执行,因此,预测图表中沿不同路径的未来工作对于制定良好的调度决策至关重要。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4762

    浏览量

    97176
  • 服务器
    +关注

    关注

    13

    文章

    10102

    浏览量

    90913
  • 数据中心
    +关注

    关注

    16

    文章

    5532

    浏览量

    74669
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    服务器数据恢复—意外断电!Linux服务器数据恢复大揭秘

    某品牌服务器+存储,安装的linux操作系统。 机房意外断电导致服务器操作系统无法正常启动,服务器管理员故障
    的头像 发表于 11-18 11:20 124次阅读

    服务器数据恢复—硬盘离线致raid5阵列崩溃,数据恢复大揭秘

    公司的一台服务器中有一组数块硬盘组建的raid5阵列。 服务器中有一块硬盘由于未知原因离线,服务器崩溃,存储重要数据的D分区无法识别。 服务器
    的头像 发表于 11-04 15:32 172次阅读

    服务器数据恢复—RAIDZ多块硬盘离线导致服务器崩溃的数据恢复案例

    服务器数据恢复环境&故障: 一台服务器有32块硬盘,采用Windows操作系统服务器在正常运行的时候突然变得不可用。没有异常断电、进
    的头像 发表于 09-18 12:29 530次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复—RAIDZ多块硬盘离线导致<b class='flag-5'>服务器</b>崩溃的<b class='flag-5'>数据</b>恢复案例

    服务器数据恢复—服务器上的卷被误删数据如何恢复?

    工作人员不慎将一台服务器上的卷误删除,服务器上有一组raid5阵列。需要恢复误删除的数据
    的头像 发表于 08-14 11:33 749次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复—<b class='flag-5'>服务器</b>上的卷被误删<b class='flag-5'>数据</b>如何恢复?

    服务器数据恢复—重装系统导致XFS文件系统分区丢失的数据恢复案例

    服务器数据恢复环境&故障: 一台服务器上通过磁盘柜+RAID卡组建的riad5磁盘阵列,服务器上层安装Linux操作系统,搭建XFS文件
    的头像 发表于 06-12 11:20 627次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复—重装<b class='flag-5'>系统</b>导致XFS文件<b class='flag-5'>系统</b>分区丢失的<b class='flag-5'>数据</b>恢复案例

    服务器数据恢复—ocfs2文件系统被格式化为Ext4文件系统数据恢复案例

    服务器存储数据恢复环境&故障: 人为误操作将Ext4文件系统误装入一台服务器存储上的Ocfs2文件系统
    的头像 发表于 06-10 12:03 564次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复—ocfs2文件<b class='flag-5'>系统</b>被格式化为Ext4文件<b class='flag-5'>系统</b>的<b class='flag-5'>数据</b>恢复案例

    无人职守自动安装部署操作系统指南

    当组织有服务器需要部署linux系统时,需要通过网络方式安装并结合自动应答文件,实现无人职守自动安装部署操作系统。这种方式需要我们至少配置一
    的头像 发表于 05-22 13:38 745次阅读
    无人职守<b class='flag-5'>自动</b>安装部署<b class='flag-5'>操作系统</b>指南

    服务器数据恢复—Linux系统服务器崩溃的数据恢复案例

    服务器数据恢复环境: linux操作系统服务器中有一组由4块SAS接口硬盘组建的raid5阵列。 服务器故障:
    的头像 发表于 05-20 15:46 558次阅读

    服务器数据恢复—如何预防服务器故障与恢复服务器数据

    服务器常见故障: 硬件故障:磁盘损坏、电池故障等。 软件问题:操作系统崩溃、未知的程序运行错误等。 病毒破坏:勒索病毒加密、删除服务器数据等。 不可控力量;
    的头像 发表于 03-11 12:36 820次阅读

    服务器数据恢复—服务器raid5阵列硬盘出现坏道掉线如何恢复服务器数据

    台服务器中有一组由16块SAS接口的硬盘组建的raid5阵列。 服务器磁盘阵列中有2块硬盘离线,服务器上跑的应用崩溃。 经过后续的分析发现丢失的数据为虚拟机文件,包含4个卷的
    的头像 发表于 02-28 13:20 662次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复—<b class='flag-5'>服务器</b>raid5阵列硬盘出现坏道掉线如何恢复<b class='flag-5'>服务器</b><b class='flag-5'>数据</b>?

    解密北斗时钟服务器的现代使命

    秩序。 当代北斗时钟服务器已超越传统计时功能,演变为复杂的时间管理系统。通过内置北斗卫星授时模块,这些系统自动接收北斗时间源信号,将本地时钟误差控制在微秒级范围内。这种精度相当于在
    发表于 02-25 14:54

    服务器数据恢复—Zfs文件系统服务器数据恢复案例

    服务器数据恢复环境&故障: 一zfs文件系统服务器,管理员误操作删除了
    的头像 发表于 01-16 17:27 638次阅读

    服务器数据恢复—raid5阵列上层win系统+oracle数据数据恢复案例

    台服务器上的8块硬盘组建了一组raid5磁盘阵列。上层安装windows server操作系统,部署了oracle数据库。 raid5阵列中有2块硬盘的硬盘指示灯显示异常报警。服务器
    的头像 发表于 01-10 14:40 557次阅读

    服务器数据恢复—Lustre分布式文件系统数据恢复案例

    5节点服务器,每台节点服务器上有一组RAID5阵列。每组RAID5阵列上有6块硬盘(其中1块硬盘设置为热备盘,其他5块硬盘为数据盘)。上层系统
    的头像 发表于 12-25 11:39 816次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复—Lustre分布式文件<b class='flag-5'>系统</b><b class='flag-5'>数据</b>恢复案例

    cmp在数据处理中的应用 如何优化cmp性能

    ,然后在多个处理器上并行处理,显著提高了数据处理的速度和吞吐量。 1. CMP在大数据处理中的应用 在大数据处理中,CMP技术
    的头像 发表于 12-17 09:27 1768次阅读