0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作

倩倩 来源:绿色消费网 2020-04-26 14:56 次阅读

麻省理工学院的研究人员开发的新型系统可以自动“学习”如何在数千台服务器上调度数据处理操作,而这通常是由不精确的人工设计算法完成的任务。这样做可以帮助当今耗电的数据中心更加高效地运行。

数据中心可以包含数以万计的服务器,这些服务器不断运行来自开发人员和用户的数据处理任务。群集调度算法可实时跨服务器分配传入任务,以有效利用所有可用的计算资源并快速完成工作。

但是,传统上,人们会根据一些基本准则(“策略”)和各种折衷来微调那些调度算法。例如,他们可以对算法进行编码,以快速完成某些作业,或者在作业之间平均分配资源。但是工作负载(意味着组合任务的组)各种各样。因此,人类几乎不可能针对特定的工作负载优化其调度算法,因此,他们常常无法发挥其真正的效率潜力。

麻省理工学院的研究人员将所有手动编码转移到了机器上。在SIGCOMM上发表的一篇论文中,他们描述了一种利用“强化学习”(RL)(一种反复试验的机器学习技术)来针对特定服务器群集中特定工作负载量身定制调度决策的系统。

为此,他们建立了新颖的RL技术,可以对复杂的工作量进行训练。在培训中,系统尝试了多种可能的方式来跨服务器分配传入的工作负载,最终在利用计算资源和快速处理速度方面找到了最佳折衷方案。除了“减少工作完成时间”这样的简单指令,不需要人工干预。

与最佳的手写调度算法相比,研究人员的系统完成工作的速度提高了大约20%到30%,而在交通繁忙时则完成速度提高了一倍。但是,大多数情况下,系统会学习如何有效压缩工作负载而几乎没有浪费。结果表明,该系统可以使数据中心使用更少的资源,以更高的速度处理相同的工作负载。

电气工程和计算机科学系的博士生Hongzi Mao说:“如果您有使用机器进行反复试验的方法,他们可以尝试以不同的方式安排作业,并自动找出哪种策略比其他方法更好。” (EECS)。“这可以自动提高系统性能。利用率的任何微小提高,即使提高1%,都可以节省数百万美元,并为数据中心节省大量能源。”

EECS教授和计算机科学与人工智能实验室(CSAIL)的研究员穆罕默德·阿里扎德(Mohammad Alizadeh)补充说:“制定调度决策没有万能的选择。” “在现有系统中,这些是您必须预先决定的硬编码参数。相反,我们的系统将根据数据中心和工作负载学习调整其调度策略特征。”

通常,数据处理作业进入数据中心,以“节点”和“边缘”的图形表示。每个节点代表一些需要完成的计算任务,其中节点越大,所需的计算能力越强。连接节点的边缘将连接的任务链接在一起。调度算法根据各种策略将节点分配给服务器。

但是传统的RL系统并不习惯于处理这样的动态图。这些系统使用软件“代理”进行决策并接收反馈信号作为奖励。从本质上讲,它会尝试在给定的上下文中学习任何理想行为,从而最大化其对任何给定动作的回报。例如,它们可以帮助机器人学习如何执行与通过与环境交互来拾取物体等任务,但这涉及通过更容易设置的像素网格处理视频或图像。

为了构建他们的基于RL的调度程序Decima,研究人员必须开发一种模型,该模型可以处理图形结构的作业,并可以扩展到大量作业和服务器。他们系统的“代理”是一种调度算法,该算法利用了图神经网络,通常用于处理图结构数据。为了提出适合计划的图神经网络,他们实现了一个自定义组件,该组件聚集了跨图路径的信息-例如快速估计完成图的给定部分需要多少计算。这对于作业调度很重要,因为“子”(下)节点要等到其“父”(上)节点完成后才能开始执行,因此,预测图表中沿不同路径的未来工作对于制定良好的调度决策至关重要。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4449

    浏览量

    90723
  • 服务器
    +关注

    关注

    12

    文章

    8090

    浏览量

    82439
  • 数据中心
    +关注

    关注

    15

    文章

    4170

    浏览量

    69848
收藏 人收藏

    评论

    相关推荐

    服务器操作系统有几种?

    众所周知,电脑上的一切正常运作都不可缺电脑操作系统的使用,网络服务器做为这种出示服务项目的服务器,或许都是不可 或缺的电脑操作系统。常用的网
    发表于 03-29 16:59

    无线测温系统的后台服务器

    自动发送报警邮件至用户的邮箱,确保用户第一时间接收到报警信息,同时后台服务器的报警界面也会收到弹出警告,为用户提供双重保障。在数据存储方面,用户不仅可以查询和导出历史
    的头像 发表于 03-29 09:42 107次阅读

    服务器远程不上服务器怎么办?服务器无法远程的原因是什么?

    产生问题的原因,检查硬盘和服务器系统。通过日志和检查数据来确认问题出 现的原因以及如何解决。 三、端口问题 1.端口错误 找回正确的端口或更换远程端口 2.端口被扫爆 更改端口,并在防火墙禁止扫爆的IP
    发表于 02-27 16:21

    linux服务器和windows服务器

    ,Linux服务器表现出更好的性能和稳定性,因此广泛应用于科学计算、大数据处理和网络服务器等领域。 另一方面,Windows服务器是由微软开发和维护的
    发表于 02-22 15:46

    数据中心服务器功率一般多大 数据中心服务器操作系统三大类包括

    数据中心服务器功率一般多大: 数据中心服务器的功率大小可以根据具体的需求和规模而定。一般来说,数据中心服务器的功率会相对较大,以应对大量数据处理
    的头像 发表于 01-25 10:10 616次阅读

    如何配置单台服务器

    万里征途总是从第一步开始的,构建一个复杂系统也是如此。我们从简单的部分着手,先让所有的功能都在一个服务器上运行。图1-1展示了如何配置单台服务器,让一切都在其上运行,包括Web应用、数据
    的头像 发表于 01-19 10:19 204次阅读
    如何配置单<b class='flag-5'>台服务器</b>

    【飞腾派4G版免费试用】如何在飞腾开发板上安装EMQX MQTT服务器

    EMQX 是一款大规模分布式物联网接入平台,同时作为一个高性能、可扩展的 MQTT 消息服务器,它可以为物联网(IoT)应用提供可靠的实时消息传输和设备连接解决方案。通过强大的内置规则引擎和数据集成
    发表于 12-26 11:16

    服务器数据恢复—Linux操作系统服务器raid5数据恢复案例

    服务器数据恢复环境: 某品牌linux操作系统服务器服务器中有4块SAS接口硬盘组建一组raid5阵列。
    的头像 发表于 11-28 15:07 208次阅读

    服务器数据恢复-RAID卡上RAID信息破坏的服务器数据恢复案例

      一台服务器,8块硬盘组建了一组raid5磁盘阵列,服务器安装的是windows server操作系统,上层部署ORACLE数据库。
    的头像 发表于 10-18 11:31 863次阅读

    服务器数据恢复-zfs文件系统服务器数据恢复案例

    服务器数据恢复环境: 一台服务器共配备32块硬盘,组建了4组RAIDZ,Windows操作系统+zfs文件系统
    的头像 发表于 09-27 14:46 264次阅读
    <b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复-zfs文件<b class='flag-5'>系统</b><b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复案例

    利用Ansible批量100台服务器添加Crontab

    今天浩道跟大家分享关于Ansible自动化运维相关硬核干货,利用Ansible批量100台服务器添加Crontab !
    的头像 发表于 08-19 14:24 354次阅读

    服务器数据恢复-ext4文件系统服务器数据恢复案例

    台服务器挂载一台存储设备,存储中划分一个Lun;服务器操作系统是Linux centos,EXT4文件系统
    的头像 发表于 08-10 14:03 394次阅读

    HLS-GAUD12深度学习服务器数据资料

    的21x100GbE RoCE端口实现无阻塞全对所有连接。此外,该系统还提供24x100GbE-RoCE RDMA,通过利用外部现成以太网交换,进一步扩展、扭转和集群基于Gaudi2的节点。可以使用类似的服务器构建各种集群架构,
    发表于 08-04 06:58

    SOLARIS操作系统服务器数据恢复案例

    两台SPARC SOLARIS操作系统服务器通过光纤交换机共享一台存储作为集群使用。平时是一台服务器(以下称为主服务器)在运行,如果该服务器
    的头像 发表于 07-10 16:26 228次阅读

    服务器数据恢复】Linux系统下RAID5数据恢复案例

    服务器数据恢复环境: 某公司一台服务器中组建一组raid5磁盘阵列; 上层操作系统为linux redhat,部署OA系统,后端
    的头像 发表于 05-11 15:00 386次阅读
    【<b class='flag-5'>服务器</b><b class='flag-5'>数据</b>恢复】Linux<b class='flag-5'>系统</b>下RAID5<b class='flag-5'>数据</b>恢复案例