0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

博弈论应有的作用

IEEE电气电子工程师 来源:IEEE电气电子工程师 作者:IEEE电气电子工程师 2022-07-28 10:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

“数据中心”和“博弈”(其英文为game,亦有游戏之意)二词可能会让人联想到《魔兽世界》等多人在线游戏。但数据中心内还上演着另一种博弈,即共享计算机和存储系统对资源的抢占。 甚至数据量堪称最大的谷歌公司的员工也曾进行过这样的博弈。当要求提交某项工作的计算需求时,一些员工为了减少与他人共享的资源数量而夸大资源请求。

有趣的是,还有些员工会减少资源请求,假装自己的任务可以在任何计算机中轻松完成。一旦他们的任务被提交到机器上,就会耗尽机器上所有可用的资源,挤兑其他任务。 这种伎俩看起来有点滑稽,实际上却引发了真正的问题——效率低下。 2018年,全球数据中心耗电量达2050亿千瓦时,差不多和澳大利亚全境的用电量相当,约占全世界总用电量的1%。因服务器未能满负荷运行,大量能源被浪费。一台服务器空闲时消耗的电力是其峰值运行时的50%,因为服务器运行任务时,其固定电力成本会分摊到该任务上。运行单任务的用户通常只占用20%到30%的服务器资源,因此多个用户必须共享服务器,以提高利用率,进而提升能源效率。共享服务器还可以降低资金、运营和基础设施的成本。毕竟并非人人都有足够的财力来建立属于自己的数据中心。为了分配共享资源,数据中心部署资源管理系统,根据用户需求和系统自身目标来分配可用的处理器内核、内存容量和网络资源。乍一看,这项任务应当是简单明了的,因为用户往往会有互补需求。但事实并非如此。共享造成了用户之间的竞争,就如谷歌投机取巧的员工那样,这会扭曲资源的使用。因此,我们开展了一系列项目,采用博弈论,即描述理性决策者之间策略互动的数学模型,来管理利己用户之间的资源分配,实现数据中心效率最大化。采用博弈论后,情况变得大为不同。

帮助一群理性而利己的用户有效共享资源不是大数据时代的产物。几十年来,经济学家一直在这样做。在经济学中,市场机制根据供求来决定资源的价格。实际上,亚马逊EC2和微软Azure等公共数据中心中都部署了此类机制。在那里,真实的货币转移作为一种工具,使用户动机(性能)与提供商目标(效率)趋于一致。然而,很多情况下,货币交换并不起作用。

举一个简单的例子。假设你在最好朋友的婚礼上得到一张歌剧票,你决定把票赠送给最喜欢这场歌剧的人。因此你要进行所谓的第二价格密封拍卖:你让朋友出价,规定赢家支付第二高的竞价。数学上已经证明,在这场拍卖中,你的朋友没有动机谎报对这张歌剧票的估价。如果你不想要钱或不让朋友付给你钱,你的选择就会变得非常有限。如果你询问朋友想看歌剧的意愿,他们定会夸大想要歌剧票的愿望。歌剧票只是一个简单的例子,但在很多地方,比如谷歌私人数据中心或学术计算机集群,金钱要么不能转手,要么不该转手,因此不能以此来决定归谁所有。博弈论恰好为此类问题提供了实用的解决方案,并已实用于计算机网络和计算机系统。我们可以从这两个领域获得灵感,但也不必解决其局限性。为避免计算机网络拥塞,人们在设计管理机制方面做了很多工作,以此来管理自利和不协调的路由器。但是这些模型只考虑了对单个资源——网络带宽——的争抢;而在数据中心计算机集群和服务器中,要争夺的有各种各样的资源。在计算机系统中,人们对考虑多种资源分配机制的兴趣越来越浓厚,其中非常著名的是主体资源公平机制。然而,这类工作仅限于性能模型以及处理器与内存的比率,并不总能反映数据中心的情况。为提出适用于数据中心的博弈论模型,我们深入研究硬件架构的细节,从最小层次——晶体管开始。长期以来,晶体管功耗随体积缩小而降低,部分原因在于工作电压降低。然而,20世纪初,这种被称为登纳德缩放比例的定律被打破。其结果是,在固定功率预算内,处理器的速度不能再按照我们习惯的速度增长。临时解决方案是在同一芯片内安置多个处理器内核,这样仍可以经济地冷却大量的晶体管。然而,你很快发现,长时间全速开启运行所有内核会熔化芯片。2012年,计算机架构师提出了一种叫作“计算冲刺”(computational sprinting)的变通方法。其概念是,处理器内核在较短的时间隔内安全地突破功率预算,称为冲刺。一次冲刺之后,处理器必须在下一次冲刺之前冷却下来;否则芯片就会损毁。如果处理得当,冲刺可使系统更快速地响应工作负载的变化。冲刺计算最初针对的是智能手机等移动设备的处理器,这些处理器必须限制功耗,节省电量,同时避免灼伤用户。但冲刺很快便应用于数据中心,帮助处理瞬时激增的计算需求。

这便是问题所在。假设自私用户启用可实现冲刺的服务器,这些服务器在数据中心中共享一个电源。用户可以通过冲刺来提高处理器的计算能力,但若众多处理器同时冲刺,电源负荷将会激增,断路器将跳闸。在系统恢复时,迫使不间断电源(UPS)中的电池提供电力。电力应急状况出现后,电池需要充电,在此期间连接此电源的所有服务器都必须按额定功率运行,不允许冲刺。

这种情形是典型“公地悲剧”的一个版本,英国经济学家威廉•福斯特•罗伊德 (William Forster Lloyd)在1833年的一篇文章中首次提出这一概念。他描述了如下情况:假设牧民共享一片牧牛地。如果一位牧民的牧牛超过规定数量,他就可以获得边际收益。但如果许多牧民效仿,过度放牧就会破坏土地,无人能独善其身。我们与当时杜克大学的博士生樊淞春(Songchun Fan,音)将冲刺策略作为公地悲剧来研究。我们构建了一个关注两个主要物理约束的系统模型。首先,对于服务器处理器,在芯片散热时,要求处理器等待,并限制下一次冲刺操作。其次,对于服务器集群,如果断路器跳闸,在不间断电源(UPS)电池充电期间,所有服务器处理器都必须等待。我们设计了一个冲刺博弈游戏,用户在每一回合中可能处于活跃状态、冲刺后的冷却状态或紧急断电后的恢复状态。在每个回合,或者每一轮游戏中,用户唯一的决定是处理器处于活跃状态时是否进行冲刺。用户希望优化冲刺的收益,比如提高吞吐量或减少执行时间。注意,这些收益会随着冲刺的时间而变化。例如,需求越高,冲刺收益越大。

举一个简单的例子。假如你正处于第5回合游戏,冲刺将为你带来10个单位的收益。然而,你必须让处理器冷却几轮才能再次冲刺。如果等到第6回合再冲刺,你可以获得20个单位的收益。或者你打算不在第5回合冲刺,而保留到未来某一回合,但所有其他用户都决定在第5回合冲刺,于是出现了电力应急情况,导致你无法在后面数回合中冲刺。更糟糕的是,你的收益降低了。所有用户的决策都必须基于他们的获益和其他用户的冲刺策略。当少数几个用户博弈时或许很有趣,但当竞争对手的数量增长到数据中心规模时,决策就变得非常棘手。幸好,我们发现了在大型系统中优化每个用户策略的方法,即所谓的平均场博弈分析。这一方法将用户行为描述为一个整体,避免了审视每个竞争对手策略的复杂性。这种统计方法的关键是假设任何单个用户的动作都不会明显改变平均系统行为。基于这一假设,我们可估计所有用户对任意指定用户造成的影响。这类似于千百万个上班族试图优化日常出行的方法。比如有一个上班族名叫爱丽丝,她不可能对每个路人的出行方式进行推断,但她可以将所有上班族作为一个群体来形成某种预测,比如某一天他们希望到达的时间,以及他们的出行计划对交通拥堵的影响。平均场博弈分析能够使我们找到冲刺游戏的“平均场平衡”。用户优化自己对群体的响应,在平衡状态下,偏离用户对群体的最佳响应不会给用户带来益处。在交通领域的类比中,爱丽丝据其对通勤群体平均行为的了解来优化自己的通勤。如果优化后的计划未能达到预期交通模式,她会校正预测并重新考虑计划。随着每位上班族几天优化一次,交通趋于某种重复的模式,上班族的独立行为便会产生一种整体的平衡。

根据平均场平衡,我们制定了冲刺博弈游戏的最优策略,可归结如下:当性能增益超过某个阈值(具体视用户而定)时,用户应冲刺。可以通过数据中心的工作负载及其物理特性来计算这一阈值。在平均场平衡状态下,每位用户都以其最优阈值运行,系统可获得诸多收益。首先,数据中心的电源可以实现分布式管理,用户无须向中央管理器请求冲刺许可,可自行实施策略。这种独立使电源控制更加灵敏、节能。用户可以在几微秒的时间内调节处理器功耗,而如果他们必须等待几十毫秒才能获得许可并通过数据中心,那么这种效果将难以实现。其次,平衡可以完成更多计算工作,用户可以根据自己的工作负载需求适时优化冲刺策略。最后,用户的策略变得简单明了——当增益超过阈值时进行冲刺。这非常易于实现,且便于执行。

我们在过去5年里开发了一系列数据中心管理系统,冲刺电源管理项目仅仅是其中之一。在每一个系统中,我们都使用硬件架构和系统的关键细节来规划博弈。当参与者表现出自私的行为时,建成的实用管理机制也可保障系统能够稳定运行。我们相信,这种保障会鼓励参与共享系统,并为节能和可扩展的数据中心奠定坚实基础。

尽管我们已经设法解决服务器多处理器、服务器机架和服务器集群级别的资源分配问题,但是将它们用于大型数据中心仍将需要更多的工作。首先,必须能够生成数据中心的性能配置文件。数据中心必须部署监视硬件运行的必要设施、评估性能效果并推算资源参数。此类系统的多数博弈论解决方案都要离线分析阶段。而更积极一点的方法,可以从一些先验知识开始建造在线机制,然后在执行过程中随着特征变得更清晰,不断更新其参数。甚至可能通过强化学习或其他形式的人工智能来在线改进机制的博弈规则。另外,在数据中心,用户可能随时到达和离开系统;任务可能会在不同阶段进入和退出;服务器可能会发生故障并重新启动。所有这些事件都需要重新分配资源,但是资源的重新分配可能会破坏整个系统的计算,要求数据分流,从而耗尽资源。在保持每个人公平博弈的同时,应对所有这些变化都需要进行更多的工作,但我们相信博弈论将发挥其应有的作用。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    14

    文章

    10353

    浏览量

    91742
  • 数据中心
    +关注

    关注

    18

    文章

    5762

    浏览量

    75197
  • 大数据
    +关注

    关注

    64

    文章

    9096

    浏览量

    144053

原文标题:博弈论制胜数据中心

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    SiC模块振荡抑制:栅极磁珠(Bead)与RC缓冲电路的物理布局博弈

    碳化硅(SiC)功率模块开通振荡抑制:栅极磁珠(Bead)与RC缓冲电路的物理布局博弈深度解析 碳化硅功率器件的高频化挑战与开关振荡的物理起源 在当今电力电子技术向着高频率、高效率和高功率密度迅速
    的头像 发表于 04-19 08:32 28次阅读
    SiC模块振荡抑制:栅极磁珠(Bead)与RC缓冲电路的物理布局<b class='flag-5'>博弈</b>

    磁环共模电感与差模电感的博弈艺术

    ,甚至外观相似,但其内在的电磁逻辑、材料机理以及在电路中的“分工哲学”,却有着本质的差异。 现在,我们跳出传统的参数罗列,从电磁场博弈的视角,重新审视磁环共模电感和差模电感的深层区别。
    的头像 发表于 03-31 13:40 222次阅读
    磁环共模电感与差模电感的<b class='flag-5'>博弈</b>艺术

    逃离高危巡检的生死博弈:工业智能化转型的必答题

    在冶金车间的高温熔炉旁、化工厂区的有毒气体环境中、地下管廊的深处,传统人工巡检的每一次出发,都是与风险的博弈。 高温、高压、有毒、易燃易爆……这些工业现场的日常词汇,背后是巡检人员用生命丈量安全
    的头像 发表于 03-24 15:08 151次阅读

    华冠半导体2025年度成长与展望

    在这个芯片成为全球博弈焦点的时代,中国半导体产业正经历着前所未有的激荡与洗牌。华冠半导体(HGSEMI),以一抹鲜明的“中国红”,书写着关于坚守、创新与国产替代的深度答卷。
    的头像 发表于 02-03 09:42 809次阅读

    请问串口上串联的电阻有什么作用

    看到有的电路在串口芯片的TX,RX上接了电阻,有的没有接。想问一下接电阻的作用是什么?
    发表于 01-20 06:33

    协议融合,制造无界:疆鸿智能PROFIBUS转ETHERCAT网关的AGV实践

    协议融合,制造无界:疆鸿智能PROFIBUS转ETHERCAT网关的AGV实践 一、网关在工业制造中的作用 工业通信网关在智能制造系统中扮演着“协议翻译官”的角色,尤其在自动化程度较高的AGV
    的头像 发表于 01-15 14:58 384次阅读
    协议融合,制造无界:疆鸿智能PROFIBUS转ETHERCAT网关的AGV实践<b class='flag-5'>论</b>

    SAP 拆分合并实施商选型指南:方法 + 工具 + 案例核心参考

    针对SAP系统拆分与合并这类高复杂度项目,选择实施商需重点考察其方法成熟度(如SNP的“拆分工厂”模式)、专业工具(如CrystalBridge平台)及行业案例经验。德勤等大型服务商擅长大规模整合,区域型伙伴则精于本地化合规,三者组合可形成完整解决方案闭环。
    的头像 发表于 01-05 17:21 675次阅读

    与晶振并联的1M电阻是什么用?为何有的有用,有的没有用?应该如何选择?

    如果您的产品出现了低温情况晶振不起振或者低温时MCU运行不正常的情况(有的芯片外部振荡电路不起振时可能会自动切换为内部晶振)。这时,我们就需要检查Rf这个电阻是否正确。阻值是否合理?是否应该接Rf实际没有接?
    的头像 发表于 11-21 15:37 2791次阅读
    与晶振并联的1M电阻是什么用?为何<b class='flag-5'>有的</b>有用,<b class='flag-5'>有的</b>没有用?应该如何选择?

    与晶振并联的1M电阻是什么用?为何有的有用,有的没有用?应该如何选择?

    ?为什么有的时候有,有的时候没有?为什么电阻的阻值是1M,而不是其他阻值?带着这些疑问,本文我们深入讲解一下晶振电路中的电阻的作用。一:皮尔斯振荡器(Pierceoscillator)普通石英晶振可以正常起振
    的头像 发表于 11-21 15:37 3645次阅读
    与晶振并联的1M电阻是什么用?为何<b class='flag-5'>有的</b>有用,<b class='flag-5'>有的</b>没有用?应该如何选择?

    浪涌防雷器的安装位置及作用解析

    防雷器无法发挥应有的保护作用。   2.避免误动作:漏电保护器设计用于检测电路中的漏电流,以防止触电事故。浪涌电流虽然强大但持续时间短,可能触发漏保的误动作,造成不必要的停电。将浪涌防雷器前置
    的头像 发表于 10-13 09:50 1533次阅读
    浪涌防雷器的安装位置及<b class='flag-5'>作用</b>解析

    直插铝电解电容的 “高度博弈”:10mm 到 50mm 的尺寸差,如何适配机箱空间?

    的复杂博弈。这种博弈不仅关乎单个元器件的选型,更直接影响整机设计的可靠性与成本控制。 ### 高度差异背后的技术逻辑 铝电解电容的高度主要由内部电解液的容量和电极箔的卷绕方式决定。10mm以下的矮身电容通常用于空间极度受限的场合
    的头像 发表于 08-26 16:16 1025次阅读
    直插铝电解电容的 “高度<b class='flag-5'>博弈</b>”:10mm 到 50mm 的尺寸差,如何适配机箱空间?

    直插铝电解电容的 “高度博弈”:不同尺寸如何在机箱内 “见缝插针”?

    博弈”。 ### **直插铝电解电容的尺寸标准与空间挑战** 铝电解电容的尺寸通常由直径(D)和高度(H)决定,常见的封装尺寸如φ5×11mm、φ8×12mm、φ10×20mm等。不同规格的电容适用于不同的电路需求,例如大容量电容通常用于电源滤波
    的头像 发表于 08-23 15:29 871次阅读

    为什么有的芯片是正电极更热,有的芯片是负电极更热?

    案例分析(一)有的芯片是正电极更热,有的芯片是负电极更热!以下为两个厂家22mil*35mil尺寸大小芯片光热分布的对比。对于该尺寸大功率正装芯片,电流在芯片中横向扩展的路径较长,导致电流聚集效应
    的头像 发表于 07-15 15:56 725次阅读
    为什么<b class='flag-5'>有的</b>芯片是正电极更热,<b class='flag-5'>有的</b>芯片是负电极更热?

    使用CCG2 (CYPD2122-24LQXI) IC,对源发送的 SVDM DISCOVERY IDENTITY命令的响应有问题,怎么解决?

    你好,我在我的项目中使用 CCG2 (CYPD2122-24LQXI) IC。 我对源发送的 SVDM DISCOVERY IDENTITY 命令的响应有问题。 我正在使用 CCG2 设备 SDK
    发表于 05-08 07:08

    网线在机器人领域如何发挥重要作用

    机器人制造领域正经历前所未有的变革,网络产品作为连接机器人内部系统与外部环境的关键纽带,在机器视觉、数据采集和远程控制等环节发挥着决定性作用。本文将从这网线角度,来看看他们在机器人领域如何发挥重要作用
    的头像 发表于 04-27 13:33 1030次阅读