0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

加速AI落地、推动边缘计算应用实践——开放计算在中国行至高潮

张慧娟 来源:电子发烧友网 作者:张慧娟 2019-06-26 12:22 次阅读

8年后,在中国再谈开放计算,不论是技术原动力还是整个产业生态,都有了翻天覆地的变化。

时间拨回2011年,Facebook 主导发起了OCP(Open Compute Project; 开放计算项目),旨在以开源开放的方式,重构当时的数据中心硬件,发展面向下一代数据中心的服务器、存储、网络、基础设施等。
当时,我国互联网技术正以惊奇世界的姿态飞速发展着。软件开源已经成为趋势,但如果你提到硬件开源,那年刚刚出现的从英文“Maker”翻译过来的“创客”,会和你聊聊树莓派,聊聊包括电路原理图、设计图在内的开源许可。

但这并不是OCP的着眼点,IT基础设施才是。

同年,阿里巴巴、百度、腾讯三家发起ODCC组织的前身“天蝎计划”,并在同年年底确立了最初的技术规范。

百度从2011到2014年间,几乎花了3年的时间与OCP社区进行沟通,试图推动在数据中心的分享与合作。但现实的反差是巨大的,由于国内外数据中心的巨大差异、地区的差异、认知的差异等限制,最终没有达成共识。

时间来到2019年,国内互联网和泛互联网产业取得长足发展,也使得更多的中国企业共同站在这个舞台上面向未来进行深入探讨。今年也是继2014年之后,百度重新回归OCP。此时,OCP的成员企业大约达到200家,包括英特尔、谷歌、微软、Facebook、LinkedIn以及中国的阿里巴巴、百度、腾讯、浪潮等,囊括了全球服务器采购量最大的企业用户。

浪潮与OCP联合主办的首届OCP China Day(开放计算中国日)6月25日在北京举行,那么,现在在中国聊起开放计算,我们都在关注什么?

关注一:OAM——简化AI基础架构设计,加速创新设计

AI是OCP China Day上多次被提及的话题之一。

伴随着AI的火热,有越来越多的AI芯片出现。但是在推动芯片落地时却发现很大的问题,需要从零开始进行板卡兼容等工作。AI加速器越来越多,技术更新也越来越快,AI硬件系统的技术挑战和设计复杂度在增加,将加速器集成到系统中通常需要大约6-12个月。这种延迟阻碍了AI加速器的快速采用。

基于此,OCP社区在服务器项目组下设立了OAI(OpenAccelerator Infrastructure)小组,负责开发OAM(OCP Accelerator Module)规范,将加速器模块标准化,简化AI基础架构的设计,缩短硬件设计周期。OAM规范的内容包括电源/冷却,稳健性,可维护性,配置,编程,管理和调试,以及模块间通信,以扩展和输入/输出带宽。OAM目前仍在开发阶段,已经在3月14日公布了第一个非正式版本V0.85,4月30日公布了第二个非正式版本0.9。OAM标准,就是针对上述问题设计的一套指导AI硬件加速模块和系统设计的标准,它集合定义了AI硬件加速模块本身、主板、互联拓扑、机箱、供电、散热以及系统管理等系列设计规范,主要目标是通过模块化、标准化来增强不同AI硬件加速模块和系统的互操作性,加速新的AI硬件加速模块的落地和应用。

为什么需要OAM?

先从典型的AI加速系统设计来看,它通常由三部分构成,包括承载多个OAI模块的基板,控制整个系统执行流程的CPU,连接AI芯片和CPU的PCIe开关。由于PCIe供电能力有限,无法很好地支持高速互联,所以出现了很多新的解决方案,这样就出现了非标准系统。由于AI芯片之间和CPU之间需要互联起来,由于计算节点的限制,包括对于存储的需求、I/O互联的需求不一样,所以在设计PCIe拓扑的时候有差异,导致硬件系统适应新的需求比较困难。

同时,大规模的AI的爆发需要很强大的算力,一个节点不够用时,需要更好的扩展能力。有两种典型方式:一是通过传统的以太网交换机实现互联,但是这个license费用比较高,互联的带宽也是有限的;二是通过新兴技术实现AI加速芯片之间私有的互联,这是一种更高速的互联,有更低的延时,可以大幅提升大规模训练的性能。从一个单机扩展到多机,构建了典型的大规模训练系统。除此之外还有基础设施,包括供电、散热这些很有挑战的问题。系统内不同模块之间的组合能够实现不同目标,取决于系统整体的权衡。

针对场景众多的AI应用,不论是系统本身的设计,还是在系统的扩展方面,一家公司单枪匹马攻克了一个目标之后,下一个目标可能又要重新设计方案。从这个角度看,长期快速跟进甚至引领市场比较困难,所以需要协作,开放AI加速的基础架构,采用模块化的思路,增强不同的模块与系统之间的互操作性,加速相关技术的创新,推动新的AI芯片快速落地。

在这一过程中,OCP定义了AI加速的基础架构规范,把相关模块之间的边界定义清楚,只要满足相关接口都可以在系统中共存,这样可以很好地将共性需求抽离出来,将特定的需求通过模块化的形式去满足,能够更好地加速相关创新。

当前公布的OAM标准,是由参与OCP开放计算项目的百度、微软、Facebook三家国际AI领先企业联合定义,已经得到包括Google、阿里、腾讯等互联网企业,英伟达、英特尔、AMD高通赛灵思等AI芯片企业,Graphcore、Habana Labs等AI芯片及处理器初创企业,以及IBM、浪潮等厂商的参与和支持。

关注二:边缘计算的应用实践

伴随着5G的到来,边缘计算也来了。

目前看来,似乎只有自动驾驶VR/AR等应用场景提出了低延迟、高带宽的需求,智慧城市、工业互联网等提出了高带宽、低延时以及安全方面的要求。在此基础上,如何发展边缘计算?如何满足边缘计算的需求?仍然不清楚。

针对边缘计算的实践,百度提出了“DEC”(Device、Edge、Cloud)算力部署,中国移动认为运营商提供分流管道,边缘计算业务由行业客户自营。提到边缘计算,势必要考虑边缘服务器的特性。它需要紧凑、可扩展的功能,并且提供短期高温环境。

但是,服务器的研发周期很长,从研发到批量供货需要1年时间,此后还会难以避免的进行部分升级换代,比如,主板升级、PCI-E模块的升级等,这些升级很可能会带来服务器主体设计的重构,很多时候不得不从头开始研发新一代服务器。

对边缘服务器的看法,中国移动主要看到三方面:业务需求、机房条件和本身的可维护性。可能在未来边缘计算的大规模部署的时候,如果确定了一个比较具体的场景,会有一种模块化的交付方式,使得能够非常快速,大批量的跟软件一起来交付。

腾讯与浪潮研发的T-Flex2.0架构就是为了解决上述问题,对空间进行有效规划, 通过I/O池化技术(支持PCI-E交换和Gen-z两类互联协议)支持未来模块化迭代和灵活组合, 服务器可以单独升级部分模块并不影响其他模块,T-Fle2.0x是一个更为灵活的架构。

从前向后,T-Flex2.0高度为2OU,分为A、B、C等3个区,每个区域可以放置不同的模块,实现服务器的主体功能,覆盖各类应用场景,甚至可以去掉A区或者C区,减少长度成为一款边缘计算服务器。

作为OCP、Open19和ODCC全球三大开放计算标准组织的共同成员,浪潮从贡献IP,参与开发标准到主导标准制定,在开放硬件社区中的参与度越来越高,先后贡献了首批基于Open19标准的服务器、第一款OCP标准基于Intel Skylake平台的主板、第一款Olympus四路服务器。同时,浪潮还参与了OCP OAM项目,牵头成立了OpenRMC项目,开发完成了全球第一个基于OCP标准的整机柜管理架构。

关注三:OpenRMC项目,下一代数据中心的管理框架

OpenRMC是OCP社区硬件管理项目组下的子项目组,由浪潮牵头成立。该项目目标是完成OpenBMC与Redfish的融合,形成下一代数据中心管理的统一框架。

OpenBMC是Facebook发起的开源项目,希望解决闭源的BMC(Baseboard Management Controller,基板管理控制器)以及相关的软件包标准不一的问题,这个问题给数据中心统一管理带来了很多技术障碍。DMTF(Distributed Management Task Force,分布式管理任务组)制定了下一代服务器管理技术标准Redfish,以取代当前IPMI 2.0,Redfish具有扩展性好、功能丰富、针对地址不同和供应商不同的基础设施向客户提供规范化管理接口的优点,能够满足现代数据中心的管理需求。

OpenRMC项目希望能够解决两个标准之间的互操作性等一系列问题,并建立协同机制,形成规范,推进下一代数据中心管理技术和产业的发展。

未来,数据中心继续充满挑战,数据中心整合将继续推进。边缘计算也将以更快的速度实现增长。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • OCP
    OCP
    +关注

    关注

    0

    文章

    68

    浏览量

    16140
  • 5G
    5G
    +关注

    关注

    1340

    文章

    47733

    浏览量

    553100
  • 边缘计算
    +关注

    关注

    22

    文章

    2758

    浏览量

    45935
收藏 人收藏

    评论

    相关推荐

    什么是AI边缘计算AI边缘计算的特点和优势介绍

    随着人工智能的迅猛发展,AI边缘计算成为了热门话题。那么什么是AI边缘计算呢?简单来说,它是将人
    的头像 发表于 02-01 11:42 269次阅读

    AI边缘计算机应用场景广泛!大语言模型与数字人结合方案在边缘落地

    电子发烧友网报道(文/李弯弯)AI边缘计算机是一种人工智能和边缘计算技术相结合的计算机设备。它可
    的头像 发表于 01-16 01:11 1469次阅读

    什么是边缘计算边缘计算有哪些应用?

    ,以降低数据传输延迟、减轻网络压力,同时提供更快速、更灵活的服务。边缘计算在各个领域都有广泛应用,下面将详细介绍边缘计算的定义、原理以及各个应用领域。
    的头像 发表于 01-09 11:29 541次阅读

    算力强劲的AI边缘计算盒子# 边缘计算

    AI边缘计算
    成都华江信息
    发布于 :2023年11月24日 16:31:06

    什么是边缘计算盒子(AI算法盒子)?

    边缘计算盒子是一种基于边缘计算和人工智能技术的智能设备,它内置了灵活可配的多样化AI算法库,所以也被称为
    的头像 发表于 10-31 14:29 1089次阅读
    什么是<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>盒子(<b class='flag-5'>AI</b>算法盒子)?

    研华边缘计算能力加速智能制造转型

    、绿色低碳转型展开了深入探讨。 在会议中,给我印象最深的是生成式AI边缘计算深度融合,两者结合形成的边缘智能应用正在快速落地。 如今
    的头像 发表于 09-14 09:44 405次阅读

    边缘计算ai技术是什么?

    边缘计算ai技术是什么? 边缘计算AI技术是指将人工智能技术应用于
    的头像 发表于 08-24 15:49 678次阅读

    AI边缘计算是什么意思?边缘ai是什么?AI边缘计算应用

    AI边缘计算是什么意思?边缘ai是什么?AI边缘
    的头像 发表于 08-24 15:18 1410次阅读

    边缘计算在智慧医疗领域的作用

    边缘计算在智慧医疗领域的作用 随着物联网技术的快速发展,边缘计算日益成为智慧医疗领域的关键技术。边缘计算
    的头像 发表于 08-23 15:09 383次阅读

    AI边缘计算盒子是如何推动边缘AI应用落地

    AI边缘计算盒子(AI Edge Computing Box)是一种集成了边缘计算
    的头像 发表于 05-26 14:08 633次阅读

    边缘计算基础

    边缘计算,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服 务。其应用程序在边缘侧发起,
    发表于 05-18 16:13 0次下载
    <b class='flag-5'>边缘</b><b class='flag-5'>计算</b>基础

    边缘计算架构分析

    边缘计算架构分析 2021云计算十大关键词分别是:云原生、高性能、混沌工程、混合云、边缘计算、零信任、优化治理、数字政府、低碳云、企业数字化
    发表于 05-18 15:44 0次下载
    <b class='flag-5'>边缘</b><b class='flag-5'>计算</b>架构分析

    边缘计算AI入门

    在对更高效业务流程的需求以及物联网 (IoT)、5G 和人工智能的关键进步的推动下,对边缘计算的需求比以往任何时候都高。 在 IBM 于 2021 年 5 月发布的一项研究中,94% 的受访高管表示
    发表于 05-18 15:40 0次下载
    <b class='flag-5'>边缘</b><b class='flag-5'>计算</b><b class='flag-5'>AI</b>入门

    校企合作推动实现多项工业场景下AI边缘计算应用

    AI 边缘计算领域,校企合作具有重要的意义。首先,AI 边缘计算需要依托于硬件技术和软件技术
    的头像 发表于 05-10 11:50 756次阅读

    研华边缘计算设备EPC-B5000,高AI算力加速边缘计算

    多张采集卡或显卡来满足设备性能,并借助高性能显卡甚至专业AI级别显卡将采集到的图像数据进行实时AI处理和图像渲染。而边缘侧设备所处的环境不确定因素较多,条件恶劣,这对边缘
    发表于 05-09 14:03 452次阅读
    研华<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>设备EPC-B5000,高<b class='flag-5'>AI</b>算力<b class='flag-5'>加速</b><b class='flag-5'>边缘</b><b class='flag-5'>计算</b>