0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

《开放加速规范AI服务器设计指南》发布,应对生成式AI爆发算力挑战

浪潮AIHPC 来源:浪潮AIHPC 2023-08-11 17:29 次阅读

日前,在2023年开放计算社区中国峰会(OCP China Day 2023)上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,将助力社区成员高效开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案,把握生成式AI爆发带来的算力产业巨大机遇。

当前,生成式AI技术飞速发展,引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座,对生产效率提升、传统产业转型升级具有重大的价值潜力,而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。随着生成式AI加速落地,业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题。2019年底,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,实现了开放加速AI服务器的产业化实践。

基于在开放加速计算领域的产品研发和工程实践经验,《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。

《指南》指出,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。

多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群,包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等。只有通过多维协同,才能实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

全面系统测试是指异构加速计算节点通常故障率高,需要更加全面、严苛的测试,才能最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标,并指出了针对大模型训练和推理性能调优的要点,以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    8116

    浏览量

    82512
  • ai技术
    +关注

    关注

    1

    文章

    1135

    浏览量

    23705
  • 算力
    +关注

    关注

    1

    文章

    659

    浏览量

    14354
  • 生成式AI
    +关注

    关注

    0

    文章

    349

    浏览量

    212

原文标题:《开放加速规范AI服务器设计指南》发布,应对生成式AI爆发算力挑战

文章出处:【微信号:浪潮AIHPC,微信公众号:浪潮AIHPC】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    台积电:AI服务器处理器预计翻番,拉动收入增长 

    台积电将 AI 服务器处理器严格限定为用于 AI 训练与推理的 GPU、CPU 及 AI 加速器,剔除网络边缘与消费级设备中的此类产品。
    的头像 发表于 04-19 15:04 96次阅读

    使用NVIDIA Triton推理服务器加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器加速 AI 预测。
    的头像 发表于 02-29 14:04 210次阅读

    Suma AI服务器:全栈国产,入局!

    Sora大火、央企加速智算中心建设,AI算力供不应求、价格水涨船高。企业如何应对AI洗牌的挑战与机遇? 众多机构认为,“得算力者得天下”,在
    的头像 发表于 02-28 15:18 568次阅读
    Suma <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>:全栈国产,入局!

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,能RADXA微服务器的具体规格: 处理:BM1684X :高达32Tops INT8峰值
    发表于 02-28 11:21

    YXC晶振解决方案AI服务器中的应用

    AI服务器常用频点:50MHZ、125MHZ、156.25MHZ,适用于AI服务器的YXC差分晶振
    的头像 发表于 12-18 18:06 192次阅读
    YXC晶振解决方案<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>中的应用

    浪潮信息刘军:智算力系统创新 加速生成AI产业发展

    信息对于智算力系统创新和AI产业发展的思考。   以下为演讲实录整理 当前,生成式人工智能和大模型推动算力需求高速增长,如何通过智算力系统来更好地支撑AI创新与应用,已经成为智算产业的关键。
    的头像 发表于 12-06 14:08 538次阅读
    浪潮信息刘军:智算力系统创新 <b class='flag-5'>加速</b><b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>产业发展

    浪潮信息积极构建面向生成AI的绿色开放加速智算平台

    ,在开放计算中国峰会OCP China Day 2023上,浪潮信息AI&HPC产品线高级产品经理Stephen Zhang就《开放加速规范
    的头像 发表于 09-20 10:33 701次阅读
    浪潮信息积极构建面向<b class='flag-5'>生成</b>式<b class='flag-5'>AI</b>的绿色<b class='flag-5'>开放</b><b class='flag-5'>加速</b>智算平台

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    面向多媒体 AI 增强场景的 RISC-V 全栈软硬件平台。 该平台将 RISC-V 扩展性的新型 Vector、Matrix 及第三方硬件进行抽象,并接入 OpenCV 与 CSI-NN 等弹性
    发表于 08-26 14:14

    全球领先系统制造商推出 NVIDIA AI 就绪型服务器,为企业大幅提升生成AI 性能

    with NVIDIA 拉斯维加斯 — VMware Explore — 太平洋时间 2023 年 8 月 22 日 — NVIDIA 宣布,全球领先的系统制造商将推出 AI 就绪型服务器,其支持同发布的 VMware
    的头像 发表于 08-23 19:10 378次阅读

    开放加速规范AI服务器设计指南发布应对生成AI算力挑战

    北京2023年8月11日 /美通社/ -- 8月10日,在2023年开放计算社区中国峰会(OCP China Day 2023)上,《开放加速规范A
    的头像 发表于 08-14 09:49 511次阅读

    浪潮信息联合英特尔发布新一代AI服务器NF5698G7

    浪潮信息联合英特尔发布面向生成AI领域创新开发的新一代AI服务器NF5698G7。该AI
    的头像 发表于 07-13 09:43 421次阅读

    AI服务器与传统服务器的区别是什么?

    AI 服务器确实是整个服务器市场的一部分,但它们是专门为基于云的 AI 模型训练或推理而设计的。在规格方面,广义的AI
    发表于 06-21 12:40 1320次阅读

    国产生成AI,不能仅仅看向前方#生成AI #信息无障碍

    AI
    脑极体
    发布于 :2023年06月15日 19:06:36

    AI服务器需求强劲!工业富联:已着手开发下一代AI服务器

    电子发烧友网报道(文/李弯弯)日前,工业富联举行2022年度股东大会,工业富联董事周泰裕在会上表示,工业富联已着手开发下一代AI服务器,并将和客户合作进行AI Cloud data center
    的头像 发表于 06-09 11:59 1481次阅读