0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

《开放加速规范AI服务器设计指南》发布,应对生成式AI算力挑战

全球TMT 来源:全球TMT 作者:全球TMT 2023-08-14 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

北京2023年8月11日 /美通社/ -- 8月10日,在2023年开放计算社区中国峰会(OCP China Day 2023)上,《开放加速规范AI服务器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI应用场景,进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,将助力社区成员高效开发符合开放加速规范的AI加速卡,并大幅缩短与AI服务器的适配周期,为用户提供最佳匹配应用场景的AI算力产品方案,把握生成式AI爆发带来的算力产业巨大机遇。

当前,生成式AI技术飞速发展,引领了新一轮AI创新浪潮。AI大模型是生成式AI的关键底座,对生产效率提升、传统产业转型升级具有重大的价值潜力,而大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。随着生成式AI加速落地,业界对配置高算力AI芯片的AI服务器需求也不断高涨。在此背景下,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势凸显。由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,导致不同芯片需要定制化的系统硬件平台承载,带来更高的开发成本和更长的开发周期。

OCP是全球基础硬件技术领域覆盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更适合超大规模深度学习训练的AI加速卡形态进行了定义,以解决多元AI加速卡形态和接口不统一的问题。2019年底,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台,无需硬件修改即可支持不同厂商的OAM产品。近年来,以浪潮信息为代表的系统厂商研制了多款符合开放加速规范的AI服务器,实现了开放加速AI服务器的产业化实践。

基于在开放加速计算领域的产品研发和工程实践经验,《指南》进一步发展和完善了开放加速规范AI服务器的设计理论和设计方法,提出四大设计原则、全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,旨在帮助社区成员更快更好地开发AI加速卡并适配开放加速AI服务器,应对生成式AI的算力挑战。

《指南》指出,开放加速规范AI服务器设计应遵循四大设计原则,即应用导向、多元开放、绿色高效、统筹设计。在此基础上,应采用多维协同设计、全面系统测试和性能测评调优的设计方法,以提高适配部署效率、系统稳定性、系统可用性。

多维协同设计是指系统厂商和芯片厂商在规划初期要做好全方位、多维度的协同,最大化减少定制开发内容。大模型计算系统通常是一体化高集成度算力集群,包含计算、存储、网络设备,软件、框架、模型组件,机柜、制冷、供电、液冷基础设施等。只有通过多维协同,才能实现全局最优的性能、能效或TCO指标,提高系统适配和集群部署效率。《指南》给出了从节点到集群的软硬全栈参考设计。

全面系统测试是指异构加速计算节点通常故障率高,需要更加全面、严苛的测试,才能最大程度降低系统生产、部署、运行过程中的故障风险,提高系统稳定性,减少断点对训练持续性的影响。《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面梳理。

性能测评调优是指需要对大模型加速计算系统开展多层次的性能评测和软硬件深度调优。《指南》给出了基础性能、互连性能、模型性能测试的要点和指标,并指出了针对大模型训练和推理性能调优的要点,以确保开放加速规范AI服务器能够有效完成当前主流大模型的创新应用支撑。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54423

    浏览量

    469289
  • 服务器
    +关注

    关注

    14

    文章

    10358

    浏览量

    91752
  • AI
    AI
    +关注

    关注

    91

    文章

    41107

    浏览量

    302589
  • 算力
    +关注

    关注

    2

    文章

    1673

    浏览量

    16833
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1131
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI服务器PCBA加工技术解析:高时代的核心制造能力

    AI服务器PCBA加工 是AI服务器硬件制造的重要环节,也是支撑人工智能基础设施的重要技术能
    的头像 发表于 04-16 22:57 101次阅读

    AI时代的热挑战:宏展高发热大负载Walk-in试验箱的技术应对

    AI迅猛发展的今天,服务器已从单纯的数据处理机演进为智能时代的核心基础设施。无论是训练大型语言模型、实时推演AI应用,还是进行边缘运算
    的头像 发表于 03-27 09:52 270次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>时代的热<b class='flag-5'>挑战</b>:宏展高发热大负载Walk-in试验箱的技术<b class='flag-5'>应对</b>

    爆发下的刚需赛道:AI服务器高频高速连接需求迎爆发式增长

    当前,AI基建正进入全面爆发期,高频高速连接作为AI服务器的核心零部件,承担着短距离高速信
    的头像 发表于 03-20 14:07 885次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>爆发下的刚需赛道:<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>高频高速连接<b class='flag-5'>器</b>需求迎爆发式增长

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    AI服务器) 这一形态应运而生。它需要在极小体积内,提供接近服务器级的AI吞吐能力,同时具备工业级的接口扩展性。 OrangePi AI S
    发表于 03-10 14:19

    AI服务器大电流电感选型指南

    随着大模型训练、GPU集群、数据中心高密度供电快速普及,AI服务器对电源的要求已进入高功率、大电流、低损耗、高可靠时代。电感作为VRM、多相供电、OBC、PSU模块的核心器件,直接
    的头像 发表于 02-27 10:51 324次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>大电流电感选型<b class='flag-5'>指南</b>

    重磅 | 广东宏展科技推出高发热量步入环境箱,助力AI发展

    重复的环境模拟测试能力,从容应对AI时代的“热浪”挑战,为突破筑牢底层支撑。AI时代的热
    的头像 发表于 02-06 09:08 619次阅读
    重磅 | 广东宏展科技推出高发热量步入<b class='flag-5'>式</b>环境箱,助力<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>发展

    高达 1570 TOPS!支持多硬盘的高服务器 CSB2-N10

    CSB2-N10服务器内置10个分布计算节点,单节点可提供6-157TOPS,可选瑞芯微、能、NVIDIA等平台。支持主流
    的头像 发表于 01-06 16:33 739次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>高达 1570 TOPS!支持多硬盘的高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b> CSB2-N10

    AI服务器电源测试解决方案:为巨擘注入稳定之魂

    在人工智能浪潮之巅,AI服务器电源作为驱动万亿参数模型奔腾不息的“心脏”,其性能至关重要。这颗心脏能否在极限负载下强劲搏动,在复杂工况中稳定运行,直接决定了整个AI
    的头像 发表于 12-03 13:56 864次阅读

    液冷散热时代:AI服务器如何重构磁元件设计

    随着AI服务器功率密度的快速提升,传统的风冷散热方案在热管理方面逐渐面临挑战。在此背景下,液冷散热技术正加速应用于数据中心,特别是高
    的头像 发表于 11-21 11:42 1094次阅读
    液冷散热时代:<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>如何重构磁元件设计

    觉醒 · AI共生——上海永铭电子2025AI服务器电容应用专题会议圆满落幕

    随着人工智能浪潮席卷全球,AI正以前所未有的速度爆发式增长。在这场决定未来的技术竞速中,稳定、高效、可靠的电力供应是基石的核心。而电
    的头像 发表于 11-03 14:00 1109次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>觉醒 · <b class='flag-5'>AI</b>共生——上海永铭电子2025<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>电容应用专题会议圆满落幕

    AI 服务器备用电源:高效、可靠与智能的未来保障

    电子发烧友网综合报道 随着人工智能技术的飞速发展,AI 服务器已成为数据中心的核心引擎。然而,需求的指数级增长也带来了前所未有的电源挑战
    的头像 发表于 10-09 02:38 5452次阅读

    多达 48 个计算节点!Firefly 推出 CSC2-N48 AI 服务器

    Firefly最新推出CSC2-N48服务器,内置48个分布计算节点,单节点可提供6TOPS-157TOPS
    的头像 发表于 08-20 16:37 1811次阅读
    多达 48 个计算节点!Firefly 推出 CSC2-N48 <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b>

    AI 服务器电源如何迭代升级?

    AI 需求增长的今天,AI 服务器电源正陷入 “性能瓶颈与国产替代并行、场景适配与技术创新交织” 的双重
    的头像 发表于 06-23 14:51 1699次阅读

    泰克科技解析AI服务器电源架构的技术演进

    2025年,AI热潮持续升温。大模型的参数规模越发惊人,训练周期从月级压缩至周级,ChatGPT、DeepSeek、Sora、Grok等一众生成AI应用轮番登场,让“
    的头像 发表于 06-07 09:06 2805次阅读
    泰克科技解析<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>电源架构的技术演进

    RAKsmart服务器如何赋能AI开发与部署

    AI开发与部署的复杂性不仅体现在算法设计层面,更依赖于底层基础设施的支撑能力。RAKsmart服务器凭借其高性能硬件架构、灵活的资源调度能力以及面向AI场景的深度优化,正在成为企业突破
    的头像 发表于 04-30 09:22 949次阅读