0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息刘军:智算力系统创新 加速生成式AI产业发展

全球TMT 来源:全球TMT 作者:全球TMT 2023-12-06 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

北京2023年12月6日/美通社/ --11月29日,在北京举行的2023人工智能计算大会(AICC)上,浪潮信息高级副总裁刘军在主题演讲《智算力系统创新 加速生成式AI产业发展》中分享了浪潮信息对于智算力系统创新和AI产业发展的思考。

wKgZomVwD_WAbed4AADVM889aU0323.jpg


以下为演讲实录整理

当前,生成式人工智能和大模型推动算力需求高速增长,如何通过智算力系统来更好地支撑AI创新与应用,已经成为智算产业的关键。应对生成式AI的发展和挑战,应该从算力系统、AI软件基础设施(AI Infra)、算法模型和产业生态4个方面来进行综合考量,从而加速智能产业的落地。

智算系统创新,解决生成式AI的算力挑战

在算力系统层面,生成式人工智能面临的挑战主要来自计算、数据和互联三个方面:

在计算层面,算力多元化趋势愈发明显,导致AI算力系统开发适配周期长、定制开发投入大、业务迁移时间久。此外,大模型训练对算力规模要求高,在单芯片算力有限的情况下,必须通过构建更大规模的集群来获得性能的扩展。

在数据层面,大模型从文本、图片等单模态向多模态、跨模态演进,训练的数据集达到TB级甚至PB级,且不同作业阶段对于数据存储的要求呈现多元化趋势。

在互联层面,传统RoCE网络因ECMP哈希不均导致40%以上的网络带宽被浪费,且尾时延高导致网络通信时间占比训练时间高达40%,极大降低了计算效率。同时,网络是集群共享资源,当集群规模达到一定量级后,网络性能波动会影响到所有计算资源的利用率,网络故障会影响数十个甚至更多加速卡的连通性。

面对三重挑战,浪潮信息总结了多年产品研发和用户服务经验,提出三部分解决之道。

在计算方面,首先要针对多元算力,以统一的系统架构和统一的接口规范来兼容各类AI加速卡,保障芯片算力的高效释放。浪潮信息早在2018年就着力开放多元的AI算力平台设计,最新发布的G7多元算力平台是业界唯一可以同时兼容SXM、OAI加速卡并实现8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台。为了保障更大规模的节点扩展性能,浪潮信息研制的开放加速计算架构支持PCIe、RocE和多种私有互联协议,节点内和跨节点卡间互联最大达到896 GB/s,跨节点通过免网卡RDMA实现高效扩展,集群性能加速比超过90%。

在数据存储方面,针对大模型的数据存储需求,浪潮信息在业界率先实现了一套集群系统同时支持文件、对象、大数据等多种非结构化协议的无损互访,同时支持闪存、磁盘、磁带、光盘四类存储介质,并支持数据全生命周期热、温、冷、冰四级存储管理,以一套存储架构支持一个数据中心,真正实现了数据融合、管理融合。

在网络互联方面,浪潮信息专为生成式AI计算场景发布旗舰51.2T高性能交换机,为企业级智算网络提供高吞吐、高可扩展、高可靠的智算网络产品及方案,解决了传统RoCE方案普遍存在的有效带宽低、尾时延高、故障收敛慢等问题,将大模型训练性能提升38%以上,性能接近InfiniBand,助力AI用户高效释放大模型生产力。

AI Infra全栈优化:释放多元算力、提升大模型算力效率

大模型算法开发的链条冗长,这意味着需要诸多的工程化工具支撑。因此,在算力系统外,AI软件基础设施(AI Infra)也亟需创新。

AIGC大模型开发是一项极其复杂的系统工程,即便解决了底层算力供给的问题,仍面临建不了和用不好的问题。"建不好"是指构建算力平台不仅需要服务器、存储、网络等硬件集成,还需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性;"用不好"则体现在算力平台效率低、稳定性不足、故障频发等现实困扰。

为加速模型生产和落地应用,浪潮信息在AI Infra层面开发了大模型智算软件栈OGAI (Open GenAI Infra)。在算力部署方面,OGAI开源了业界首个AI算力集群系统环境部署方案PODsys;在大规模训练的长时保障方面,从算力调度平台层实现了自动化断点续训;在多元算力接入方面以标准化、模块化接入方式稳定接入超过40+芯片;在数据治理方面构建了流程化、可自定义的数据清洗pipeline,有效缩短数据清洗时间、提升文本审核过滤准确率;在计算效率优化方面,通过对分布式并行算法的极致优化,将千亿参数模型的训练计算效率提升到54%;在多模型管理方面已经支持了超过10个业界主流的开源大模型和元脑生态大模型,用实践证明AI Infra全栈基础软件和工作流的创新是多元算力高效释放、提升大模型算力效率的关键。

wKgaomVwD_WAefIEAACLCtTuxXI341.jpg


基础大模型,生成式AI落地发展的核心支撑

当前,大模型技术正在推动生成式人工智能产业迅猛发展,而基础大模型的关键能力则是大模型在行业和应用落地时能力表现的核心支撑。但是,基础大模型在持续进化的过程中,依然面临着数据、算法、算力等关键因素的挑战与制约。

目前,受政策支持、算力水平提升、数据资源庞大以及科研实力增强等利好因素的推动,中国在基础大模型方面取得一定成绩,但仍需加大在基础性技术方面的原创性突破,夯实底层模型和算法能力。

浪潮信息从实践入手,加大模型结构创新、高质量数据准备、高效算力利用投入,并将这些技术运用在了"源2.0"大模型上,在编程、推理、逻辑等方面展示了先进的能力。

在算法方面,"源2.0"提出并采用了一种新型的注意力算法结构,有效提升了模型自然语言的表达能力与生成精度;在数据方面,"源2.0"在训练数据来源、数据增强和合成方法等方面进行了全面创新,最终增强模型数理逻辑能力;在算力方面,"源2.0"采用非均匀流水并行+优化器参数并行+数据并行+ Loss计算分块的策略,显著降低大模型对于芯片间互联带宽的要求,让模型训练在"条件有限"的算力规模下实现高效率工作。

源2.0作为千亿级基础大模型,在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试,展示了较为先进的能力表现。为了满足不同行业、不同场景的能力要求,浪潮信息全面开源"源2.0"全系列大模型,以最便捷的方式支持用户建设自己的智能化产品与能力,结合行业特点进行框架、模型、数据的垂直整合,提升基础大模型的准确性和可用性。

生态聚进,联合创新,加速AI应用落地

有了强大的基础大模型,还需要进一步深入应用场景。将大模型的能力赋能到产业环节之中,需要多厂商的深度配合。面对生态复杂离散、产业AI落地困难的挑战,浪潮信息提出元脑生态,聚合优质伙伴协同创新,通过"技术支持、方案联合、平台共享"实现不同厂商之间的优势互补。

目前,元脑生态以浪潮信息的AI算力平台、AI资源平台和AI算法平台为支撑,已经对接40多家芯片厂商,400+算法厂商,4000+系统集成商,通过多元的算力供给、全栈的AI Infra软件栈、丰富的大模型经验,实现"百模"与"千行"的对接,助力千行百业加速生成式AI 产业创新,高效释放生产力。

wKgZomVwD_aAfwb3AAC6aEemKOQ326.jpg


智算力是创新力,AIGC与数字经济、实体经济的深度融合,将会创造出更多颠覆性的社会价值、经济价值,而浪潮信息将秉持开放、共享、共建的发展理念,抓住AIGC市场机遇,共同推进人工智能落地。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42002

    浏览量

    303087
  • 人工智能
    +关注

    关注

    1821

    文章

    50519

    浏览量

    267767
  • 数字经济
    +关注

    关注

    2

    文章

    1125

    浏览量

    20387
  • 算力
    +关注

    关注

    2

    文章

    1776

    浏览量

    16858
  • AIGC
    +关注

    关注

    1

    文章

    394

    浏览量

    3288
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直播预告|玄铁 x Canonical:从本地推理到 AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    剖析玄铁自研张量计算引擎的架构设计思想,解读其如何以通用指令集的灵活性,逼近专用加速器的能效表现,为高性能 RISC-V 注入原生 AI 力基因。 开源系统蓝图|Canonical:
    发表于 05-15 12:15

    边缘AI力临界点:深度解析176TOPS香橙派AI Station的产业价值

    AI服务器) 这一形态应运而生。它需要在极小体积内,提供接近服务器级的AI吞吐能力,同时具备工业级的接口扩展性。 OrangePi AI Station 正是这一产业
    发表于 03-10 14:19

    苏州市智能产业创新中心正式成立

    2月28日,苏州市智能产业创新中心在中国移动云能力中心正式启动,为苏州智能力高质量发展按下“加速
    的头像 发表于 03-03 14:58 822次阅读

    生成AI浪潮如何驱动车载通信模组升级

    随着生成AI浪潮席卷全球,人们对实时力和海量数据的需求从未如此迫切。想象一下,一辆智能汽车不仅能流畅地执行自动驾驶任务,还能在行驶中将T
    的头像 发表于 01-06 10:15 552次阅读
    <b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b><b class='flag-5'>浪潮</b>如何驱动车载通信模组升级

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神
    发表于 09-18 15:31

    华为力支撑AI赋能产业发展

    在全球AI产业蓬勃发展浪潮中,人工智能技术正以前所未有的速度重塑全球经济格局和产业生态。作为数字经济
    的头像 发表于 09-16 15:22 1238次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI发展历程吗?本章作者将为我们打开AI发展历程以
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    是展望未来的AGI芯片,并探讨相关的发展和伦理话题。 各章的目录名称如下: 第1章 大模型浪潮下,AI芯片的需求与挑战免费 第2章 实现深度学习AI芯片的
    发表于 09-05 15:10

    生成AI到代理式AI:半导体技术赋能下一波创新浪潮

    AI领域始终在不断演进,我们正见证一场从“生成AI”时代到“代理式AI”时代的深刻变革。这场变革有望重塑各行各业,并释放前所未有的
    的头像 发表于 08-21 17:59 1758次阅读
    从<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>到代理式<b class='flag-5'>AI</b>:半导体技术赋能下一波<b class='flag-5'>创新浪潮</b>

    AI 芯片浪潮下,职场晋升新契机?

    对复杂场景中目标检测与识别的速度和精度。在此过程中,对算法的理解深度、芯片架构与算法的协同能力,都会成为职称评审中的加分项。 除技术能力外,创新能力同样不可或缺。AI 芯片行业发展日新月异,新技术
    发表于 08-19 08:58

    浪潮信息发布&quot;元脑SD200&quot;超节点,面向万亿参数大模型创新设计

    北京2025年8月8日 /美通社/ -- 8月7日,浪潮信息发布面向万亿参数大模型的超节点AI服务器"元脑SD200"。该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构,以开放
    的头像 发表于 08-08 22:17 832次阅读
    <b class='flag-5'>浪潮信息</b>发布&quot;元脑SD200&quot;超节点,面向万亿参数大模型<b class='flag-5'>创新</b>设计

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    科学家”的构想富有颠覆性,通过自动化科学发现框架,AI能自主生成假说、设计实验、分析结果,将传统 “小作坊” 科研升级为 “批量生产创新
    发表于 07-28 13:54

    借势 RISC-V与 AI 浪潮,元石智打造力新范式

    与RISC-V架构崛起的双重浪潮下,国产服务器系统行业正迎来关键发展机遇。 武汉元石智科技有限公司(下文简称“元石智”)作为国产服务器
    的头像 发表于 07-25 14:51 879次阅读
    借势 RISC-V与 <b class='flag-5'>AI</b> <b class='flag-5'>浪潮</b>,元石智<b class='flag-5'>算</b>打造<b class='flag-5'>算</b>力新范式

    研华荣登2025 AI+工业场景创新企业榜

    在智能制造加速跃迁的时代,研华科技凭借其在工业AI领域的深耕与创新,荣登“AI+工业场景创新
    的头像 发表于 07-15 09:44 1059次阅读

    飞利信与浪潮信息达成战略合作

    近日,2025年浪潮信息北京ISP战略伙伴签约授牌仪式成功举办。浪潮信息与北京飞利信电子技术有限公司等22家战略合作伙伴达成签约,其中将面向北京人工智能应用大市场,在产品技术共创、行业场景深化及区域
    的头像 发表于 06-24 17:37 1303次阅读