0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮信息刘军:智算力系统创新 加速生成式AI产业发展

全球TMT 来源:全球TMT 作者:全球TMT 2023-12-06 14:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

北京2023年12月6日/美通社/ --11月29日,在北京举行的2023人工智能计算大会(AICC)上,浪潮信息高级副总裁刘军在主题演讲《智算力系统创新 加速生成式AI产业发展》中分享了浪潮信息对于智算力系统创新和AI产业发展的思考。

wKgZomVwD_WAbed4AADVM889aU0323.jpg


以下为演讲实录整理

当前,生成式人工智能和大模型推动算力需求高速增长,如何通过智算力系统来更好地支撑AI创新与应用,已经成为智算产业的关键。应对生成式AI的发展和挑战,应该从算力系统、AI软件基础设施(AI Infra)、算法模型和产业生态4个方面来进行综合考量,从而加速智能产业的落地。

智算系统创新,解决生成式AI的算力挑战

在算力系统层面,生成式人工智能面临的挑战主要来自计算、数据和互联三个方面:

在计算层面,算力多元化趋势愈发明显,导致AI算力系统开发适配周期长、定制开发投入大、业务迁移时间久。此外,大模型训练对算力规模要求高,在单芯片算力有限的情况下,必须通过构建更大规模的集群来获得性能的扩展。

在数据层面,大模型从文本、图片等单模态向多模态、跨模态演进,训练的数据集达到TB级甚至PB级,且不同作业阶段对于数据存储的要求呈现多元化趋势。

在互联层面,传统RoCE网络因ECMP哈希不均导致40%以上的网络带宽被浪费,且尾时延高导致网络通信时间占比训练时间高达40%,极大降低了计算效率。同时,网络是集群共享资源,当集群规模达到一定量级后,网络性能波动会影响到所有计算资源的利用率,网络故障会影响数十个甚至更多加速卡的连通性。

面对三重挑战,浪潮信息总结了多年产品研发和用户服务经验,提出三部分解决之道。

在计算方面,首先要针对多元算力,以统一的系统架构和统一的接口规范来兼容各类AI加速卡,保障芯片算力的高效释放。浪潮信息早在2018年就着力开放多元的AI算力平台设计,最新发布的G7多元算力平台是业界唯一可以同时兼容SXM、OAI加速卡并实现8卡全互联、16卡全互联和混合立方互联系统拓扑的AI算力平台。为了保障更大规模的节点扩展性能,浪潮信息研制的开放加速计算架构支持PCIe、RocE和多种私有互联协议,节点内和跨节点卡间互联最大达到896 GB/s,跨节点通过免网卡RDMA实现高效扩展,集群性能加速比超过90%。

在数据存储方面,针对大模型的数据存储需求,浪潮信息在业界率先实现了一套集群系统同时支持文件、对象、大数据等多种非结构化协议的无损互访,同时支持闪存、磁盘、磁带、光盘四类存储介质,并支持数据全生命周期热、温、冷、冰四级存储管理,以一套存储架构支持一个数据中心,真正实现了数据融合、管理融合。

在网络互联方面,浪潮信息专为生成式AI计算场景发布旗舰51.2T高性能交换机,为企业级智算网络提供高吞吐、高可扩展、高可靠的智算网络产品及方案,解决了传统RoCE方案普遍存在的有效带宽低、尾时延高、故障收敛慢等问题,将大模型训练性能提升38%以上,性能接近InfiniBand,助力AI用户高效释放大模型生产力。

AI Infra全栈优化:释放多元算力、提升大模型算力效率

大模型算法开发的链条冗长,这意味着需要诸多的工程化工具支撑。因此,在算力系统外,AI软件基础设施(AI Infra)也亟需创新。

AIGC大模型开发是一项极其复杂的系统工程,即便解决了底层算力供给的问题,仍面临建不了和用不好的问题。"建不好"是指构建算力平台不仅需要服务器、存储、网络等硬件集成,还需要考虑不同硬件和软件之间的兼容性和版本选择,确保驱动和工具的适配性和稳定性;"用不好"则体现在算力平台效率低、稳定性不足、故障频发等现实困扰。

为加速模型生产和落地应用,浪潮信息在AI Infra层面开发了大模型智算软件栈OGAI (Open GenAI Infra)。在算力部署方面,OGAI开源了业界首个AI算力集群系统环境部署方案PODsys;在大规模训练的长时保障方面,从算力调度平台层实现了自动化断点续训;在多元算力接入方面以标准化、模块化接入方式稳定接入超过40+芯片;在数据治理方面构建了流程化、可自定义的数据清洗pipeline,有效缩短数据清洗时间、提升文本审核过滤准确率;在计算效率优化方面,通过对分布式并行算法的极致优化,将千亿参数模型的训练计算效率提升到54%;在多模型管理方面已经支持了超过10个业界主流的开源大模型和元脑生态大模型,用实践证明AI Infra全栈基础软件和工作流的创新是多元算力高效释放、提升大模型算力效率的关键。

wKgaomVwD_WAefIEAACLCtTuxXI341.jpg


基础大模型,生成式AI落地发展的核心支撑

当前,大模型技术正在推动生成式人工智能产业迅猛发展,而基础大模型的关键能力则是大模型在行业和应用落地时能力表现的核心支撑。但是,基础大模型在持续进化的过程中,依然面临着数据、算法、算力等关键因素的挑战与制约。

目前,受政策支持、算力水平提升、数据资源庞大以及科研实力增强等利好因素的推动,中国在基础大模型方面取得一定成绩,但仍需加大在基础性技术方面的原创性突破,夯实底层模型和算法能力。

浪潮信息从实践入手,加大模型结构创新、高质量数据准备、高效算力利用投入,并将这些技术运用在了"源2.0"大模型上,在编程、推理、逻辑等方面展示了先进的能力。

在算法方面,"源2.0"提出并采用了一种新型的注意力算法结构,有效提升了模型自然语言的表达能力与生成精度;在数据方面,"源2.0"在训练数据来源、数据增强和合成方法等方面进行了全面创新,最终增强模型数理逻辑能力;在算力方面,"源2.0"采用非均匀流水并行+优化器参数并行+数据并行+ Loss计算分块的策略,显著降低大模型对于芯片间互联带宽的要求,让模型训练在"条件有限"的算力规模下实现高效率工作。

源2.0作为千亿级基础大模型,在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试,展示了较为先进的能力表现。为了满足不同行业、不同场景的能力要求,浪潮信息全面开源"源2.0"全系列大模型,以最便捷的方式支持用户建设自己的智能化产品与能力,结合行业特点进行框架、模型、数据的垂直整合,提升基础大模型的准确性和可用性。

生态聚进,联合创新,加速AI应用落地

有了强大的基础大模型,还需要进一步深入应用场景。将大模型的能力赋能到产业环节之中,需要多厂商的深度配合。面对生态复杂离散、产业AI落地困难的挑战,浪潮信息提出元脑生态,聚合优质伙伴协同创新,通过"技术支持、方案联合、平台共享"实现不同厂商之间的优势互补。

目前,元脑生态以浪潮信息的AI算力平台、AI资源平台和AI算法平台为支撑,已经对接40多家芯片厂商,400+算法厂商,4000+系统集成商,通过多元的算力供给、全栈的AI Infra软件栈、丰富的大模型经验,实现"百模"与"千行"的对接,助力千行百业加速生成式AI 产业创新,高效释放生产力。

wKgZomVwD_aAfwb3AAC6aEemKOQ326.jpg


智算力是创新力,AIGC与数字经济、实体经济的深度融合,将会创造出更多颠覆性的社会价值、经济价值,而浪潮信息将秉持开放、共享、共建的发展理念,抓住AIGC市场机遇,共同推进人工智能落地。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296681
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261564
  • 数字经济
    +关注

    关注

    2

    文章

    1117

    浏览量

    20101
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566
  • AIGC
    +关注

    关注

    1

    文章

    391

    浏览量

    3152
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    科学家”的构想富有颠覆性,通过自动化科学发现框架,AI能自主生成假说、设计实验、分析结果,将传统 “小作坊” 科研升级为 “批量生产创新
    发表于 07-28 13:54

    飞利信与浪潮信息达成战略合作

    近日,2025年浪潮信息北京ISP战略伙伴签约授牌仪式成功举办。浪潮信息与北京飞利信电子技术有限公司等22家战略合作伙伴达成签约,其中将面向北京人工智能应用大市场,在产品技术共创、行业场景深化及区域
    的头像 发表于 06-24 17:37 908次阅读

    天瞳威视与浪潮信息达成战略合作,推进高阶智驾车载计算系统创新

    北京2025年3月22日 /美通社/ -- 近日,苏州天瞳威视电子科技有限公司与浪潮信息旗下苏州元脑智能科技有限公司达成战略合作协议。此次合作依托浪潮信息提供的车载力平台硬件系统、底
    的头像 发表于 03-27 16:55 548次阅读
    天瞳威视与<b class='flag-5'>浪潮信息</b>达成战略合作,推进高阶智驾车载计算<b class='flag-5'>系统</b><b class='flag-5'>创新</b>

    AI 力报告来了!2025中国AI力市场将达 259 亿美元

    报告来源:IDC、浪潮信息2月13日,国际数据公司(IDC)携手浪潮信息,重磅发布《2025年中国人工智能计算力发展评估报告》。当下,大模型与生成
    的头像 发表于 03-07 13:27 1727次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>算</b>力报告来了!2025中国<b class='flag-5'>AI</b><b class='flag-5'>算</b>力市场将达 259 亿美元

    华为智实验室解决方案助力科研创新高质量发展

    AI浪潮席卷科研领域,以DeepSeek为代表的生成AI技术正掀起新一轮科研革命。华为基于其在AI
    的头像 发表于 02-25 16:22 1272次阅读

    浪潮信息存储SATA SSD:技术创新引领数据存储新时代

    在智慧时代,数据存储需求日益增长,对存储产品的性能和稳定性提出了更高要求。浪潮信息存储,作为行业内的佼佼者,积极响应市场需求,通过自主研发,不断积累技术优势,致力于为用户提供高性能、高稳定性的存储
    的头像 发表于 02-07 13:41 1013次阅读

    浪潮信息参编《中国金融科技发展报告(2024)》,为数字金融打造新型力底座

    北京2025年1月23日 /美通社/ -- 北京金融科技产业联盟组织中国金电、工商银行、中国银行、建设银行、浪潮信息、复旦大学等33家金融机构、科技公司、科研院所共同编制完成《中国金融科技发展报告
    的头像 发表于 01-24 10:23 640次阅读
    <b class='flag-5'>浪潮信息</b>参编《中国金融科技<b class='flag-5'>发展</b>报告(2024)》,为数字金融打造新型<b class='flag-5'>算</b>力底座

    浪潮信息存储SATA SSD:以技术创新,开启数据存储新篇章

    北京2025年1月23日 /美通社/ -- 在全球数字化转型的浪潮中,数据已成为驱动社会进步和创新的核心动力。随着互联网、人工智能、大数据等技术的飞速发展,全球数据量呈现爆炸增长。企
    的头像 发表于 01-24 10:02 699次阅读

    联想:共筑AI生态,引领数字创新

    入选“先锋榜·2024年度数字创新领军人物”。 在峰会上,分享了他对当前中国AI产业生态的看法。他指出,一个涵盖芯片、操作
    的头像 发表于 01-23 10:28 983次阅读

    浪潮信息与实验室合作部署42kW风冷力仓

    近日,浪潮信息与某知名实验室携手签署了合作协议,共同推进AI for Science领域的科研创新。根据协议内容,双方将采用先进的42kW智风冷
    的头像 发表于 01-09 14:18 728次阅读

    实验室部署42kW风冷力仓,加速AI for Science科研创新

    加速实验室开展高端装备制造相关科研成果产出与转化。 浪潮信息元脑42kW智风冷力仓,具备"高密度计算+高性能存储+高能效风冷"的"三高"优势,在限定场地、限定交付周期的条件下,全
    的头像 发表于 01-07 09:46 579次阅读

    浪潮信息与智源研究院携手共建大模型多元力生态

    人工智能技术的快速发展浪潮信息与智源研究院将充分整合各自在力、算法和技术创新方面的优势资源,共同探索大模型多元力的新应用和新模式。 目
    的头像 发表于 12-31 11:49 875次阅读

    浪潮信息剖析智能时代数据存储领域面临的挑战与机遇

    在当今数字化时代,力与存力的协同增长已成为驱动各行各业发展的关键力量。特别是在人工智能(AI)这一前沿领域,随着数据量的爆炸增长,对存储系统
    的头像 发表于 12-30 09:43 1196次阅读

    浪潮信息与智源研究院达成战略合作协议

    近日,浪潮信息与智源研究院达成战略合作协议,双方将紧密协作共建大模型多元力开源创新生态,提升大模型创新研发的力效率,降低大模型应用开发的
    的头像 发表于 12-26 10:25 898次阅读

    浪潮信息与17家元脑伙伴共签亿级分销协议

    。 此次签约标志着浪潮信息与这些元脑伙伴将在产品技术创新、市场拓展及解决方案等多个领域展开深入合作。双方将充分发挥各自优势,共同推动技术革新,加速智能化转型的步伐,为千行百业的数字化转型注入强劲动力。
    的头像 发表于 12-25 15:46 1192次阅读