0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

搭建万卡GPU集群,小米AI大模型即将全力启动

Simon观察 来源:电子发烧友网 作者:黄山明 2024-12-29 00:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/黄山明)近日,有媒体报道,小米正在着手搭建自家的GPU万卡集群,将对AI大模型加大投入。该计划已进行数月,据悉小米大模型团队在成立之初便已拥有6500张GPU资源,小米创始人兼董事长雷军在该团队扮演重要的领导角色。

高性能计算是大模型发展的基础,而GPU在其中扮演重要作用。随着AI在如今社会中发挥着越来越重要的作用,应用领域不断扩展,需要的计算资源也越来越多,因此对于GPU的需求也在不断上升。

小米搭建万卡GPU集群,加大AI大模型投入

如今我们生活中已经有不少领域开始充斥着AI的身影,包括AI配音、AI影像、AI图片、AI导航,以及不少人正在使用的免费AI大模型等。但相比ChatGPT、豆包、Kimi、通义千问等知名度不小的大模型,小米的MiLM显得相对低调。

这是一款在今年5月份才正式通过大模型备案的小米大预言模型,小米宣布将把相关模型逐步应用于小米汽车、手机智能家居等产品中,后续“将面向更多用户开放体验”。

而到了近期,市场更是传出小米准备搭建GPU万卡集群,决心加大对AI的投入。但搭建GPU的万卡集群并不容易,一方面在于昂贵的成本。训练AI大模型通常需要使用高性能的GPU芯片,如英伟达的A100、H100等。

这些高端芯片的单价本身就非常高,A100芯片价格约9万元一张,H100阉割后的HGX H20渠道价格约11万一张,而万卡集群需要至少一万张以上的GPU卡,仅芯片采购成本就可能达到数十亿元。

并且除了GPU芯片本身,构建万卡集群还需要大量的配套硬件设备,如服务器、存储设备、网络设备等。这些设备的采购和安装成本也相当恐怖,进一步增加了总体投入。

而之所以需要GPU万卡集群,是因为AI大模型通常包含数十亿乃至数万亿的参数,例如GPT-3就有1750亿个参数,训练和推理过程中需要进行海量的矩阵运算和复杂的数学计算。如此大规模的计算任务,单张GPU的计算能力远远无法满足,需要借助GPU万卡集群并行计算来加速。

当然,这些技术的出现,其实并非突然,而是早有布局。小米早在2016年便开始组建第一只视觉AI团队,逐步建立了视觉、语音、声学、知识图谱、NLP、机器学习、多模态等AI技术能力。

到2017年,小米正式发布了智能语音助手“小爱同学”。尽管当时的AI技术和现在相比可能显得较为基础,但小爱同学已经运用了语音识别、NLP、机器学习等核心技术来实现人机交互。

去年4月份,小米成立AI实验室大模型团队,初始团队便拥有6500张GPU资源。并认为栾剑担任该团队的负责人,栾剑此前曾任东芝(中国)研究院研究员、微软(中国)工程院高级语音科学家、微软小冰首席语音科学家及语音团队负责人等职位。

并且在近期,有消息称DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉将加入小米,有望进一步加强小米AI大模型团队实力。

端侧拥抱AI已成共识,小米具备重大优势

国内目前已经有多家企业开展了万卡集群的建设,例如华为昇腾、科大讯飞、中国电信、中国移动等,其中中国电信在上海、北京两个万卡集群已经投产,而中国移动位于呼和浩特、哈尔滨两大万卡级别的智算中心也已经先后投产运行。

更别说百度等公司已经在探讨构建十万卡集群,有业内人士认为,市场中很快便会有更多的十万卡集群出现。

另一方面,海外则更加激进。例如由马斯克旗下xAI公司打造的xAI Colossus 超级AI集群,拥有10万个英伟达H100 GPU。其第一阶段建设已完成并全面上线,未来计划增加5万张H100 GPU和5万张下一代H200 GPU,届时GPU总数将翻倍。

OpenAI正在设计能够将1000万块GPU连在一起的计算模型,Meta CEO扎克伯格曾在年初宣布,计划购买35万块英伟达H100 GPU,将Meta的算力扩展到相当于60万块英伟达H100 GPU的水平。

与此同时,越来越多的企业开始更为注重AI,包括理想汽车创始人李想此前公开表示,理想汽车不仅是一家汽车制造企业,更是一家AI企业。

加上如今的AI手机、AI手表、AIPC甚至智能汽车等,这些端侧产品均在积极拥抱AI,AI的加入也为这些产品带来了更多的差异化与个性化,甚至有望成为未来产品体验差异的分水岭。

而相比其他企业,小米拥有一项重大的优势,其AI大模型可以与自身的“人车家”战略完美契合,甚至可以说AI大模型的加入,让小米“人车家”全生态完成了最后一项闭环。

从手机到智能家居,再到新能源汽车,小米均有涉猎,并且大多已经成为行业中的主要参与者,例如小米为全球第三大手机厂商,米家更是全球最大的智能家居平台,其中小爱音箱以超过40%的市场份额稳居中国智能音箱榜首。

小米汽车更是后来居上,不仅屡屡出圈,自今年3月份发布以来,有望在今年内实现超过13万辆的交付成绩,为小米集团贡献近百亿元的营收。同时小米汽车更是小米集团独资控股,保证了小米汽车能够贯彻未来小米集团的发展方向。

另一方面,雷军不仅是小米的创始人,如今依然是金山软件的董事长,意味着未来小米AI大模型有望在WPS等办公软件中布局。

从硬件端的互联网入口,到办公软件、游戏等领域,都已经为小米的MiLM大模型预留足够的发展空间,这是许多AI大模型企业没有的巨大优势。不仅保障了未来小米AI大模型的迭代升级,同时也解决了其数据归属问题,进一步加速AI大模型的升级。

总结

从小米过往布局新赛道的步伐来看,通常是确定了某个赛道已经得到市场验证,并相对成熟再决定进入。进入赛道后,再利用小米集团的自身优势,迅速做大做强。如今小米采用万卡集群,加大投入到AI大模型领域,意味着不久后便有望看到该模型的普及。也期待未来市场中小米AI大模型的表现。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136065
  • 小米
    +关注

    关注

    70

    文章

    14547

    浏览量

    152586
  • AI大模型
    +关注

    关注

    0

    文章

    407

    浏览量

    1038
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Java并发编程的“基石”——多线程概念初识

    之下,隐藏着一个庞大而复杂的“算力帝国”。如何将成千上GPU 的算力精准、高效地分配给无数个并发的 AI 任务?这便是 AI 算力调度的核心使命。在这个看似属于 Python 和
    发表于 04-16 18:50

    中科曙光6AI4S计算集群:用 "超智融合" 重塑科学计算叙事

    电子发烧友网报道(文 / 吴子鹏)4 月 14 日,国内最大规模的 AI for Science(AI4S)计算集群在郑州国家超算互联网核心节点投入使用。这个由中科曙光打造、集成 6
    发表于 04-16 15:59 5135次阅读

    中国电信与阿里云共建粤港澳大湾区首个真武智算集群上线

    近日,由中国电信联合阿里云建设的粤港澳大湾区首个真武智算集群在韶关数据中心正式上线。
    的头像 发表于 04-15 10:47 401次阅读

    国内最大规模6AI4S计算集群投入使用

    4月14日,中科曙光提供的6科学智能(AI for Science)计算集群系统,在位于郑州的国家超算互联网核心节点投入使用。作为国内最大的AI
    的头像 发表于 04-14 16:19 1540次阅读
    国内最大规模6<b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>AI</b>4S计算<b class='flag-5'>集群</b>投入使用

    国内首个国产AI推理千集群落地,采用云天励飞全自研AI推理芯片

    3 月 12 日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速,建设国产AI推理千
    发表于 03-12 11:10 1319次阅读

    中科曙光scaleX集群专项测试任务已突破300项

    国家超算互联网核心节点上线试运行并启动邀测计划以来,一场依托国产“AI算力的创新验证正全面推进。短短一个月,已吸引高校、科研院所、企业等多领域超3000位用户踊跃参与测试。
    的头像 发表于 03-06 16:16 926次阅读

    中科曙光3套scaleX集群落地国家超算互联网郑州核心节点

    2月5日,由中科曙光提供的3套集群系统在国家超算互联网郑州核心节点同时上线试运行,成为全国首个实现3部署、且实际投入运营的最大国产
    的头像 发表于 02-09 10:32 714次阅读

    中科曙光scaleX集群重塑超大规模算力基础设施

    在“人工智能+”行动深入推进的当下,算力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX集群打造的智能管理体系,正以“能管住-管得
    的头像 发表于 01-30 15:43 967次阅读

    中科曙光scaleX集群背后的持续创新

    智算集群的发展浪潮正以超乎想象的速度袭来,未来五年,十万级的算力集群将成为标配。但一个核心挑战也随之而来:当成千上的芯片紧密堆叠,如何将产生的巨额热量快速带走?
    的头像 发表于 01-19 14:49 791次阅读

    部分能力超越2027年NVL576,中科曙光发布scaleX集群

    2025年12月18日,在昆山举行的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光发布并展出了全球领先的大规模智能计算系统——scaleX集群,这也是国产
    发表于 12-18 18:30 1176次阅读
    部分能力超越2027年NVL576,中科曙光发布scaleX<b class='flag-5'>万</b><b class='flag-5'>卡</b>超<b class='flag-5'>集群</b>

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。AI工厂依赖超大规模
    发表于 08-13 19:01

    燧原科技国产集群通过中国信通院权威认证

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开智算集群服务推进方阵年中总交流会。会议期间,中国信通院重磅发布了首批《大规模智算集群服务成熟度》评估结果。燧原科技作为算力
    的头像 发表于 07-04 16:50 1341次阅读

    弘信电子旗下燧弘华创加入智算集群服务推进方阵

    近日,中国信息通信研究院在北京召开智算集群服务推进方阵(ICCPA)年中总结交流会。会上为第二批成员单位办法证书,发布一系列产业研究成果,并通过深度交流研讨,凝聚产业共识,规范产品建设体系,
    的头像 发表于 07-03 15:43 1000次阅读

    智算加速是什么东西?它真能在AI战场上干掉GPU和TPU!

    随着AI技术火得一塌糊涂,大家都在谈"大模型"、"AI加速"、"智能计算",可真到了落地环节,算力才是硬通货。你有没有发现,现在越来越多的AI企业不光用
    的头像 发表于 06-05 13:39 1887次阅读
    智算加速<b class='flag-5'>卡</b>是什么东西?它真能在<b class='flag-5'>AI</b>战场上干掉<b class='flag-5'>GPU</b>和TPU!