0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI服务器市场规模持续增加,国内存在哪些算力瓶颈?

Carol Li 来源:电子发烧友网原创 作者:李弯弯 2023-03-13 09:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)近年来,在全球数字化、智能化的浪潮下,智能手机自动驾驶、数据中心、图像识别等应用推动 AI服务器市场迅速成长。根据 IDC 数据,2021 年全球 AI 服务器市场规模已达到 145 亿美元,并预计 2025 年将超过 260 亿美元。

近段时间ChatGPT概念的火热,更是对算力基础设施的需求起到了带动作用。宁畅副总裁兼CTO赵雷此前在接受媒体采访的时候表示,ChatGP的训练和部署,都需要大量智能计算数据存储以及传输资源,计算机基础设施、算力等上游技术将因此受益。

ChatGPT有着多达1750亿个模型参数。在算力方面,GPT-3.5在训练阶段消耗的总算力约3640PF-days。在应用时,ChatGPT仍然需要大算力的服务器支持。ChatGPT的持续爆火也为AIGC带来全新增量,行业对AI模型训练所需要的算力支持提出了更高要求。

宁畅是一家集研发、生产、部署、运维一体的服务器厂商,及IT系统解决方案提供商。该公司早早就开始着重发力于人工智能服务器和液冷服务器。赵雷表示,公司目前在用的、在研的人工智能和液冷服务器,包括明年还将推出的浸没液冷服务器,刚好跟上算力高速增长的市场需求。公司随时准备着为客户提供合适的高算力产品和解决方案。

在人工智能服务器方面,宁畅已经推出多款产品,包括X620 G50、X660 G45、X640 G40、X620 G40。X620 G50适用于机器学习、AI推理、云计算、高性能计算等场景;660 G45是专门为深度学习训练开发的高性能计算平台;X640 G40是兼备训练与推理功能的全能型GPU服务器;X620 G40性能提升的同时支持PCIe 4.0高速总线技术,完美支持NVIDIA各类最新型GPU加速服务,是最为理想的AI推理平台。

在液冷服务器方面,宁畅推出了三款冷板式液冷服务器,包括产品B5000 G4 LP、X660 G45 LP、R620 G40 LP,范围覆盖了高密度、通用机架以及人工智能服务器产品,可满足科学计算、AI训练、云计算等众多IT应用场景,可满足用户不同需求。

作为服务器厂商需要给下游互联网客户提供怎样的产品和服务呢?对于服务器厂商来说,不只是要提供服务器硬件或者基础设施,还要有对应的服务能力。

从服务层面来看,在用户现场会关注什么呢,比如说核心业务,会关注业务的在线率,不管服务器坏不坏,整个业务的运行是要有弹性的、灵活的,不会给客户造成影响的。就以百度、微信这些业务为例,大家几乎不会看到微信不能用了,或者百度搜索不反馈结果了。

赵雷表示,对于服务器厂商来说,要做的是在服务层面能够快速响应,不管是采用现场备件模式,机房备机模式,还是驻场人员巡检的模式,都需要做到24小时的快速响应。这是纯粹的服务方面,也就是说,在互联网搭建业务连续性良好的基础上,服务器厂商能够将故障和快速维修的能力做到极致,有效地支撑客户的前端应用。

从产品层面来看,对于每个硬件子系统在设计研发过程中,都需要从易维修和低故障角度去思考如何将产品做得更好。宁畅在这方面做了很多工作:首先,现在冷却方式是影响故障率比较重要的因素,因为温度太高故障率就会高,宁畅的精密风冷和液冷的方式,能够有效地降低芯片和对应组件的故障率。

其次,其精密六维减震模式,能够有效提升硬盘的性能,降低故障率;接着是,采用DAE的散热器,从散热的维度有效降低光模块的故障率。同时CPU、GPU的液冷可以有效降低CPU、GPU的故障率;通过内存的漏斗,内存的故障筛选或者在线隔离技术,有效地降低内存的故障率;另外还在板卡走线、机箱结构方面进行了优化设计。

此外还有整机BMC易管理特性,赵雷认为,任何东西不可能不坏,有毛病是不可避免的,坏了以后,如何快速通知客户或者维护人员维修时关键。BMC有一个完善的通知机制,邮件自动通知、SMP远程告警、IPMI告警等。宁畅按照互联网客户的需求定制,将其融入整个机房的运维系统,出现故障以后可以第一时间通知去维修。

虽然目前国内有不少优秀的服务器、云厂商等,不过整体来看,国内的算力仍然存在瓶颈,比如,总体算力不够,算力的分布不平均。部分客户算力过剩,部分客户算力不足。或者A时间算力过剩,B时间算力不足,这是算力协调的问题。

短期来看这个问题要靠云技术解决,长期来看是要提供过剩的算力。也就是说,需要云技术去平衡协调算力不均匀的问题,还需要提供算力、算力效率等。

再比如算力成本高的问题,虽然目前每单位算力单价下降了,但是过去几年服务器的平均售价一直上涨。赵雷认为,可能算力类型单一,不太能够有效地支撑高速增长的模式,可能要有各种各样不同类型的算力。比如ChatGPT,是不是可以做针对GPT模型专门的ASIC。算力的应用类型越窄,它的效率就会越高,越通用,效率就越低。

整体而言,过去几年在全球数字化、智能化浪潮下,市场对算力的需求不断增加。ChatGP的出现更是让行业对算力提出了新的要求。国内服务器厂商在对人工智能行业提供算力支持方面已经有所准备。不过从目前的情况来看,国内在算力方面仍然存在一些瓶颈,比如算力分布不均匀,成本高等问题。后续还需业界共同去探讨解决。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    13

    文章

    10097

    浏览量

    90907
  • AI
    AI
    +关注

    关注

    90

    文章

    38189

    浏览量

    297003
  • 算力
    +关注

    关注

    2

    文章

    1389

    浏览量

    16566
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    天波科普:超过30T的边缘计算服务器可以做什么?

    网关的能力边界,也涉及到高低。那么,目前边缘计算服务器到多少算高呢?以广东天波AI边缘
    的头像 发表于 09-28 11:18 446次阅读
    天波科普:<b class='flag-5'>算</b><b class='flag-5'>力</b>超过30T的边缘计算<b class='flag-5'>服务器</b>可以做什么?

    不够、交付太慢?捷智裸金属租赁对标物理机性能,让你立马用上高

    2025年国产大模型升级带动租赁需求爆发,高性能服务器“一机难求”。中研普华预测,今年我国
    的头像 发表于 09-12 20:06 1080次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不够、交付太慢?捷智<b class='flag-5'>算</b>裸金属租赁对标物理机性能,让你立马用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    达实智能如何打造绿色中心标杆

    液冷是计算机科学技术领域通过液体介质实现电子设备散热的核心技术。根据IDC(国际数据公司)发布的数据,2025全年中国液冷服务器市场规模将达到33.9亿美元,预计2025年至2029年,中国液冷服务器
    的头像 发表于 09-09 16:44 1392次阅读

    多达 48 个计算节点!Firefly 推出 CSC2-N48 AI 服务器

    Firefly最新推出CSC2-N48服务器,内置48个分布式计算节点,单节点可提供6TOPS-157TOPS,可选瑞芯微、
    的头像 发表于 08-20 16:37 1283次阅读
    多达 48 个计算节点!Firefly 推出 CSC2-N48 <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b>

    AI 服务器电源如何迭代升级?

    AI 需求增长的今天,AI 服务器电源正陷入 “性能瓶颈与国产替代并行、场景适配与技术创新
    的头像 发表于 06-23 14:51 880次阅读

    浅谈 IPv6 行业市场规模与增长趋势

    年,IPv6市场规模将突破300亿美元。全球IPv6市场规模及增长预测从区域市场来看,亚太地区将成为全球IPv6市场规模增长最快的区域,预计到2030年,其
    的头像 发表于 05-20 09:17 916次阅读
    浅谈 IPv6 行业<b class='flag-5'>市场规模</b>与增长趋势

    RAKsmart服务器如何赋能AI开发与部署

    AI开发与部署的复杂性不仅体现在算法设计层面,更依赖于底层基础设施的支撑能力。RAKsmart服务器凭借其高性能硬件架构、灵活的资源调度能力以及面向AI场景的深度优化,正在成为企业突破
    的头像 发表于 04-30 09:22 605次阅读

    AI服务器硬件攻坚战,从时钟缓冲到电容,解决功耗、带宽、散热难题

    市场前景广阔,全球AI服务器预计2023年市场规模将达到1500亿−2000亿美元,复合年增长率约为28%-32%。                                  
    的头像 发表于 04-28 01:09 4641次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>硬件攻坚战,从时钟缓冲到电容,解决功耗、带宽、散热难题

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的突破

    近年来,随着千亿级参数模型的崛起,AI训练对的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶颈
    的头像 发表于 04-24 09:27 616次阅读

    智能服务器应用领域

    智能服务器应用领域 一、‌金融行业‌ 智能风控与投顾‌:通过集群支撑AI模型训练,实现风
    的头像 发表于 04-21 09:09 1238次阅读
    智能<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>服务器</b>应用领域

    RAKsmart服务器如何重塑AI高并发格局

    AI大模型参数量突破万亿级、实时推理需求激增的当下,传统服务器架构的并发处理能力已逼近物理极限。RAKsmart通过“硬件重构+软件定义”的双引擎创新,推出新一代AI服务器解决方案。
    的头像 发表于 04-03 10:37 696次阅读

    DeepSeek推动AI需求:800G光模块的关键作用

    随着人工智能技术的飞速发展,AI需求正以前所未有的速度增长。DeepSeek等大模型的训练与推理任务对的需求
    发表于 03-25 12:00

    国产推理服务器如何选择?深度解析选型指南与华颉科技实战案例

    人工智能技术的爆发催生了对推理算的迫切需求,而进口服务器的高成本与技术依赖性,推动了国产推理服务器的快速发展。据IDC预测,到2025年,中国AI推理
    的头像 发表于 03-24 17:11 945次阅读
    国产推理<b class='flag-5'>服务器</b>如何选择?深度解析选型指南与华颉科技实战案例

    千亿规模AI数据中心,电感如何提高电源效率?

    市场规模为1251亿美元,2025年将增至1587亿美元,2028年有望达到2227亿美元。其中,生成式人工智能服务器占比将从2025年的29.6%提升至2028年的37.7%。   在数据中心规模增长的同时,也面临着能源问题。
    的头像 发表于 03-15 00:53 2112次阅读

    Firefly 服务器系列:覆盖多个领域的高解决方案

    服务器覆盖60~1570TOPS强劲,支持Transformer架构下大语言模型的私有化部署,如Gemma-2B、ChatGLM3
    的头像 发表于 02-19 16:34 1376次阅读
    Firefly <b class='flag-5'>服务器</b>系列:覆盖多个领域的高<b class='flag-5'>算</b><b class='flag-5'>力</b>解决方案