0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI、游戏与通用计算,国产GPU的定位

E4Life 来源:电子发烧友网 作者:周凯扬 2022-11-11 09:31 次阅读
电子发烧友网报道(文/周凯扬)从去年国产GPU开始陆续冒尖后,今年各大厂商的动作明显更大了一些,新品频繁面世。但从这些新品的规格和技术来看,其实每家公司对于自己GPU产品的定位都是不同的,我们就选几家国产GPU厂商来分析一下他们的产品定位以及未来技术趋势。

摩尔线程

作为近期刚发布了新品的国产GPU厂商,摩尔线程确实收获了不少关注,他们最新的显卡MTT S80也一度成了热点话题。MTT S80作为一张游戏显卡,搭载了MT-春晓芯片核心,功耗最高250W,单精度浮点算力高达14.4TFLOPS。

不仅如此,MTT S80也是业内首个PCIe 5.0的显卡,支持双向128GB/s的传输带宽。更重要的是,哪怕标榜的是游戏显卡,MTT S80依然支持3D图形渲染、智能多媒体、物理仿真及科学计算和AI计算加速的全功能应用。
CleanShot 2022-11-10 at 17.25.49@2x
MTT S3000 / 摩尔线程

除了MTT S80以外,春晓这一芯片也为摩尔线程带来了面向服务器GPU市场的新产品,MTT S3000。单从芯片规格上来看,MTT S3000与MTT S80都用的是完整的MT-春晓芯片,都内置了4096个MUSA流处理单元,但前者将主频提高到了1.9GHz,FP32也因此提升到了15.2TFLOPS。

为了让MTT S3000更适用于服务器市场,摩尔线程也将其显存提升至了32GB,并增加了对虚拟化的支持,可对GPU弹性切分,MTT S3000也从MTT S80的主动散热改为了被动散热。

到了AI上,摩尔线程的MUSA架构和软件栈为MTT S3000提供了训推一体的支持。除了训练支持TensorFlow、PyTorch、飞桨等常见框架外,摩尔线程还在推理上打造了自研AI推理引擎TensorX,甚至推出了兼容CUDA源码的方案。

可以看出,摩尔线程不仅已经在游戏GPU市场有了弥足珍贵的进展,同样想在服务器市场实现突破,甚至是通过兼容CUDA来吸引更多的客户,这其实也是英伟达这样的GPU巨头主攻的两大方向。但兼容或对标CUDA一法,AMD英特尔这样的国际大厂也都在推进,却也都是各自为战,考虑到其中涉及的开发投入和难度之大,或许在软件生态上走合作之路会更适合。

芯动科技

在使用GPU这类产品的过程中,支持不同的图形与计算API对于开发者来说尤为重要。而芯动科技的风华GPU在这API上的支持尤为亮眼,目前已经完美支持到OpenGL 4.3、OpenGL ES 3.2、Vulkan 1.2和OpenCL 3.0,这也为风华GPU的开发生态奠定了基础。
IMG_256
芯动高性能接口IP / 芯动科技

虽然其产品性能本身已经足够亮眼,但风华GPU真正最大的优势在于芯动自研高性能接口IP上,包括高带宽内存(GDDR6x、HBM3)、高速SerDes(PCIe 5.0、CXL 2.0)和高清多媒体(HDMI 2.1、eDP 1.4)等等,同时这些IP也实现了对先进工艺的覆盖。而且芯动科技已经在最近推出了跨工艺、跨封装的Chiplet互联解决方案Innolink Chiplet,同时兼容UCIe Chiplet。

对于高性能GPU来说,如果说核心IP决定了性能上限的话,那么这些接口IP就决定了GPU能发挥出多少实力,以及是否能在未来的服务器市场大放异彩。目前看来,风华2号的定位是一款低功耗的GPU产品,更适合用于智能座舱之类的应用中,而风华1号则是面向服务器市场,尤其是像云游戏、云手机之类的场景。

可从规格来看,这两款一年以内发布的产品其实都还没有用到PCIe 5.0之类的新接口技术。芯动科技已经在8月公开表示,风华3号也已经基本完成研发,还支持光线追踪技术,据了解该产品和风华1号一样也是面向服务器/数据中心市场的,但或许还是会侧重在云游戏等商用场景上,相信我们会在未来的发布上看到风华3号更强大的性能表现。

壁仞科技

虽然壁仞科技最近遇上了一些麻烦,但不可否认的是,其BR100系列通用GPU芯片确实在性能上达到了极高的水准。与上面提到的两个GPU不同,BR100虽然是通用计算GPU,但明显更适合于AI和科学计算这样的高性能计算场景,所以BR100并没有去做DirectX和Vulkan这样的图形API支持。

这点从BR100的芯片设计上也能看出,单个BR100由16个流处理簇构成,每个都采用了16个执行单元的设计,而每个执行单元包含16个流处理核心(V-core)和一个向量引擎(T-Core)。V-Core作为SIMT处理器,支持到FP32、FP16、INT32、INT16,用于通用计算。

而T-core在SPC级别的2.5D GEMM架构下,可以极大加速常见的AI运算,诸如MMA矩阵乘加和卷积等。T-Core不仅支持FP32、TF32这些主流数据精度外,还原创定义了TF32+数据精度,相较TF32在实现更高精度的同时,也提高了吞吐性能。

从软件平台上看,壁仞科技的BIRENSUPA不仅支持PyTorch之类的主流框架,也有壁仞自研的推理加速引擎。从BIRENSUPA平台框图中的应用定位来看,壁仞科技的主要发力方向看来还是多媒体、自动驾驶推荐系统等重AI的场景。
IMG_256
壁仞100P OAM模组 / 壁仞科技

壁仞科技也是在一众国产PCIe产品中,唯一推出了OAM模组的厂商,壁仞科技也和浪潮合作推出了“海玄”这种OAM服务器,实现了8PFLLOPS的峰值算力。不过也正是因为实现了如此高的性能,似乎招致了一些恶意阻碍,但这也恰恰说明了他们走的方向是对的,如果他们能走出这一困境的话,无疑能在服务器市场大有作为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4417

    浏览量

    126705
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264054
收藏 人收藏

    评论

    相关推荐

    国产GPUAI大模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPUAI领域的重要性再次凸显。虽然相比英伟达等国际大厂,国产GPU起步较晚、声势较小。不过近几年,国内不少
    的头像 发表于 04-01 09:28 2429次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大模型领域的应用案例一览

    硅光计算芯片:AI芯片国产化的关键突破口

    大模型训练和推理的硬件以通用图形处理单元(GPU)为主,2022年全球GPU市场规模达到448.3亿美元,美国AI芯片巨头英伟达公司占有80%的市场份额并仍在持续攀升。
    发表于 01-19 14:12 458次阅读
    硅光<b class='flag-5'>计算</b>芯片:<b class='flag-5'>AI</b>芯片<b class='flag-5'>国产</b>化的关键突破口

    什么是第三代通用计算?既通用又高性能的计算存在吗?

    对大芯片来说,通用是成功的必由之路。CPU是通用芯片,成就了Intel的成功;GPU通用芯片,成就了NVIDIA的成功。目前,还没有看到做专用芯片非常成功的案例。
    发表于 12-12 10:16 179次阅读
    什么是第三代<b class='flag-5'>通用计算</b>?既<b class='flag-5'>通用</b>又高性能的<b class='flag-5'>计算</b>存在吗?

    ASIC和GPU,谁才是AI计算的最优解?

    电子发烧友网报道(文/周凯扬)随着AI计算开始有着风头盖过通用计算开始,不少芯片厂商都将其视为下一轮技术革新。CPU、GPU、FPGA和ASIC纷纷投入到这轮
    的头像 发表于 12-03 08:31 1428次阅读
    ASIC和<b class='flag-5'>GPU</b>,谁才是<b class='flag-5'>AI</b><b class='flag-5'>计算</b>的最优解?

    AMD游戏GPU架构的优势分析

    目前AMD的GPU 分为两个截然不同的产品领域,一个是针对游戏的,另一个是用于超级计算机、大数据分析和机器学习系统的。
    发表于 11-19 12:21 312次阅读
    AMD<b class='flag-5'>游戏</b><b class='flag-5'>GPU</b>架构的优势分析

    人工智能算力为什么需要GPU

    GPU前面加一个“GP”,就变为General-Purpose Computing on Graphics Processing Units,即通用计算图形处理器。我们去术语化,可以直接说这是一种用于处理非特定需求(通用类型)
    发表于 11-10 14:48 3842次阅读
    人工智能算力为什么需要<b class='flag-5'>GPU</b>?

    ARM Mali-T600系列GPU OpenCL开发人员指南

    GPU计算,或图形处理单元上的通用计算(GPGPU),是将GPU的并行计算能力用于3D图形渲染以外的任务的实践。 应用程序处理器被设计为尽可
    发表于 08-24 07:07

    主流国产gpu产品有哪些品牌(相关规格介绍)

    国产GPU 持续发力,对标行业龙头缩小差距。GPU 有两条主要的发展路线:分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 G
    发表于 08-10 10:16 2502次阅读
    主流<b class='flag-5'>国产</b><b class='flag-5'>gpu</b>产品有哪些品牌(相关规格介绍)

    省成本还是省时间,AI计算上的GPU与ASIC之选

    电子发烧友网报道(文/周凯扬)随着AI计算逐渐蚕食通用计算的份额,数据中心的硬件市场已经开始出现了微妙的变化。最抢手的目前已经成了GPU,反观CPU、ASIC和FPGA等硬件,开始成为
    的头像 发表于 07-17 00:01 986次阅读
    省成本还是省时间,<b class='flag-5'>AI</b><b class='flag-5'>计算</b>上的<b class='flag-5'>GPU</b>与ASIC之选

    对话天数智芯董事长兼CEO盖鲁江:国产通用GPU性能提升的四大抓手

    而言,核心三要素是算法、数据和算力,其中算力是底座。  对于算力而言,目前行业基本的共识是基于通用GPU来构建AI大模型的算力集群,上海天数智芯半导体有限公司(以下简称:天数智芯)是目前国内第一家实现
    的头像 发表于 07-11 01:07 2717次阅读
    对话天数智芯董事长兼CEO盖鲁江:<b class='flag-5'>国产</b><b class='flag-5'>通用</b><b class='flag-5'>GPU</b>性能提升的四大抓手

    龙芯入局显卡市场,已完成通用计算GPU相关IP设计

    该公司计划在 2024 年第一季度推出第一个集成自研通用计算 GPU 核的 SoC 芯片。此外,龙芯还将在此基础上开发兼顾显卡和计算加速卡功能的 GPGPU 芯片,并计划于同年下半年流片。
    的头像 发表于 06-26 17:08 476次阅读
    龙芯入局显卡市场,已完成<b class='flag-5'>通用计算</b><b class='flag-5'>GPU</b>相关IP设计

    你不了解的国产GPU,都处于什么水平?

    GPU(GPGPU)为根基,逐步涉足大模型应用,下面列举几家具有实力的国内GPU厂商。 登临科技 登临科技专注于高性能通用计算平台的芯片研发与技术创新,致力于打造云边端一体、软硬件协同、训练推理融合的前沿芯片产品和平台化基础系统
    的头像 发表于 06-26 14:03 2256次阅读
    你不了解的<b class='flag-5'>国产</b><b class='flag-5'>GPU</b>,都处于什么水平?

    智慧渲染,通用为“先”——象帝先推动 “通用、好用、高性能、自主可控” GPU解决方案

    GPU计算机系统的必需组件,而且随着应用场景的多样化,GPU已经成为智算时代最为重要的生产力组件。一颗标准的GPU不仅能满足日常的桌面显示、图形渲染功能,而且可以提供
    的头像 发表于 06-25 12:41 1186次阅读

    国产自主GPU架构“天狼星”在北京亮相

    GPU(Graphic Processing Unit)即图形处理器,是数字世界图形内容生成的基石,不管是桌面应用、游戏、电影、数字孪生还是元宇宙;与此同时,强大的并行计算能力业已成为各种应用加速
    发表于 06-19 10:31 546次阅读
    <b class='flag-5'>国产</b>自主<b class='flag-5'>GPU</b>架构“天狼星”在北京亮相

    国产计算GPU沐曦MXC500用时5小时完成功能测试

    而MXC系列GPU(曦云)主要用于AI训练及通用计算,MXG系列GPU(曦彩)用于图形渲染。而此次成功点亮的GPU型号据称是对标英伟达A10
    的头像 发表于 06-16 09:55 1570次阅读