0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

软件生态上超越CUDA,究竟有多难?

E4Life 来源:电子发烧友 作者:周凯扬 2024-06-20 00:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)近日,英伟达凭借持续上涨的股价,正式超过了微软成为全球市值最高的公司,这固然离不开GPU这一AI硬件的火热,但之所以能一举做到世界第一,也离不开软件的加持,真正将其推向神坛的,还是围绕CUDA打造的一系列软件生态。

英伟达——CUDA的绝对统治

相信对GPU有过一定了解的都知道,英伟达的最大护城河就是CUDA。CUDA在后端架构上处于绝对的统治地位,随着AI发展越快,英伟达GPU+CUDA的开发生态发展愈发壮大,甚至到了很多竞争对手望其项背的水平。CUDA自2006年推出以来,即便在AI和深度学习没有成为主流的时期,也在不断发展并行计算,为开发者提供丰富的库、工具和算法

时至今日,CUDA已经为全球开发者打造了一个庞大的社区,几乎所有的深度学习框架,包括TensorFlow、Pytorch等都对CUDA做了优化。为了尽快切入市场,绝大多数开发者都更倾向于选择CUDA作为首要计算平台。

与此同时,英伟达也在围绕着CUDA在硬件架构上做更深入的创新和升级,借助更先进的工艺和封装技术提升计算性能和效率。比如随着Volta架构中引入Tensor核心后,英伟达GPU的矩阵运算得到大幅加强,深度学习训练和推理的性能实现飞跃。两者结合之下,使得CUDA坐稳了第一的宝座。

在游戏软件领域,英伟达的DLSS可以说是市面上最先进的专有超分技术,且得益于持续的训练,每一次版本升级都能带来图形渲染领域的突破。

最后是生产力工具相关的软件生态上,英伟达在这块的优势就更加足了,过去苹果与AMD还在GPU上合作之际,不少生产力工具还是针对AMD的GPU做了不少硬件优化的。然而随着苹果走向Arm架构,英伟达慢慢在这个市场壮大起来。

无论是Adobe旗下的多媒体处理软件,还是一些独立开发商打造的软件,很多都有英伟达CUDA硬件加速的支持,甚至连英特尔的核显在一些软件支持上,都要好于AMD。正因如此,除了一些特效制作相关的工作外,工作站里的AMD GPU越来越少。

尽管谷歌、英特尔和高通等科技巨头也在寻找打破CUDA垄断地位的契机,但对于软件生态而言,合作并不一定意味着共赢,最后很可能只是为市场提供更多的可选择项,但在易用性、性能等方面,仍不如没有驻足一路狂奔的CUDA。

AMD

AMD对于其GPU软件生态则持以较为开放的态度,且极其重视开源开发社区。AMD的ROCm对标的正是英伟达的CUDA,但其并没有对硬件做出限制,除了Radeon、Instinct系列的GPU外,也在扩展至其他硬件厂商的设备。这也得益于AMD没有在硬件内引入Tensor核心这样的专有硬件,但也正是因为如此,导致其ROCm在某些任务上略显逊色。

ROCm作为开源平台,也提供多种库和框架支持,也有一整套的开源工具链。正因如此,在HPC和云计算等领域,厂商其实更宁愿使用AMD的GPU,而不必要忍受英伟达的专用软件栈。但苦于英伟达先行的软件生态,他们不得不首选英伟达的GPU。

AMD即便有了ROCm,整体软件生态的成熟度依然不敌英伟达,对于HPC中部分不以商业成功为目标的项目而言,AMD已经斩获了不少份额,比如TOP500中前十的几台超算。但以整个TOP500榜单来看,英伟达依然占据主导地位。然而对于云供应商来说,短时间内依然没法摆脱英伟达的统治,因为租用这些云服务的客户们,更愿意在英伟达的CUDA平台上开发。

在驱动软件上,尤其是针对Linux的显卡驱动,AMD采取了开源和闭源两条路线,持续更新闭源驱动的同时,也允许开源社区定制化开源驱动。以基于Linux系统中AMD Radeon显卡打造的Vulkan驱动AMDVLK为例,就支持了光线追踪。然而,尽管开源驱动由于手动配置和社区贡献的原因,兼容性要更高一些,但如果追求的是更高的性能,那么闭源驱动还是更具优势。

摩尔线程

国产GPU主要分为两个方向,分别是支持图形渲染的和不支持图形渲染的,后者仍然想在AI领域内突破,前者在推进C端产品的同时,也在布局B端的一系列AI GPU产品。在国产GPU产品中,在软件生态上做得比较好的当属摩尔线程了,他们在AI和图形渲染上的软件支持都有喜人的进展。

基于MUSA这一统一架构,摩尔线程打造了MTT S80这样的桌面显卡,以及面面向服务器应用的MTT S3000等。与之配套的,是摩尔线程打造的软件开发平台,包括AI开发平台、MUSA SDK、MT Smart Media和MTVerse XR等。

而且摩尔线程打造的这套生态架构中,可以充分兼容现有软件生态,借助MUSIFY工具实现代码零成本迁移到MUSA平台。与AMD的ROCm一样,MUSA做的也是兼容CUDA的路线,而不是像ZLUDA一样重新编译二进制代码,所以并不违反英伟达的EULA条款。

从摩尔线程近来官方发布的消息看来,他们在AI上选择了逐步对大模型完成适配支持的路线。在摩尔线程的夸娥千卡智算集群上,他们已经完成了30亿到700亿参数的大模型训练和推理适配。摩尔线程的GPU在算力上对比国际大厂还是略有逊色,不过随着未来他们在IP、硬件设计上进一步突破,相信他们也能打造出高性能的AI算力底座。

在针对消费级图形显卡的驱动程序上,摩尔线程也在不断更新优化性能。以5月底发布的v260.70版本驱动为例,除了提供对OpenGL 4.0功能的支持和优化Blender 3.6 LTS体验外,也为诸多热门游戏在DirectX 11下的性能做了明显优化。尽管这类驱动更新的规模比起英伟达还有所差距,但也代表了厂商持续优化性能表现的决心。

写在最后

其实从越来越多的厂商进军GPU,越来越多的GPU厂商发力AI就可以看出,即便CUDA有着深厚的生态积累,但在日新月异的AI中,其他厂商仍有分一杯羹的机会,甚至可能在某个应用中后来者居上。但在图形渲染相关的软件生态上,厂商面临的技术壁垒更加厚。不仅要带着钻研十数年的决心,还要持续打磨硬件产品,与产业软件生态圈合作,挖掘和培养更多的图形研究人才。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5351

    浏览量

    136345
  • CUDA
    +关注

    关注

    0

    文章

    128

    浏览量

    14599
  • 英伟达
    +关注

    关注

    23

    文章

    4150

    浏览量

    99899
  • 软件生态系统

    关注

    0

    文章

    9

    浏览量

    7219
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RV生态又一里程碑:英伟达官宣CUDA将兼容RISC-V架构!

    电子发烧友网报道(文/梁浩斌)英伟达生态护城河CUDA,从最初支持x86、Power CPU架构,到2019年宣布支持Arm CPU,不断拓展在数据中心的应用生态。 在2019年至今的六年
    的头像 发表于 07-19 00:04 6987次阅读
    RV<b class='flag-5'>生态</b>又一里程碑:英伟达官宣<b class='flag-5'>CUDA</b>将兼容RISC-V架构!

    润和软件亮相2026开放计算ROCm生态大会

    4月18日,2026开放计算ROCm生态大会在中国(南京)软件谷成功举办。本次大会以“开源共生 智能共赢——构建开放AI新生态”为主题,由AMD ROCm Lab主办,南京市工业和信息化局、中国
    的头像 发表于 04-22 17:20 642次阅读
    润和<b class='flag-5'>软件</b>亮相2026开放计算ROCm<b class='flag-5'>生态</b>大会

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的一大优势是允许开发者基于其构建自定义的 DSL。
    的头像 发表于 02-10 10:31 685次阅读

    声智科技亮相2026瑞芯微AI软件生态大会

    近日,瑞芯微 AI 软件生态大会在福州召开,这场大会汇聚了各行各业逾500位AI软件生态伙伴,包括业内主流的基座模型伙伴、头部AI软件/算法
    的头像 发表于 02-01 10:25 775次阅读

    如何在NVIDIA CUDA Tile中编写高性能矩阵乘法

    本博文是系列课程的一部分,旨在帮助开发者学习 NVIDIA CUDA Tile 编程,掌握构建高性能 GPU 内核的方法,并以矩阵乘法作为核心示例。
    的头像 发表于 01-22 16:43 5498次阅读
    如何在NVIDIA <b class='flag-5'>CUDA</b> Tile中编写高性能矩阵乘法

    NVIDIA CUDA Tile的创新之处、工作原理以及使用方法

    NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,这是自 2006 年 NVIDIA CUDA 平台发明以来,最大的一次技术进步。这一令人振奋的创新引入了一套面向
    的头像 发表于 12-24 10:17 797次阅读
    NVIDIA <b class='flag-5'>CUDA</b> Tile的创新之处、工作原理以及使用方法

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用比 SIMT
    的头像 发表于 12-13 10:12 1607次阅读
    在Python中借助NVIDIA <b class='flag-5'>CUDA</b> Tile简化GPU编程

    NVIDIA CUDA 13.1版本的新增功能与改进

    NVIDIA CUDA 13.1 是自 CUDA 二十年前发明以来,规模最大、内容最全面的一次更新。
    的头像 发表于 12-13 10:08 2611次阅读

    首款全国产训推一体AI芯片发布,兼容CUDA生态

    CUDA生态体系。该芯片支持从单机多卡到千卡级集群的灵活扩展,能效比达3.41 TFLOPS/W——在同等功
    的头像 发表于 11-30 07:20 9981次阅读
    首款全国产训推一体AI芯片发布,兼容<b class='flag-5'>CUDA</b><b class='flag-5'>生态</b>

    弱电智能化中究竟有多少个子系统?

    子系统,每个子系统都承担着特定的功能,共同为建筑提供全面的智能化服务。随着技术的不断进步,弱电智能化系统的子系统也在不断发展和完善。那么,弱电智能化中究竟有多少个子系统呢?本文将详细列举并介绍这些子系统。 一
    的头像 发表于 11-24 09:57 1669次阅读
    弱电智能化中<b class='flag-5'>究竟有</b>多少个子系统?

    中科芯亮相2025智能汽车基础软件生态大会

    此前,8月28日—29日,2025智能汽车基础软件生态大会暨第四届中国汽车芯片大会在重庆召开。作为2025世界智能产业博览会系列活动,大会以“开源拓界 众行致远”为主题,来自政、产、学、研、用等领域的500多位专家、学者和企业代表共同探讨开源共建模式的深化应用、
    的头像 发表于 09-29 11:01 1281次阅读

    AUTOSAR亮相2025智能汽车基础软件生态大会

    此前,8月28日—29日,2025智能汽车基础软件生态大会暨第四届中国汽车芯片大会在重庆召开。作为2025世界智能产业博览会系列活动,大会以“开源拓界 众行致远”为主题,来自政、产、学、研、用等领域的500多位专家、学者和企业代表共同探讨开源共建模式的深化应用、
    的头像 发表于 09-22 14:33 1201次阅读

    润和软件及润开鸿出席鸿蒙生态大会2025

    )理事单位及鸿蒙生态核心伙伴,江苏润和软件股份有限公司(以下简称“润和软件”)及旗下子公司江苏润开鸿数字科技有限公司(以下简称“润开鸿”)共同出席大会,参与见证多项重磅标准发布,并通过行业议题分享、创新场景成果展示等呈现了自身面
    的头像 发表于 09-06 19:14 3021次阅读

    普华基础软件亮相2025智能汽车基础软件生态大会

    8月28日—29日,2025智能汽车基础软件生态大会暨第四届中国汽车芯片大会在重庆渝州宾馆盛大召开。29日上午举办的2025智能汽车基础软件生态大会上,来自政、产、学、研、用等领域的5
    的头像 发表于 09-03 16:43 1643次阅读

    Microsoft AD究竟有多重要

    勒索软件攻防已成一场永无止境的猫鼠游戏——在IT和安全团队不断提升能力的同时,攻击者也在不断寻找新的攻击路径,而AD作为集中管理的核心要素,已成为勒索软件攻击的主要目标和执行路径。
    的头像 发表于 07-22 13:57 940次阅读