0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

做通用GPU究竟有多难?

硬件设计 2019-12-31 23:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

根据“牧村波动”(Makimoto’s Wave)显示,半导体产品未来可能将沿着“标准化”与“定制化”交替发展的路线前进,每十年波动一次。2020 年将至,过去数年我们一直在呼唤AI 芯片和高性能计算芯片,如果 “牧村波动”仍然奏效,那么下一个波峰将是超高灵活度集成的芯片。而这也解释了为什么英伟达所开创的GPGPU在过去几年里赚的钵满盆满。

其实仔细想想,除了“牧村波动”所昭示的进化规则,通用GPU之所以能够成为当前的主流趋势,并引来众多企业趋之若鹜,至少有一明一潜两大驱动因素。明面上,现在是异构计算的天下,近年来传统以CPU为核心的服务器市场增长比较平缓,而GPU服务器的增速迅猛,年增长率据称超60%。

潜在因素,5G时代的到来推动了物联网的迅猛发展,应用场景更加丰富多元,这要求云端的计算资源能应对各种复杂场景的需求提供丰富灵活的计算支撑,工程师们肯定更愿意将能“通吃”的芯片焊在服务器上。

打铁还需自身硬

想要吃到通用GPU这份蛋糕还是需要企业有足够深厚的功底。相较于开发定制化的AI芯片等,通用GPU在技术上有更高的难度。从硬件角度看,最核心的是指令集。指令集的覆盖面、颗粒度、效率等决定一款芯片能否覆盖到足够宽的应用市场领域,并对软件开发和产品迭代足够友好。无论是英伟达还是AMD的GPGPU,指令集都在千条量级,而目前国内的AI芯片指令集大多数都在百条以内。类型与数量的差别映射到硬件高效实现的复杂程度,差距是巨大的,在这方面国内的团队还存在着一定的差距。另一个重要方面就是基于硬件层的任务管理和智能调度,这可以让芯片从硬件层即提高算力的利用率,也就是大家常说的实际算力。大多数AI芯片的做法是完全依赖于软件层的调度实现,但这种方式第一增加了软件开发的复杂度,第二降低了硬件算力的利用率,第三减缓了软件栈迭代更新的速度,这在AI领域,面向算法模型、开发环境、应用场景加速更新的大背景下无疑大大增加了产品落地与工程化的难度。

在软件方面,毫无疑问,最重要的必然是开发生态,GPGPU通过英伟达十多年的耕耘,已经建立起了一个超过160万开发用户的庞大而成熟的生态-CUDA。AI芯片则需要搭建全新的生态,它会带来两个维度显著的问题,第一个维度是客户端,客户需要冗长的适配期,从原有的开发环境切换到新的软件生态,这不仅带来了资源投入,推迟了业务部署时间窗口,增加了业务的不确定性,更严重的是不利于保护已有的软件投资,软件的很多部分都要重新来写并适配,这对企业级用户来讲恰恰是非常敏感与慎重的事情。另一个维度是产品开发端,从底层芯片与系统软件,跳过CUDA层去直接支持开发框架,必然带来巨大的软件投入,不停得追赶现有框架的新版本,以及生态巨头的新框架,这在底层软件人员缺乏的背景下矛盾显得尤其突出。

而以上两点说到底都是需要人来解决的,恰恰在这方面的人才是目前中国企业最缺少的。目前只有英伟达和AMD拥有丰富的团队,这也侧面证明了为什么Intel自己折腾几年,最后还是请了原AMD RTG显卡部门负责人Raja、Zen架构的功勋领袖Jim Keller、显卡技术市场总监Damien Triolet这几位大神。

曲线救国还是正面突破?

围绕GPGPU,国外已是龙争虎斗,反观国内,能够洞悉GPGPU发展机遇并付诸行动的芯片厂商少之又少。

华为是为数不多看到通用GPU趋势的芯片厂商之一,而且看起来正在尝试两条腿走路通往GPGPU的路上。一条路是,华为通过其在手机芯片方面的积累,希望从移动端GPU出发,逐步延展至平板电脑端、桌面端、服务器端,走这种从简单到复杂、从小芯片到大芯片的路径。

另一条路有点“天龙寺众高僧合练六脉神剑”的意思。通用GPU复杂、难做,华为就“化繁为简”,今天先做AI-GPU,明天再做“区块链GPU”,后天再做“超算GPU”……到最后再来个“集大成”,“六脉神剑”通用GPU就成了。看起来很棒对吧?但是这种想法可能过于理想化了。通用GPU不是简单的“1+1”,十个人会一阳指,也及不上一个人会六脉神剑,一个道理。

笔者还听说,阿里旗下的芯片部门也想做GPGPU,只不过阿里巴巴的野心大则大矣,只是眼下还没有足够大的技术团队能支持这件事。

其他厂商中,包括寒武纪、依图、比特大陆、燧原科技等企业,目前也都重点布局于AI芯片,并分别利用自身的优势走出了自己的风格和水平。

而在GPGPU赛道上,一家名为“天数智芯”的公司选择了正面“刚”。这家公司目前围绕GPGPU的系统研发已聚集了一支百余人的技术团队,其中不乏AMD在美国和上海做 GPU的核心团队成员、行业经验超20年的世界级技术专家。今年刚刚试水发布了一款边缘端芯片,并计划明年正式发布GPGPU大芯片产品。

国内企业的机遇与挑战

有一点毋庸置疑,算力经济时代,整个世界正面临半导体市场的增长大潮,市场上也涌现出越来越多的半导体企业百舸争流。而英伟达早早凭借强大的GPU+CUDA方案切入各个领域,用大笔研发投入和时间堆积起坚不可摧的生态城墙,而这恰恰是国内外其他玩家的薄弱环节。

国产芯片企业,特别是处在创业初期的那些,“正确选择胜过百倍努力”。笔者认为可通用的GPU确然是个非常值得投入的方向。GPGPU诞生也只有十数年时间,“护城河”并非坚不可摧。

只不过在现阶段,国产替代方案还要在CUDA生态的基础上推广自己的芯片产品,在兼容CUDA的同时,建设新生态。在这个过程中,每一步都关键且充满挑战。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    安森美 NST65010MW6 双匹配通用 PNP 晶体管深度解析

    的 NST65010MW6 双匹配通用 PNP 晶体管,看看它究竟有哪些独特之处。 文件下载: NST65010MW6-D.PDF 产品概述 NST65010MW6 晶体管采用超小型 SOT - 363 封装,这种封装
    的头像 发表于 05-18 15:55 135次阅读

    OTP语音芯片与Flash语音芯片究竟有何区别?一文读懂选型关键与行业应用

    芯片到底有什么区别?究竟该选哪一种?本文将从存储方式、成本、功耗、应用场景等多个维度进行全面对比,并介绍国内知名语音IC厂家广州唯创电子旗下的代表性产品矩阵,帮助您
    的头像 发表于 04-20 09:48 426次阅读
    OTP语音芯片与Flash语音芯片<b class='flag-5'>究竟有</b>何区别?一文读懂选型关键与行业应用

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2?
    发表于 03-13 06:38

    又一国产GPU企业上市

    GPU企业、国内首家实现“训练+推理”通用GPU双量产的企业,天数智芯的上市标志着国产高端芯片产业迈入资本驱动与技术突破并行的关键阶段。   从技术深耕到资本进阶   天数智芯成立于2015年,总部位于上海,核心团队汇聚了来自A
    的头像 发表于 01-08 18:09 7230次阅读

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景中的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX PRO 4000 Blackwell 相较于前代产品的性能跃迁。
    的头像 发表于 12-29 15:30 2120次阅读
    NVIDIA RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能测试

    又一家GPU厂商IPO!

    电子发烧友网综合报道,港交所文件显示,上海天数智芯半导体股份有限公司港股IPO通过聆讯。天数智芯是中国首家通用GPU企业,主要提供针对不同行业的通用GPU产品及AI算力解决方案,是首家
    的头像 发表于 12-20 07:35 1.1w次阅读
    又一家<b class='flag-5'>GPU</b>厂商IPO!

    汽车中的GPU是如何使用的?

    (HMI)的发展尤为迅猛。随着电子电气架构(EEA)的集中化,车辆对高性能计算能力的需求显著提升,GPU(图形处理单元)的灵活性、可扩展性以及高效并行计算能力,使其成为支持这些创新应用的核心组件
    的头像 发表于 12-03 14:45 9773次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    弱电智能化中究竟有多少个子系统?

    子系统,每个子系统都承担着特定的功能,共同为建筑提供全面的智能化服务。随着技术的不断进步,弱电智能化系统的子系统也在不断发展和完善。那么,弱电智能化中究竟有多少个子系统呢?本文将详细列举并介绍这些子系统。 一
    的头像 发表于 11-24 09:57 1625次阅读
    弱电智能化中<b class='flag-5'>究竟有</b>多少个子系统?

    首款全国产通用GPU芯片发布 沐曦集成推出曦云C600

    沐曦集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——曦云C600,这标志着国产高性能GPU实现历史性突破。 据新华日报报道显示,沐曦发布的曦云C600集成了大容量存储与多种精度混合算力
    的头像 发表于 10-19 20:04 4.7w次阅读

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    GPU架构参数如CUDA核心数、显存带宽、TensorTFLOPS、互联方式等,并非“冰冷的数字”,而是直接关系设备能否满足需求、如何发挥最大价值、是否避免资源浪费等问题的核心要素。本篇文章将全面
    的头像 发表于 10-09 09:28 1703次阅读
    如何看懂<b class='flag-5'>GPU</b>架构?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程、内容创作和 3D 可视化等应用的性能。
    的头像 发表于 08-18 11:50 1754次阅读

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    Microsoft AD究竟有多重要

    勒索软件攻防已成一场永无止境的猫鼠游戏——在IT和安全团队不断提升能力的同时,攻击者也在不断寻找新的攻击路径,而AD作为集中管理的核心要素,已成为勒索软件攻击的主要目标和执行路径。
    的头像 发表于 07-22 13:57 916次阅读

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能、科学计算
    的头像 发表于 05-30 10:36 2091次阅读
    <b class='flag-5'>GPU</b>架构深度解析