0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

正视差距,国产GPGPU的进阶之路

Felix分析 来源:电子发烧友网 作者:Felix 2021-09-28 09:03 次阅读
2021年一月,上海天数智芯半导体有限公司(以下简称:天数智芯)宣布,公司旗舰7nm工艺GPGPU云端训练芯片BI成功点亮,这是国内第一款全自研、真正基于GPU架构下的7nm工艺GPGPU训练芯片。

紧接着,2021年3月31日,天数智芯正式对外发布全自研高性能云端7nm芯片BI及产品卡,实现国产云端高性能GPGPU芯片从0到1的突破。在算力方面,天数智芯BI产品单芯每秒可进行147万亿次FP16计算(147TFLOPS@FP16)。

天数智芯在BI产品“点亮”时提到,BI产品的理论峰值性能达市场主流产品的2倍。一时间,国产GPGPU似乎已经站在世界之巅。但天数智芯产品副总裁邹翾在接受电子发烧友采访时表示:“实测性能对用户才是关键,目前国内的软件生态是短板,几乎90%的AI应用都基于国外的基础软件栈,如何在现有软件生态上充分发挥芯片的计算力,提供优秀的实测性能,这是国产GPGPU 发展的关键。”


天数智芯产品副总裁邹翾

减少客户迁移的成本

软件的重要性是毋庸置疑的,是发挥GPGPU硬件潜力的必要一环,让抽象的算力资源能够和具体应用深度结合。目前,在GPGPU领域,无论是CUDA/OpenCL/TensorRT这些硬件加速平台,还是TensorFlow/PyTorch等主流深度学习开发框架,主导者都是国际厂商或机构。邹翾认为:“自己的软件平台一定是需要的,但目前来说,我们与国外主流厂商还有比较大的差距。而且不能单从某一颗芯片上去对比,还包括产品的覆盖范围、生态等方面。尤其是生态建设,这是国内厂商必须要面对的问题。”

他还说到,国内企业一定要敢于承认这种差距,在解决这些问题以后,国内的运算平台才会有真正的用武之地。我们企业还是要围绕怎么解决用户需求去发展,在这个过程中不断追赶并缩小这种差距。。

在天数智芯的系统软件方案中有标注,该公司除了提供高效的全栈式解决方案和全套SDK,也强调API兼容业界主流生态以及无痛迁移。“提供高效率的软件结构,最大限度降低已有客户的开发迁移成本,极大地影响着整个产业的发展。” 邹翾指出,“天数智芯在产品的设计之初就关注到,客户需要最大限度降低跨平台的开发成本。我们考虑到GPGPU产品架构的通用兼容性,本着以客户需求为出发点的原则,从实际角度为客户实现跨平台转换的无痛迁移。”

从云端走向更广阔的场景

在天数智芯BI产品的介绍中我们看到,这款全自研通用计算GPGPU芯片聚焦于云端训练市场。长期以来,云端训练市场被国际巨头垄断,不仅加速卡产品成本高,且生态较为封闭,制约了AI产品多元化发展和升级迭代。

邹翾介绍说,BI产品是国内第一款全自研、真正基于通用GPU架构的GPGPU云端高端训练芯片,以比同类产品更小的芯片面积 、更低的功耗,提供主流厂商实测接近的性能。总结而言,BI产品有以下几个优势:
a) 全自研IP核心;
b) GPGPU架构,更具有通用性及灵活性;
c) 采用先进的 7nm工艺制程,性能效率高,在同样的 power水平上性能更高;
d) 软件对主流生态兼容,客户的跨平台开发成本更低。

作为一种通用计算芯片,云端训练只是GPGPU典型的应用场景之一,正如NVIDIA所言,GPGPU最终的目的是将AI引入到各行各业中。邹翾也谈到:“我们做的GPGPU全称是通用图形处理器(General-Purpose Computing on Graphics Processing Units),就是让本为图形图像处理而生的GPU能够运行图形渲染之外的通用计算任务。”

在采访的过程中,我们谈到了端侧AI的应用。邹翾表示,GPU在端到端AI部署中,属于一个已经被验证的芯片架构。AI端侧发展会驱动应用背后更多新型函数和新型算子的出现,这些需求将被融合到GPU未来的软硬件开发中。

下面这段引述是他对于GPGPU在与各类型AI芯片相比特点的总结:
GPGPU的设计特点在于其通用可编程性,对于层出不穷的新的算法和应用,能做到性能和开发成本间较好的平衡。同时,基于GPGPU的通用性,客户可以在类似软硬件架构间的产品间进行应用的无痛迁移。

在GPGPU领域,NVIDIA无疑是行业的标杆,不仅拥有百万开发者支持的CUDA,还在指令集的覆盖面、颗粒度、效率等维度有领先优势,再考虑到产业生态,国产GPGPU替代还有很长的路要走。在NVIDIA官网有提到,AI应用不仅需要大的内存池,也需要CPU和GPU紧密耦合

对于这一点,邹翾认为,GPU注重的是同类型的数据按照同样的处理流程进行高效并行处理,CPU的优势是处理复杂逻辑流程。CPU和GPU在一个芯片上是可以实现的,而且以前也存在这种整合性的产品,但是对于高端的、云端的CPU加上GPU同时实现,需要非常大的尺寸规模,而且会限制芯片在各自领域的性价比。

天数智芯的下一步

艾瑞咨询此前在相关报告中指出,2020年中国人工智能基础层市场规模为497亿元,为AI产业总规模的33%,AI芯片的高增长是产业规模增长的主要推动力。未来,算力模块的智能服务器国产化率将逐步提升。

毫无疑问,云端训练在未来很长一段时间内仍将是AI芯片的主要市场,市场占比会一直处于前列。但正如邹翾所言,随着AI、5G技术的持续发展与应用落地,端侧及边缘侧未来对算力性能的要求会越来越大。其中,数据中心以及金融、电信等方面将会是很大的市场。

他表示:“目前天数智芯的产品是云端7nm通用计算芯片BI及加速卡,未来公司将聚焦GPGPU领域的高通用性及更广阔的应用领域。天数智芯始终以市场需求为导向,结合公司技术优势,关注客户需求痛点并推出适合的GPGPU产品。随着城市数字化转型,传统行业智能化转型升级需求逐渐扩大,5G、大数据中心、人工智能、工业物联网无人驾驶、智慧城市等众多智能应用领域对高端GPGPU芯片产品的需求量都在急剧增加。”

2021年3月1日,天数智芯对外宣布完成12亿元人民币的C轮融资。在企业高速发展的过程中,除了资金要到位,人才是重中之重。“天数智芯目前已经拥有了一支全球顶尖的数字集成电路设计与基础软件设计科学家团队,为实现公司‘做算力引擎,创世界一流’的愿景而砥砺前行。这支完整的GPGPU研发团队,由公司联合创始人、高级副总裁及首席科学家郑金山先生带领,占比公司总人数85%以上,这其中既有一批行业经验超过20年的世界级技术专家,也有一大批拥有5-15年业界经验的高执行力技术菁英,亦不乏来自于全球顶级院校的博士。” 邹翾对此讲到,“按照公司的业务发展,我们将会持续不断地吸纳优秀人才深耕国产GPGPU芯片设计。随着新产品的推出,团队也将进一步扩大。另外,根据我们产品规划和市场发展需要,天数智芯也会进一步通过融资支持公司的长远发展。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    67

    文章

    4345

    浏览量

    85613
  • 天数智芯
    +关注

    关注

    0

    文章

    91

    浏览量

    5337
  • GPGPU
    +关注

    关注

    0

    文章

    23

    浏览量

    4807
收藏 人收藏

    评论

    相关推荐

    龙芯中科自研 GPGPU!大语言模型浪潮下,国产厂商如何把握机会?

    电子发烧友网报道(文/李弯弯)日前,在龙芯中科 2022 年度暨 2023 年第一季度业绩暨现金分红说明会上,龙芯中科董事长胡伟武宣布,集成龙芯自研 GPGPU (通用图形处理器)的第一款 SoC
    的头像 发表于 05-18 09:06 3405次阅读
    龙芯中科自研 <b class='flag-5'>GPGPU</b>!大语言模型浪潮下,<b class='flag-5'>国产</b>厂商如何把握机会?

    从杰发科技AutoChips AC8015看国产汽车芯片突围之路

    原标题:从杰发科技AutoChips AC8015看国产汽车芯片突围之路 来源:Gartner 长期以来,中国汽车芯片一直依赖恩智浦、英飞凌、瑞萨、德州仪器等国际大厂,进口比例高达90%以上。根据
    的头像 发表于 04-08 02:57 210次阅读
    从杰发科技AutoChips AC8015看<b class='flag-5'>国产</b>汽车芯片突围<b class='flag-5'>之路</b>

    简析:目前国产算力和国外的差距

    点击上方蓝字关注我们今年2月份,SORA横空出世,算力需求倍增,AI领域再次沸腾,国产算力的话题再次登上AI领域热搜。由于SORA,算力需求有望持续呈现几何规模的倍增,同时
    的头像 发表于 03-16 08:25 424次阅读
    简析:目前<b class='flag-5'>国产</b>算力和国外的<b class='flag-5'>差距</b>

    RK3568驱动指南|驱动基础进阶篇-进阶5 自定义实现insmod命令实验

    RK3568驱动指南|驱动基础进阶篇-进阶5 自定义实现insmod命令实验
    的头像 发表于 02-20 14:10 174次阅读
    RK3568驱动指南|驱动基础<b class='flag-5'>进阶</b>篇-<b class='flag-5'>进阶</b>5 自定义实现insmod命令实验

    RK3568驱动指南|驱动基础进阶篇-进阶8 内核运行ko文件总结

    RK3568驱动指南|驱动基础进阶篇-进阶8 内核运行ko文件总结
    的头像 发表于 01-31 14:58 473次阅读
    RK3568驱动指南|驱动基础<b class='flag-5'>进阶</b>篇-<b class='flag-5'>进阶</b>8 内核运行ko文件总结

    以龙芯、鲲鹏、海光为例,谈国产芯片的进阶发展

    现如今,国内芯片产业发展进入深水期,“从无到有”的任务已经顺利完成,正在迈入“由弱到强”的进阶发展。以龙芯、鲲鹏、海光等国产CPU六强为例,都在引进技术的基础上,成功实现了不同程度的突破,并都在各自
    的头像 发表于 01-18 16:56 300次阅读

    从图形到通用计算:GPGPU技术的进化之路

    在当今的计算世界中,GPGPU(General-Purpose computing on Graphics Processing Units)已成为一种重要的技术概念。它与传统的图形处理单元(GPU
    的头像 发表于 12-01 12:55 324次阅读
    从图形到通用计算:<b class='flag-5'>GPGPU</b>技术的进化<b class='flag-5'>之路</b>

    基于select!宏的进阶用法

    宏,它可以让我们同时监听多个异步事件,一旦其中一个事件触发,就可以立即执行相应的代码。在本教程中,我们将详细介绍 select!宏的进阶用法,并提供多个示例来帮助您更好地理解和掌握这个宏的使用方法。 进阶用法 除了基础用法之外,select!宏还有一些
    的头像 发表于 09-19 15:35 314次阅读

    STM32进阶之串口环形缓冲区实现

    STM32进阶之串口环形缓冲区实现
    的头像 发表于 09-19 09:20 1636次阅读
    STM32<b class='flag-5'>进阶</b>之串口环形缓冲区实现

    星瑞格国产数据库SinoDB“的进阶之路

    人民币),占全球的7.2%。预计到2027年,中国数据库市场总规模将达到1286.8亿元。在不断加剧的行业竞争和不断变换的市场格局中,国产数据库的加速发展,已成为时代的必然。
    的头像 发表于 08-30 09:52 359次阅读

    国产智驾和座舱芯片与外资差距在哪?

    国产芯片与外资芯片差距一目了然,主要就在CPU领域。国产芯片阵营CPU最高的是主要做手机芯片的展讯,其A7870平台配置了车规级6nm制程处理器,8核设计,包括1个2.7GHz的A76
    的头像 发表于 08-28 17:06 976次阅读
    <b class='flag-5'>国产</b>智驾和座舱芯片与外资<b class='flag-5'>差距</b>在哪?

    主流国产gpu产品有哪些品牌(相关规格介绍)

    国产GPU 持续发力,对标行业龙头缩小差距。GPU 有两条主要的发展路线:分别为传统的 2D/3D 图形渲染 GPU 和专注高性能计算的 GP GPU,近年来,国产GPU 厂商在图形渲染 GPU
    发表于 08-10 10:16 2460次阅读
    主流<b class='flag-5'>国产</b>gpu产品有哪些品牌(相关规格介绍)

    十大国产GPU产品及规格概述

    近年来,国产GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品,在性能上不断追赶行业主流产品,在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA,融入大生态进而实现客户端导入
    的头像 发表于 06-25 16:38 2.7w次阅读
    十大<b class='flag-5'>国产</b>GPU产品及规格概述

    以龙芯、鲲鹏、海光为例,谈及***的进阶发展

    现如今,国内芯片产业发展进入深水期,“从无到有”的任务已经顺利完成,正在迈入“由弱到强”的进阶发展。以龙芯、鲲鹏、海光等国产CPU六强为例,都在引进技术的基础上,成功实现了不同程度的突破,并在各自
    的头像 发表于 05-18 10:14 1100次阅读

    SEDNet:视差和不确定性联合评估的新方法

    立体匹配网络在一种称为成本体积(cost volume)的体积上运行,该体积在每个像素处汇聚每个可能视差处的二维特征,并可以通过相关或串联来构建。DispNetC、iResNet和SegStereo
    的头像 发表于 05-15 15:12 512次阅读
    SEDNet:<b class='flag-5'>视差</b>和不确定性联合评估的新方法