0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么说“众核异构计算”是必然趋势?

21克888 来源:厂商供稿 作者:深圳王哥 2022-04-01 18:29 次阅读

经常有朋友问,“为什么认为众核异构计算是必然趋势呢?”。实际上这个问题在业内已经是共识了,所以本文希望从更浅显的角度来解释这个问题。

首先,需要解释“为什么当下正处于算力大爆炸时代”

> 越强大的人工智能,需要以越强的算力为基础。

1)这如同互联网时代的爆发,是建立在庞大的云服务器集群为前提。这些服务器向用户提供视频/图片/文字内容的海量访问需求。而人工智能时代,算力建设成为新基建的基础建设。

2)以目前人脸识别、视频结构化这种深度学习算法举例,实际上我们已经在云端推理和训练投入大量的计算资源,服务于公共安全、门禁、金融系统等领域,也成为了IntelAMD英伟达新的营收增长点。而,正在获得突破性进展的领域,对算力的需求将更大:例如自动驾驶、医药研发、量化交易、基因工程、知识图谱、数字孪生、工业软件、智慧城市等领域。

>算力时代,行业竞争的决定因素是“算力+算法”。

1)以金融市场博弈为例,以前决定各方成败的是否拥有“最强的大(人)脑”,10个、100个、还是1000优秀交易员。而正在到来的时代是,你方是否拥有最优秀的算法+更强的算力,决定了你方能处理的信息维度,数据规模,从而拥有更准确的预测和最快的决策速度。

2)和传统的商业世界一样,服务质量和速度将决定一个公司的成败。在未来这些优势将自于“不断演进的算法”和“更强大的算力基建投入”。一个国家在数字经济的优势,也将来自于此。

> 算力时代,科研领域竞争的决定因素是“算力+高端科研人才”。

1)这里以Google的Summit超算集群和DeepMind所带来的科研突破举例:

a. 攻克生物学界50年来的重大难题——蛋白质折叠预测;

b. 在第一性原理分子动力学中引入机器学习模拟方法将模拟的时间尺度提高了至少1000倍,体系规模提升至少100倍(2020年戈登贝尔奖.贾伟乐);

c.QMCPACK利用Summit,使得研究体系可以包含数百个原子,为研究更实用的超导体提供极大的帮助;

d. 为“战胜”癌症,需要研究基因、生物标记物与环境之间隐藏(目前未知)的关系。融合已有的健康数据、非结构数据如文本型的报告、医学影像等,利用机器学习算法,在Summit上对美国的癌症群体进行更全面的分析;

e. 利用Summit,可以确定人类蛋白和细胞系统的功能、协同和进化的模式。这些模式可以帮助研究临床表型、疾病的可见性状(例如老年痴呆症、心脏病和成瘾)的形成,并为药物发现过程提供支持;

f. 利用Summit,FLASH可以进行长达数千倍时间内对多达12倍的元素种类进行高分辨率的模拟。

算力大爆炸,正在为科研领域取得颠覆性成果提供算力保障。反之,如果我们今天的高性能计算水平仍停留在十年前的水平,今天所见的激动人心的技术突破几乎是不可能的。

2)以上的例证希望说明两个问题:第一,国家需要建设更强大的超算集群,科研人员才有可能在前沿领域取得突破性研究成果。小米加步枪能取得胜利的可能性几乎为零,由此知识产权的布局依然将受制于人。第二,以前称之为超算,今天已经称之为智算,其原因是HPC+AI正在成为新的研究范式,即科学计算融合深度学习算法。

3 )在军事领域,我们也看到了多传感器、多数据链融合,利用深度学习算法提升战场智能化水平;还有如密码学对于通讯的意义;空气动力学对于大装备的意义等等。

4)可以遇见,未来在国家重点实验室、科研院所、985/211高校将迎来智算建设的新高潮。原因?因为科研人员主要就在这些地方。

> 区块链、量子霸权、元宇宙等概念,背后都将是以庞大的算力为依托。

那么,如何获得更强大的算力呢?

> 一直以来,行业依托于半导体工艺、制程以及Chiplet最先进的封装技术,在时钟速度、集成密度、片上集成方法可以获得更高的算力。然而硅基芯片工艺达到3nm后,摩尔定律是否将失效?所以今天大家开始在研究“后摩尔时代”。

> 计算机架构的演进,是另外一种重要手段。

1)传统手法:cache增加,指令集扩展,协处理器,多核等。例如,为了增加x86的多媒体处理能力,于是有了MMX扩展指令集;为了兼顾功耗、成本和视频编解码性能,有了专门的H.264/265协处理器IP,这里就不再赘述了。

2)专用处理器:CPU在通用计算领域的角色无可替代,目前的主要指令集有x86(Intel、AMD、海光等少数几家),arm(有钞能力的公司都可以买来解决计算芯片设计的主要问题,钞票越多能买到越强的IP授权,指令集授权则更贵),RISC-V(开源指令集,后起之秀)。但CPU面对一些大规模、并行运算时已经显得力不从心、成本也划不来。所以出现了GPU,NPU,DPU这类专用计算处理器,GPU擅长图像处理,NPU擅长深度学习算法处理,DPU擅长数据处理。讲到GPU、NPU、DPU这三个名词,实际上这个体系非常复杂,无法用类似CPU三种指令集这样去简单概述,在这个领域各家芯片的架构差异、标称性能都非常大,用万马奔腾比较合适。在这个领域目前最优秀者无疑是英伟达,追赶者内心的压力是巨大的。要不是中美贸易战的大背景,我想业者还是投资领域,谁能敢奢望去挑战?

3)片上的众核异构:CPU单核计算性能提升已经越来越不能满足应用对计算性能需求、功耗的控制、成本的控制的需求,所以“片上众核异构”应势兴起。这带来了许多的优势,共享内存、各计算单元之间实现更高速的数据通讯、均衡的功耗控制。最近热炒的Apple M1/M1 pro/M1 Max是一个很好的范例。

4)整机的异构计算,是以CPU板卡为主,在机箱内增加各种专用的计算板卡,以增强服务器在某些特定领域的计算能力。例如插上GPU板卡增强服务器的图像处理能力,插上NPU板卡增加服务器的深度学习算法的处理能力,插上GPGPU板卡增加科学计算的处理能力,CPU+存储卡+NPU卡就是我们经常听到的“近存计算”。

如何驾驭和挖掘算力?

我们正在拥有越发强大和越发复杂的计算硬件,另外一边是复杂而庞大的高性能计算应用软件体系(科学计算、各种深度学习算法、各种运行框架runtime等),一些是已经成熟而知名的软件,另外一些是正处于青春期的各种算法和创新应用。那么,应该如何将这两者能融合起来呢?这个事情是简单还是复杂的呢?

1)如果硬件和软件无法融合,那么硬件性能将被白白浪费掉。比方说你投了5nm的芯片,在计算许多场景时可能还比不过别人28nm时代的速度和效率,更糟糕的情况是出现计算精度不够,或者完全不支持某些成熟软件的运行。(计算精度?我的卡可是支持FP32的,这里可能大家有所不知,如果是加减乘除这种四则运算当然不会有什么问题,但如果让求解三角函数,反三角函数,双曲函数等,这些都是软件算法在另外一个层面决定了计算精度和计算速度。||更深一点层面,计算并行优化决定了许多算法和工业软件是否能运行在GPU、NPU这类专用处理器,没有这部分工作,这些加速卡将毫无用处。NVIDIA在这方面软件投入了海量的资金、长期的时间和优秀的人才,我国的计算硬件的短板已经显现出来的。

2)如果持续创新的算法与软件,无法与已经投入的硬件进行适配和融合,那么这些硬件资产的价值将被白白浪费掉了。近一步而言,硬件资产一旦投入,就无法变化。但算法和软件是高速发展和发散性的,如何让客户的硬件资产持续发挥价值,这需要算力基础软件栈进行更长期和持续的工作。遗憾的是,我看到许多智算/超算平台的政府规划文件,里面并没有为此去单列预算出来。从商业角度而言,硬件商本质就是卖硬件的,那么谁将应该为此提供长期的费用呢?我们更是低估了这个层面的难度以及持续投入。

3)如果我们用“云存储的投资建设”逻辑来对照“算力的投资建设”逻辑,这必然会走入误区。云存储是一个相对于简单业务场景,单调而成熟的技术体系。“存与不存,硬盘就在哪里!” vs "算与不算,算力就在哪里!” 这背后是完全不同的技术逻辑。

> 算力基础软件栈是“越发强大和越发复杂的计算硬件”与“复杂而庞大的高性能计算应用软件体系”的技术桥梁。其主要包括数学库、算子库、科学计算库、求解器等,还包括AI和异构计算框架/或叫引擎,编程语言/编译器。我国由于历史原因,以前缺乏对处理器领域的投资,所以这个层面的基础软件技术积累几乎为零,人才储备也几乎为零。形象地说,计算大芯片是一栋大厦的地基,那么算力基础软件栈是先进计算的第一层,是大堂,是服务中心所在。

“2022年3月30日,国际计算机协会(ACM)宣布Jack Dongarra为2021年ACM 图灵奖获得者,以表彰他在数值算法和库方面的开创性贡献,这些贡献使高性能计算软件在四十多年里能够跟上硬件的指数式改进。”

> 软件生态的意义。生态的意义主要在于两方面,一是,让应用开发者不需要过多考虑硬件平台的差异性,便捷地使用算力,专注于研究自己所需要解决的问题;二是,让应用开发者形成的软件资产,可以直接部署和运行在各种异构计算的平台。围绕算力时代,整个行业仍有很远的路要走,巨头也只是提前了一点在积极布局,例如Intel的OneAPI,AMD的Rocm,NVIDIA的CUDA等等。作为国产自主可控的发展理念,我们仍有机会去追赶并超越,我们应该如何应对呢?

结束语:这个行业里,因为各种原因故意忽略/隐瞒基础计算软件栈的难度和价值,这其实并不利于整个计算产业链的健全和健康发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    10718

    浏览量

    100076
  • 英伟达
    +关注

    关注

    21

    文章

    2760

    浏览量

    86561
  • 异构计算
    +关注

    关注

    2

    文章

    87

    浏览量

    16118
收藏 人收藏

    评论

    相关推荐

    异构计算在人工智能什么作用?

    能力的需求。因此,具有GPU、ASIC、 FPGA 或其它加速器(Accelerator)等高并行、高密集的计算能力的异构计算持续火热,而异构计算也将成为支撑先进和以后更复杂AI 应用的必然
    发表于 08-07 08:39

    什么是异构并行计算

    先了解什么是异构并行计算同构计算是使用相同类型指令集和体系架构的计算单元组成系统的计算方式。而异构计算
    发表于 07-19 08:27

    异构计算场景下构建可信执行环境

    本文转载自 OpenHarmony TSC 《峰会回顾第4期 | 异构计算场景下构建可信执行环境》 演讲嘉宾 | 金意儿 回顾整理 | 廖涛 排版校对 | 李萍萍 嘉宾简介 金意儿,华为可信计算
    发表于 08-15 17:35

    请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?

    请问模型推理只用到了kpu吗?可以cpu,kpu,fft异构计算吗?
    发表于 09-14 08:13

    异构计算芯片的机遇与挑战

    异构计算的机遇与挑战 异构计算是指不同类型的指令集和体系架构的计算单元组成的系统的计算方式,目前 CPU+GPU以及CPU+FPGA 都是最受业界关注的
    发表于 09-27 10:22 26次下载

    面向产异构系统的Parallel C语言设计

    异构架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但系统更为复杂的并
    发表于 12-29 17:11 1次下载
    面向产<b class='flag-5'>异构</b><b class='flag-5'>众</b><b class='flag-5'>核</b>系统的Parallel C语言设计

    中国首个异构计算处理器IP核实现 可用于机器学习

    日前,中国华夏芯公司宣布,其异构计算处理器IP已经在硅片上成功实现,并已通过HSA(异构系统架构)一致性测试。公司还宣布了新的机器学习和深层神经网络的开源项目,旨在进一步推动HSA异构计算
    发表于 09-01 11:42 1091次阅读

    基于FPGA的异构计算趋势

    目前处于AI大爆发时期,异构计算的选择主要在FPGA和GPU之间。尽管目前异构计算使用最多的是利用GPU来加速,FPGA作为一种高性能、低功耗的可编程芯片,在处理海量数据时,FPGA计算效率更高,优势更为突出,尤其在大量服务器部
    的头像 发表于 04-25 09:17 1w次阅读

    异构计算的两大派别 为什么需要异构计算

    20世纪80年代,异构计算技术就已经诞生了。所谓的异构,就是CPU、DSP、GPU、ASIC、协处理器、FPGA等各种计算单元、使用不同的类型指令集、不同的体系架构的计算单元,组成一个
    发表于 04-28 11:41 2.3w次阅读

    异构计算:架构与技术

    如果您希望创建优秀的移动体验,那么,优化就不是可有可无的事情,而是关键之举。它可以帮助您将好的想法实现得更加出彩。在上一篇“使用QDN异构计算工具开发项目”文章中,我们讨论了异构计算的概念
    发表于 09-18 19:18 649次阅读

    异构计算,你准备好了么?

    摩尔定律失灵了,已是不争的事实。单纯的提升一种芯片性能变的代价越来越高,与此同时,异构计算成为提高计算力的主流方向。 什么是异构计算异构计算的前景怎么样? OpenPOWER系统上
    发表于 09-25 17:27 294次阅读

    异构计算的前世今生

    ,无论是神经网络处理器还是图像处理器。   异构计算的存在可以创造了另一个维度,这个维度上我们又有了堆性能的空间,小至手机SoC、汽车芯片,大到服务器芯片和超算处理器,异构带来了更大的算力。但与此同时,
    的头像 发表于 12-17 09:35 3724次阅读

    异构计算真就完美无缺吗

    ,无论是神经网络处理器还是图像处理器。 异构计算的存在可以创造了另一个维度,这个维度上我们又有了堆性能的空间,小至手机SoC、汽车芯片,大到服务器芯片和超算处理器,异构带来了更大的算力。但与此同时,
    的头像 发表于 12-21 09:25 1506次阅读

    异构计算面临的挑战和未来发展趋势

    导读超异构异构的本质区别在哪里?这篇文章通过对异构计算的历史、发展、挑战、以及优化和演进等方面的分析,来进一步阐述从异构走向异构融合(即超
    的头像 发表于 04-26 15:18 349次阅读
    <b class='flag-5'>异构计算</b>面临的挑战和未来发展<b class='flag-5'>趋势</b>