为什么说“众核异构计算”是必然趋势？-电子发烧友网

经常有朋友问，“为什么认为众核异构计算是必然趋势呢？”。实际上这个问题在业内已经是共识了，所以本文希望从更浅显的角度来解释这个问题。

首先，需要解释“为什么当下正处于算力大爆炸时代”

> 越强大的人工智能，需要以越强的算力为基础。

1）这如同互联网时代的爆发，是建立在庞大的云服务器集群为前提。这些服务器向用户提供视频/图片/文字内容的海量访问需求。而人工智能时代，算力建设成为新基建的基础建设。

2）以目前人脸识别、视频结构化这种深度学习算法举例，实际上我们已经在云端推理和训练投入大量的计算资源，服务于公共安全、门禁、金融系统等领域，也成为了Intel、AMD和英伟达新的营收增长点。而，正在获得突破性进展的领域，对算力的需求将更大：例如自动驾驶、医药研发、量化交易、基因工程、知识图谱、数字孪生、工业软件、智慧城市等领域。

>算力时代，行业竞争的决定因素是“算力+算法”。

1）以金融市场博弈为例，以前决定各方成败的是否拥有“最强的大（人）脑”，10个、100个、还是1000优秀交易员。而正在到来的时代是，你方是否拥有最优秀的算法+更强的算力，决定了你方能处理的信息维度，数据规模，从而拥有更准确的预测和最快的决策速度。

2）和传统的商业世界一样，服务质量和速度将决定一个公司的成败。在未来这些优势将自于“不断演进的算法”和“更强大的算力基建投入”。一个国家在数字经济的优势，也将来自于此。

> 算力时代，科研领域竞争的决定因素是“算力+高端科研人才”。

1）这里以Google的Summit超算集群和DeepMind所带来的科研突破举例：

a. 攻克生物学界50年来的重大难题——蛋白质折叠预测；

b. 在第一性原理分子动力学中引入机器学习的模拟方法将模拟的时间尺度提高了至少1000倍，体系规模提升至少100倍（2020年戈登贝尔奖.贾伟乐）；

c.QMCPACK利用Summit，使得研究体系可以包含数百个原子，为研究更实用的超导体提供极大的帮助；

d. 为“战胜”癌症，需要研究基因、生物标记物与环境之间隐藏(目前未知)的关系。融合已有的健康数据、非结构数据如文本型的报告、医学影像等，利用机器学习算法，在Summit上对美国的癌症群体进行更全面的分析；

e. 利用Summit，可以确定人类蛋白和细胞系统的功能、协同和进化的模式。这些模式可以帮助研究临床表型、疾病的可见性状（例如老年痴呆症、心脏病和成瘾）的形成，并为药物发现过程提供支持；

f. 利用Summit,FLASH可以进行长达数千倍时间内对多达12倍的元素种类进行高分辨率的模拟。

算力大爆炸，正在为科研领域取得颠覆性成果提供算力保障。反之，如果我们今天的高性能计算水平仍停留在十年前的水平，今天所见的激动人心的技术突破几乎是不可能的。

2）以上的例证希望说明两个问题：第一，国家需要建设更强大的超算集群，科研人员才有可能在前沿领域取得突破性研究成果。小米加步枪能取得胜利的可能性几乎为零，由此知识产权的布局依然将受制于人。第二，以前称之为超算，今天已经称之为智算，其原因是HPC+AI正在成为新的研究范式，即科学计算融合深度学习算法。

3 ）在军事领域，我们也看到了多传感器、多数据链融合，利用深度学习算法提升战场智能化水平；还有如密码学对于通讯的意义；空气动力学对于大装备的意义等等。

4）可以遇见，未来在国家重点实验室、科研院所、985/211高校将迎来智算建设的新高潮。原因？因为科研人员主要就在这些地方。

> 区块链、量子霸权、元宇宙等概念，背后都将是以庞大的算力为依托。

那么，如何获得更强大的算力呢？

> 一直以来，行业依托于半导体工艺、制程以及Chiplet最先进的封装技术，在时钟速度、集成密度、片上集成方法可以获得更高的算力。然而硅基芯片工艺达到3nm后，摩尔定律是否将失效？所以今天大家开始在研究“后摩尔时代”。

> 计算机架构的演进，是另外一种重要手段。

1）传统手法：cache增加，指令集扩展，协处理器，多核等。例如，为了增加x86的多媒体处理能力，于是有了MMX扩展指令集；为了兼顾功耗、成本和视频编解码性能，有了专门的H.264/265协处理器IP，这里就不再赘述了。

2）专用处理器：CPU在通用计算领域的角色无可替代，目前的主要指令集有x86（Intel、AMD、海光等少数几家），arm（有钞能力的公司都可以买来解决计算芯片设计的主要问题，钞票越多能买到越强的IP授权，指令集授权则更贵），RISC-V（开源指令集，后起之秀）。但CPU面对一些大规模、并行运算时已经显得力不从心、成本也划不来。所以出现了GPU，NPU，DPU这类专用计算处理器，GPU擅长图像处理，NPU擅长深度学习算法处理，DPU擅长数据处理。讲到GPU、NPU、DPU这三个名词，实际上这个体系非常复杂，无法用类似CPU三种指令集这样去简单概述，在这个领域各家芯片的架构差异、标称性能都非常大，用万马奔腾比较合适。在这个领域目前最优秀者无疑是英伟达，追赶者内心的压力是巨大的。要不是中美贸易战的大背景，我想业者还是投资领域，谁能敢奢望去挑战？

3）片上的众核异构：CPU单核计算性能提升已经越来越不能满足应用对计算性能需求、功耗的控制、成本的控制的需求，所以“片上众核异构”应势兴起。这带来了许多的优势，共享内存、各计算单元之间实现更高速的数据通讯、均衡的功耗控制。最近热炒的Apple M1/M1 pro/M1 Max是一个很好的范例。

4）整机的异构计算，是以CPU板卡为主，在机箱内增加各种专用的计算板卡，以增强服务器在某些特定领域的计算能力。例如插上GPU板卡增强服务器的图像处理能力，插上NPU板卡增加服务器的深度学习算法的处理能力，插上GPGPU板卡增加科学计算的处理能力，CPU+存储卡+NPU卡就是我们经常听到的“近存计算”。

如何驾驭和挖掘算力？

我们正在拥有越发强大和越发复杂的计算硬件，另外一边是复杂而庞大的高性能计算应用软件体系（科学计算、各种深度学习算法、各种运行框架runtime等），一些是已经成熟而知名的软件，另外一些是正处于青春期的各种算法和创新应用。那么，应该如何将这两者能融合起来呢？这个事情是简单还是复杂的呢？

1）如果硬件和软件无法融合，那么硬件性能将被白白浪费掉。比方说你投了5nm的芯片，在计算许多场景时可能还比不过别人28nm时代的速度和效率，更糟糕的情况是出现计算精度不够，或者完全不支持某些成熟软件的运行。（计算精度？我的卡可是支持FP32的，这里可能大家有所不知，如果是加减乘除这种四则运算当然不会有什么问题，但如果让求解三角函数，反三角函数，双曲函数等，这些都是软件算法在另外一个层面决定了计算精度和计算速度。||更深一点层面，计算并行优化决定了许多算法和工业软件是否能运行在GPU、NPU这类专用处理器，没有这部分工作，这些加速卡将毫无用处。NVIDIA在这方面软件投入了海量的资金、长期的时间和优秀的人才，我国的计算硬件的短板已经显现出来的。

2）如果持续创新的算法与软件，无法与已经投入的硬件进行适配和融合，那么这些硬件资产的价值将被白白浪费掉了。近一步而言，硬件资产一旦投入，就无法变化。但算法和软件是高速发展和发散性的，如何让客户的硬件资产持续发挥价值，这需要算力基础软件栈进行更长期和持续的工作。遗憾的是，我看到许多智算/超算平台的政府规划文件，里面并没有为此去单列预算出来。从商业角度而言，硬件商本质就是卖硬件的，那么谁将应该为此提供长期的费用呢？我们更是低估了这个层面的难度以及持续投入。

3）如果我们用“云存储的投资建设”逻辑来对照“算力的投资建设”逻辑，这必然会走入误区。云存储是一个相对于简单业务场景，单调而成熟的技术体系。“存与不存，硬盘就在哪里！” vs "算与不算，算力就在哪里！” 这背后是完全不同的技术逻辑。

> 算力基础软件栈是“越发强大和越发复杂的计算硬件”与“复杂而庞大的高性能计算应用软件体系”的技术桥梁。其主要包括数学库、算子库、科学计算库、求解器等，还包括AI和异构计算框架/或叫引擎，编程语言/编译器。我国由于历史原因，以前缺乏对处理器领域的投资，所以这个层面的基础软件技术积累几乎为零，人才储备也几乎为零。形象地说，计算大芯片是一栋大厦的地基，那么算力基础软件栈是先进计算的第一层，是大堂，是服务中心所在。

“2022年3月30日，国际计算机协会（ACM）宣布Jack Dongarra为2021年ACM 图灵奖获得者，以表彰他在数值算法和库方面的开创性贡献，这些贡献使高性能计算软件在四十多年里能够跟上硬件的指数式改进。”

> 软件生态的意义。生态的意义主要在于两方面，一是，让应用开发者不需要过多考虑硬件平台的差异性，便捷地使用算力，专注于研究自己所需要解决的问题；二是，让应用开发者形成的软件资产，可以直接部署和运行在各种异构计算的平台。围绕算力时代，整个行业仍有很远的路要走，巨头也只是提前了一点在积极布局，例如Intel的OneAPI，AMD的Rocm，NVIDIA的CUDA等等。作为国产自主可控的发展理念，我们仍有机会去追赶并超越，我们应该如何应对呢？

结束语：这个行业里，因为各种原因故意忽略/隐瞒基础计算软件栈的难度和价值，这其实并不利于整个计算产业链的健全和健康发展。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

互联网

互联网

+关注

关注
54

文章
10910

浏览量
100843
英伟达

英伟达

+关注

关注
22

文章
3338

浏览量
87858
异构计算

异构计算

+关注

关注
2

文章
93

浏览量
16163

黑芝麻智能推出基于武当C1296芯片多域融合计算平台方案

多域融合计算是汽车智能化发展的必然趋势，它可以简化整车电子电气架构，提高计算效率，降低成本。

发表于 04-30 15:56 •432次阅读

黑芝麻智能推出基于武当C1296芯片多域融合<b class='flag-5'>计算</b>平台方案

高通NPU和异构计算提升生成式AI性能

异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担，需要配备不同的处理器，如专注于AI工作负载的定制设计的NPU、CPU和GPU。

发表于 03-06 14:15 •234次阅读

AI大模型在端侧加速落地已成必然趋势，芯片厂商提前布局！

普遍认为，2024年AI大模型在商业应用会有极大突破。 “AI大模型在端侧的加速落地已成必然趋势。”在星宸科技上周举办的2023开发者大会暨产品发布会上，该公司董事长&总经理林永育谈到。事实确实如此，AI大模型如果想要实现大规模落地应用，离不

发表于 12-29 00:47 •1489次阅读

AI大模型在端侧加速落地已成<b class='flag-5'>必然趋势</b>，芯片厂商提前布局！

科学计算与Julia技术研讨会 | 张先轶：从OpenBLAS到异构计算软件栈

蓬勃发展，新兴科学计算语言不断涌现，Julia以其高性能、动态性成为其中的佼佼者。 12月9日上午1020 ，澎峰科技创始人张先轶博士将在主论坛：Julia与数字化和AI 上作 “ 从OpenBLAS到异构计算软件栈” 主题演讲，期待与大家见面！研讨会完整详

发表于 11-30 19:35 •419次阅读

科学<b class='flag-5'>计算</b>与Julia技术研讨会 | 张先轶：从OpenBLAS到<b class='flag-5'>异构计算</b>软件栈

什么是异构集成？什么是异构计算？异构集成、异构计算的关系？

异构集成主要指将多个不同工艺节点单独制造的芯片封装到一个封装内部，以增强功能性和提高性能。

发表于 11-27 10:22 •3121次阅读

什么是<b class='flag-5'>异构</b>集成？什么是<b class='flag-5'>异构计算</b>？<b class='flag-5'>异构</b>集成、<b class='flag-5'>异构计算</b>的关系？

云边AI的必然趋势和硬件承载

云边AI是指把AI大模型和算法在云端训练和优化后，部署到边缘设备上运行，从而将AI能力融入终端设备。在前期的AI发展中，云端计算平台凭借其强大的计算能力和能够集中存储和处理大规模数据的特点，发挥了重要的作用，但随着边缘计算和物联

发表于 11-07 17:46 •371次阅读

异构计算为什么会异军突起？基于FPGA的异构计算讨论

简单的介绍几个概念，同道中人可以忽略这一段。云计算取代传统IT基础设施已经基本成为业界共识和不可阻挡的趋势。

发表于 10-26 10:04 •264次阅读

<b class='flag-5'>异构计算</b>为什么会异军突起？基于FPGA的<b class='flag-5'>异构计算</b>讨论

异构时代：CPU与GPU的发展演变

异构计算是指在一个系统中使用不同类型的处理器来执行不同的计算任务，以提高性能，效率和可靠性。随着摩尔定律的放缓，单一类型的处理器已经难以满足日益增长的运算需求。与此同时，不同类型的处理器具有各自

发表于 10-24 10:17 •579次阅读

请问模型推理只用到了kpu吗？可以cpu，kpu，fft异构计算吗？

发表于 09-14 08:13

中科驭数受邀在招商银行金融科技论坛作异构计算主题分享解码金融科技先进算力构建之路

8月25日，2023招银浦江金融科技论坛正式召开。中科驭数高级副总裁张宇受邀在资管科技分论坛发表《金融行业先进异构算力底座构建之路》的主题演讲，与参会嘉宾分享了当前计算系统的发展趋势以及如何通过

发表于 08-25 18:20 •596次阅读

中科驭数受邀在招商银行金融科技论坛作<b class='flag-5'>异构计算</b>主题分享解码金融科技先进算力构建之路

新一代计算架构超异构计算技术是什么异构走向超异构案例分析

超异构计算架构是一种将不同类型和规模的硬件资源，包括CPU、GPU、FPGA等，进行异构集成的方法。它通过独特的软件和硬件协同设计，实现了计算资源的灵活调度和优化利用，从而大大提高了计算

发表于 08-23 09:57 •471次阅读

异构计算场景下构建可信执行环境

本文转载自 OpenHarmony TSC 《峰会回顾第4期 | 异构计算场景下构建可信执行环境》演讲嘉宾 | 金意儿回顾整理 | 廖涛排版校对 | 李萍萍嘉宾简介金意儿，华为可信计算

发表于 08-15 17:35

异构计算的初步创新

更高，x16带宽（双向）从64 GB/s提升到了128 GB/s；目前规范制定已迭代至6.0版本，带宽再翻倍。 异构计算的初步创新：在

发表于 06-19 11:26 •469次阅读

PrimeSimSPICE：异构计算模型实现数量级性能突破

随着对更高计算性能的需求不断增加，HPC 行业正朝着异构计算模型发展，其中 GPU 和 CPU 协同工作以执行通用计算任务。在这种异构计算模型中，GPU 充当 CPU 的加速器，以减轻

发表于 05-24 16:53 •596次阅读

构建面向异构算力的边缘计算云平台

数据又消费数据，再慢慢到设备与设备之间的信息互联，万物互联的时代已然到来。在万物互联时代，需要计算的数据越来越多，需求在不断的变化，异构计算能够充分发挥 CPU/GPU 在通用计算上的灵活性，及时响应数据处理需求，搭配上

发表于 05-18 17:15 •0次下载

搜索历史

为什么说“众核异构计算”是必然趋势？

评论