0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么说“众核异构计算”是必然趋势?

21克888 来源:厂商供稿 作者:深圳王哥 2022-04-01 18:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

经常有朋友问,“为什么认为众核异构计算是必然趋势呢?”。实际上这个问题在业内已经是共识了,所以本文希望从更浅显的角度来解释这个问题。

首先,需要解释“为什么当下正处于算力大爆炸时代”

> 越强大的人工智能,需要以越强的算力为基础。

1)这如同互联网时代的爆发,是建立在庞大的云服务器集群为前提。这些服务器向用户提供视频/图片/文字内容的海量访问需求。而人工智能时代,算力建设成为新基建的基础建设。

2)以目前人脸识别、视频结构化这种深度学习算法举例,实际上我们已经在云端推理和训练投入大量的计算资源,服务于公共安全、门禁、金融系统等领域,也成为了IntelAMD英伟达新的营收增长点。而,正在获得突破性进展的领域,对算力的需求将更大:例如自动驾驶、医药研发、量化交易、基因工程、知识图谱、数字孪生、工业软件、智慧城市等领域。

>算力时代,行业竞争的决定因素是“算力+算法”。

1)以金融市场博弈为例,以前决定各方成败的是否拥有“最强的大(人)脑”,10个、100个、还是1000优秀交易员。而正在到来的时代是,你方是否拥有最优秀的算法+更强的算力,决定了你方能处理的信息维度,数据规模,从而拥有更准确的预测和最快的决策速度。

2)和传统的商业世界一样,服务质量和速度将决定一个公司的成败。在未来这些优势将自于“不断演进的算法”和“更强大的算力基建投入”。一个国家在数字经济的优势,也将来自于此。

> 算力时代,科研领域竞争的决定因素是“算力+高端科研人才”。

1)这里以Google的Summit超算集群和DeepMind所带来的科研突破举例:

a. 攻克生物学界50年来的重大难题——蛋白质折叠预测;

b. 在第一性原理分子动力学中引入机器学习模拟方法将模拟的时间尺度提高了至少1000倍,体系规模提升至少100倍(2020年戈登贝尔奖.贾伟乐);

c.QMCPACK利用Summit,使得研究体系可以包含数百个原子,为研究更实用的超导体提供极大的帮助;

d. 为“战胜”癌症,需要研究基因、生物标记物与环境之间隐藏(目前未知)的关系。融合已有的健康数据、非结构数据如文本型的报告、医学影像等,利用机器学习算法,在Summit上对美国的癌症群体进行更全面的分析;

e. 利用Summit,可以确定人类蛋白和细胞系统的功能、协同和进化的模式。这些模式可以帮助研究临床表型、疾病的可见性状(例如老年痴呆症、心脏病和成瘾)的形成,并为药物发现过程提供支持;

f. 利用Summit,FLASH可以进行长达数千倍时间内对多达12倍的元素种类进行高分辨率的模拟。

算力大爆炸,正在为科研领域取得颠覆性成果提供算力保障。反之,如果我们今天的高性能计算水平仍停留在十年前的水平,今天所见的激动人心的技术突破几乎是不可能的。

2)以上的例证希望说明两个问题:第一,国家需要建设更强大的超算集群,科研人员才有可能在前沿领域取得突破性研究成果。小米加步枪能取得胜利的可能性几乎为零,由此知识产权的布局依然将受制于人。第二,以前称之为超算,今天已经称之为智算,其原因是HPC+AI正在成为新的研究范式,即科学计算融合深度学习算法。

3 )在军事领域,我们也看到了多传感器、多数据链融合,利用深度学习算法提升战场智能化水平;还有如密码学对于通讯的意义;空气动力学对于大装备的意义等等。

4)可以遇见,未来在国家重点实验室、科研院所、985/211高校将迎来智算建设的新高潮。原因?因为科研人员主要就在这些地方。

> 区块链、量子霸权、元宇宙等概念,背后都将是以庞大的算力为依托。

那么,如何获得更强大的算力呢?

> 一直以来,行业依托于半导体工艺、制程以及Chiplet最先进的封装技术,在时钟速度、集成密度、片上集成方法可以获得更高的算力。然而硅基芯片工艺达到3nm后,摩尔定律是否将失效?所以今天大家开始在研究“后摩尔时代”。

> 计算机架构的演进,是另外一种重要手段。

1)传统手法:cache增加,指令集扩展,协处理器,多核等。例如,为了增加x86的多媒体处理能力,于是有了MMX扩展指令集;为了兼顾功耗、成本和视频编解码性能,有了专门的H.264/265协处理器IP,这里就不再赘述了。

2)专用处理器:CPU在通用计算领域的角色无可替代,目前的主要指令集有x86(Intel、AMD、海光等少数几家),arm(有钞能力的公司都可以买来解决计算芯片设计的主要问题,钞票越多能买到越强的IP授权,指令集授权则更贵),RISC-V(开源指令集,后起之秀)。但CPU面对一些大规模、并行运算时已经显得力不从心、成本也划不来。所以出现了GPU,NPU,DPU这类专用计算处理器,GPU擅长图像处理,NPU擅长深度学习算法处理,DPU擅长数据处理。讲到GPU、NPU、DPU这三个名词,实际上这个体系非常复杂,无法用类似CPU三种指令集这样去简单概述,在这个领域各家芯片的架构差异、标称性能都非常大,用万马奔腾比较合适。在这个领域目前最优秀者无疑是英伟达,追赶者内心的压力是巨大的。要不是中美贸易战的大背景,我想业者还是投资领域,谁能敢奢望去挑战?

3)片上的众核异构:CPU单核计算性能提升已经越来越不能满足应用对计算性能需求、功耗的控制、成本的控制的需求,所以“片上众核异构”应势兴起。这带来了许多的优势,共享内存、各计算单元之间实现更高速的数据通讯、均衡的功耗控制。最近热炒的Apple M1/M1 pro/M1 Max是一个很好的范例。

4)整机的异构计算,是以CPU板卡为主,在机箱内增加各种专用的计算板卡,以增强服务器在某些特定领域的计算能力。例如插上GPU板卡增强服务器的图像处理能力,插上NPU板卡增加服务器的深度学习算法的处理能力,插上GPGPU板卡增加科学计算的处理能力,CPU+存储卡+NPU卡就是我们经常听到的“近存计算”。

如何驾驭和挖掘算力?

我们正在拥有越发强大和越发复杂的计算硬件,另外一边是复杂而庞大的高性能计算应用软件体系(科学计算、各种深度学习算法、各种运行框架runtime等),一些是已经成熟而知名的软件,另外一些是正处于青春期的各种算法和创新应用。那么,应该如何将这两者能融合起来呢?这个事情是简单还是复杂的呢?

1)如果硬件和软件无法融合,那么硬件性能将被白白浪费掉。比方说你投了5nm的芯片,在计算许多场景时可能还比不过别人28nm时代的速度和效率,更糟糕的情况是出现计算精度不够,或者完全不支持某些成熟软件的运行。(计算精度?我的卡可是支持FP32的,这里可能大家有所不知,如果是加减乘除这种四则运算当然不会有什么问题,但如果让求解三角函数,反三角函数,双曲函数等,这些都是软件算法在另外一个层面决定了计算精度和计算速度。||更深一点层面,计算并行优化决定了许多算法和工业软件是否能运行在GPU、NPU这类专用处理器,没有这部分工作,这些加速卡将毫无用处。NVIDIA在这方面软件投入了海量的资金、长期的时间和优秀的人才,我国的计算硬件的短板已经显现出来的。

2)如果持续创新的算法与软件,无法与已经投入的硬件进行适配和融合,那么这些硬件资产的价值将被白白浪费掉了。近一步而言,硬件资产一旦投入,就无法变化。但算法和软件是高速发展和发散性的,如何让客户的硬件资产持续发挥价值,这需要算力基础软件栈进行更长期和持续的工作。遗憾的是,我看到许多智算/超算平台的政府规划文件,里面并没有为此去单列预算出来。从商业角度而言,硬件商本质就是卖硬件的,那么谁将应该为此提供长期的费用呢?我们更是低估了这个层面的难度以及持续投入。

3)如果我们用“云存储的投资建设”逻辑来对照“算力的投资建设”逻辑,这必然会走入误区。云存储是一个相对于简单业务场景,单调而成熟的技术体系。“存与不存,硬盘就在哪里!” vs "算与不算,算力就在哪里!” 这背后是完全不同的技术逻辑。

> 算力基础软件栈是“越发强大和越发复杂的计算硬件”与“复杂而庞大的高性能计算应用软件体系”的技术桥梁。其主要包括数学库、算子库、科学计算库、求解器等,还包括AI和异构计算框架/或叫引擎,编程语言/编译器。我国由于历史原因,以前缺乏对处理器领域的投资,所以这个层面的基础软件技术积累几乎为零,人才储备也几乎为零。形象地说,计算大芯片是一栋大厦的地基,那么算力基础软件栈是先进计算的第一层,是大堂,是服务中心所在。

“2022年3月30日,国际计算机协会(ACM)宣布Jack Dongarra为2021年ACM 图灵奖获得者,以表彰他在数值算法和库方面的开创性贡献,这些贡献使高性能计算软件在四十多年里能够跟上硬件的指数式改进。”

> 软件生态的意义。生态的意义主要在于两方面,一是,让应用开发者不需要过多考虑硬件平台的差异性,便捷地使用算力,专注于研究自己所需要解决的问题;二是,让应用开发者形成的软件资产,可以直接部署和运行在各种异构计算的平台。围绕算力时代,整个行业仍有很远的路要走,巨头也只是提前了一点在积极布局,例如Intel的OneAPI,AMD的Rocm,NVIDIA的CUDA等等。作为国产自主可控的发展理念,我们仍有机会去追赶并超越,我们应该如何应对呢?

结束语:这个行业里,因为各种原因故意忽略/隐瞒基础计算软件栈的难度和价值,这其实并不利于整个计算产业链的健全和健康发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    55

    文章

    11321

    浏览量

    108927
  • 英伟达
    +关注

    关注

    23

    文章

    4047

    浏览量

    97761
  • 异构计算
    +关注

    关注

    2

    文章

    110

    浏览量

    17050
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    SiC碳化硅功率半导体:电力电子行业自主可控与产业升级的必然趋势

    SiC碳化硅功率半导体:电力电子行业自主可控与产业升级的必然趋势 倾佳电子杨茜致力于推动国产SiC碳化硅模块在电力电子应用中全面取代进口IGBT模块,助力电力电子行业自主可控和产业升级! 倾佳电子杨
    的头像 发表于 09-21 20:41 371次阅读
    SiC碳化硅功率半导体:电力电子行业自主可控与产业升级的<b class='flag-5'>必然趋势</b>

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能异构计算平台

    TEC100TAI-KIT是一款基于国产100TAI的全国产智能异构计算平台开发套件,该套件包含1个100TAI核心板和1个PCIE规格的扩展底板。 该套件的核心板集成了100TAI的最小
    的头像 发表于 09-19 17:16 640次阅读
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全国产化智能<b class='flag-5'>异构计算</b>平台

    【老法师】多核异构处理器中M程序的启动、编写和仿真

    文章,小编就将以飞凌嵌入式的OKMX8MP-C开发板为例,为大家介绍多核异构处理器M程序的启动配置、程序编写和实时仿真的过程。
    的头像 发表于 08-13 09:05 3691次阅读
    【老法师】多核<b class='flag-5'>异构</b>处理器中M<b class='flag-5'>核</b>程序的启动、编写和仿真

    PCIe协议分析仪能测试哪些设备?

    PCIe协议分析仪能测试多种依赖PCIe总线进行高速数据传输的设备,其测试范围覆盖计算、存储、网络及异构计算等多个领域,具体设备类型及测试场景如下:一、核心计算设备 GPU(图形处理器) 测试
    发表于 07-25 14:09

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 异构架构下的智能边缘计算标杆

    璞致电子推出PZ-ZU15EG-KFB异构计算开发板,搭载Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四ARM Cortex-A53、双Cortex-R5F
    的头像 发表于 07-22 09:47 722次阅读
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + <b class='flag-5'>异构</b>架构下的智能边缘<b class='flag-5'>计算</b>标杆

    智能安防边缘计算的技术解析

    维度,剖析核心板如何推动安防从"被动记录"到"主动决策"的升级,并给出选型建议。   --- 一、核心板的硬件架构创新**   1. 异构计算架构:算力与能效的平衡  以SSD2351为例,其采用**"CPU+NPU+IVE"三级计算架构**:   - **CPU**(双
    的头像 发表于 06-26 11:56 394次阅读

    异构计算解决方案(兼容不同硬件架构)

    异构计算解决方案通过整合不同类型处理器(如CPU、GPU、NPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术与实践方案如下: 一、硬件架构设计 异构处理器组合‌ 主从
    的头像 发表于 06-23 07:40 666次阅读

    如何释放异构计算的潜能?Imagination与Baya Systems的系统架构实践启示

    报告作者:PallaviSharma,Imaginaiton产品管理总监Dr.EricNorige,BayaSystems首席软件架构师关注Imagination公众号,消息框发送【异构计算】,即可
    的头像 发表于 06-13 08:33 849次阅读
    如何释放<b class='flag-5'>异构计算</b>的潜能?Imagination与Baya Systems的系统架构实践启示

    机器人本体企业开启“智能”探索

    “智能化、AI化,是工业机器人发展的必然趋势。”美的集团副总裁兼CTO卫昶如是
    的头像 发表于 06-05 17:11 1163次阅读

    能效提升3倍!异构计算架构让AI跑得更快更省电

    电子发烧友网报道(文/李弯弯)异构计算架构通过集成多种不同类型的处理单元(如CPU、GPU、NPU、FPGA、DSP等),针对不同计算任务的特点进行分工协作,从而在性能、能效和灵活性之间实现最优平衡
    的头像 发表于 05-25 01:55 3500次阅读

    全志科技多核异构SoC助力行业智能化创新

    近日, “第十二届开源操作系统年度技术会议”在北京举行,全志科技受邀参会。会上,全志进行了题为《多核异构SoC在行业应用中软件方案的思考与实践》的分享。分享从市场和技术洞察、方案设计创新、场景化应用落地三个维度展开系统性分享,全面展现了全志科技在异构计算领域的技术积累与行
    的头像 发表于 04-18 09:11 1051次阅读
    全志科技多核<b class='flag-5'>异构</b>SoC助力行业智能化创新

    RAKsmart智能算力架构:异构计算+低时延网络驱动企业AI训练范式升级

    在AI大模型参数量突破万亿、多模态应用爆发的今天,企业AI训练正面临算力效率与成本的双重挑战。RAKsmart推出的智能算力架构,以异构计算资源池化与超低时延网络为核心,重构AI训练基础设施,助力企业实现训练速度提升、硬件成本下降与算法迭代加速的三重突破。
    的头像 发表于 04-17 09:29 609次阅读

    机器人本体厂商抢滩布局智能机器人赛道

    “智能化、AI化,是工业机器人发展的必然趋势。”美的集团副总裁兼CTO卫昶如是
    的头像 发表于 03-25 14:17 919次阅读

    RK3399处理器:高性能多核异构计算平台

    RK3399是一款高性能的多核异构计算平台,集成了强大的CPU、GPU以及丰富的多媒体和接口功能。其独特的双Cortex-A72+四Cortex-A53大小CPU结构,使得RK3399在处理复杂
    的头像 发表于 02-08 18:04 2434次阅读

    异构计算的概念、核心、优势、挑战及考虑因素

    异构计算就像是一支由“多才多艺”处理器组成的团队,每个成员都有自己的强项和责任。   什么是异构计算‍‍‍‍‍ “异构计算”指的是在同一个计算平台中,部署多种不同类型的处理单元(比如
    的头像 发表于 01-13 11:43 1715次阅读