0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是AI芯片?为什么需要AI芯片?

dKBf_eetop_1 来源:未知 作者:工程师黄明星 2018-07-23 17:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

(1)性能与传统芯片,比如CPUGPU有很大的区别。在执行AI算法时,更快、更节能。

(2)工艺没有区别,大家都一样。至少目前来看,都一样。

所谓的AI芯片,一般是指针对AI算法的ASIC(专用芯片)。

传统的CPU、GPU都可以拿来执行AI算法,但是速度慢,性能低,无法实际商用。

比如,自动驾驶需要识别道路行人红绿灯等状况,但是如果是当前的CPU去算,那么估计车翻到河里了还没发现前方是河,这是速度慢,时间就是生命。如果用GPU,的确速度要快得多,但是,功耗大,汽车的电池估计无法长时间支撑正常使用,而且,老黄家的GPU巨贵,经常单块上万,普通消费者也用不起,还经常缺货。另外,GPU因为不是专门针对AI算法开发的ASIC,所以,说到底,速度还没到极限,还有提升空间。而类似智能驾驶这样的领域,必须快!在手机终端,可以自行人脸识别、语音识别等AI应用,这个必须功耗低,所以GPU OUT!

所以,开发ASIC就成了必然。

说说,为什么需要AI芯片。

AI算法,在图像识别等领域,常用的是CNN卷积网络,语音识别、自然语言处理等领域,主要是RNN,这是两类有区别的算法。但是,他们本质上,都是矩阵或vector的乘法、加法,然后配合一些除法、指数等算法。

一个成熟的AI算法,比如YOLO-V3,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。对于YOLO-V3来说,如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。比如一万亿次。(真实的情况比这个大得多的多)

那么要快速执行一次YOLO-V3,就必须执行完一万亿次的加法乘法次数。

这个时候就来看了,比如IBM的POWER8,最先进的服务器用超标量CPU之一,4GHz,SIMD,128bit,假设是处理16bit的数据,那就是8个数,那么一个周期,最多执行8个乘加计算。一次最多执行16个操作。这还是理论上,其实是不大可能的。

那么CPU一秒钟的巅峰计算次数=16X4Gops=64Gops。

这样,可以算算CPU计算一次的时间了。

同样的,换成GPU算算,也能知道执行时间。因为对GPU内部结构不熟,所以不做具体分析。

再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1.

TPU1,大约700M Hz,有256X256尺寸的脉动阵列,如下图所示。一共256X256=64K个乘加单元,每个单元一次可执行一个乘法和一个加法。那就是128K个操作。(乘法算一个,加法再算一个)

什么是AI芯片?为什么需要AI芯片?

另外,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。

所以,看看TPU1一秒钟的巅峰计算次数至少是=128K X 700MHz=89600Gops=大约90Tops。

对比一下CPU与TPU1,会发现计算能力有几个数量级的差距,这就是为啥说CPU慢。

当然,以上的数据都是完全最理想的理论值,实际情况,能够达到5%吧。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大。

可能有人要说,搞研究慢一点也能将就用。

目前来看,神经网络的尺寸是越来越大,参数越来越多,遇到大型NN模型,训练需要花几周甚至一两个月的时候,你会耐心等待么?突然断电,一切重来?(曾经动手训练一个写小说的AI,然后,一次训练(50轮)需要大约一天一夜还多,记得如果第一天早上开始训练,需要到第二天下午才可能完成,这还是模型比较简单,数据只有几万条的小模型呀。)

修改了模型,需要几个星期才能知道对错,确定等得起?

突然有了TPU,然后你发现,吃个午饭回来就好了,参数优化一下,继续跑,多么爽!

计算速度快,才能迅速反复迭代,研发出更强的AI模型。速度就是金钱。

GPU的内核结构不清楚,所以就不比较了。肯定的是,GPU还是比较快的,至少比CPU快得多,所以目前大多数都用GPU,这玩意随便一个都能价格轻松上万,太贵,而且,功耗高,经常缺货。不适合数据中心大量使用。

总的来说,CPU与GPU并不是AI专用芯片,为了实现其他功能,内部有大量其他逻辑,而这些逻辑对于目前的AI算法来说是完全用不上的,所以,自然造成CPU与GPU并不能达到最优的性价比。

谷歌花钱研发TPU,而且目前已经出了TPU3,用得还挺欢,都开始支持谷歌云计算服务了,貌似6点几美元每小时吧,不记得单位了,懒得查。

可见,谷歌觉得很有必要自己研发TPU。

目前在图像识别、语音识别、自然语言处理等领域,精度最高的算法就是基于深度学习的,传统的机器学习的计算精度已经被超越,目前应用最广的算法,估计非深度学习莫属,而且,传统机器学习的计算量与 深度学习比起来少很多,所以,我讨论AI芯片时就针对计算量特别大的深度学习而言。毕竟,计算量小的算法,说实话,CPU已经很快了。而且,CPU适合执行调度复杂的算法,这一点是GPU与AI芯片都做不到的,所以他们三者只是针对不同的应用场景而已,都有各自的主场。

至于为何用了CPU做对比?

而没有具体说GPU。是因为,我说了,我目前没有系统查看过GPU的论文,不了解GPU的情况,故不做分析。因为积累的缘故,比较熟悉超标量CPU,所以就用熟悉的CPU做详细比较。而且,小型的网络,完全可以用CPU去训练,没啥大问题,最多慢一点。只要不是太大的网络模型。

那些AI算法公司,比如旷世、商汤等,他们的模型很大,自然也不是一块GPU就能搞定的。GPU的算力也是很有限的。

至于说CPU是串行,GPU是并行

没错,但是不全面。只说说CPU串行。这位网友估计对CPU没有非常深入的理解。我的回答中举的CPU是IBM的POWER8,百度一下就知道,这是超标量的服务器用CPU,目前来看,性能已经是非常顶级的了,主频4GHZ。不知是否注意到我说了这是SIMD?这个SIMD,就代表他可以同时执行多条同样的指令,这就是并行,而不是串行。单个数据是128bit的,如果是16bit的精度,那么一周期理论上最多可以计算八组数据的乘法或加法,或者乘加。这还不叫并行?只是并行的程度没有GPU那么厉害而已,但是,这也是并行。

不知道为啥就不能用CPU来比较算力?

有评论很推崇GPU。说用CPU来做比较,不合适。

拜托,GPU本来是从CPU中分离出来专门处理图像计算的,也就是说,GPU是专门处理图像计算的。包括各种特效的显示。这也是GPU的天生的缺陷,GPU更加针对图像的渲染等计算算法。但是,这些算法,与深度学习的算法还是有比较大的区别,而我的回答里提到的AI芯片,比如TPU,这个是专门针对CNN等典型深度学习算法而开发的。另外,寒武纪的NPU,也是专门针对神经网络的,与TPU类似。

谷歌的TPU,寒武纪的DianNao,这些AI芯片刚出道的时候,就是用CPU/GPU来对比的。

看看,谷歌TPU论文的摘要直接对比了TPU1与CPU/GPU的性能比较结果,见红色框:

这就是摘要中介绍的TPU1与CPU/GPU的性能对比。

再来看看寒武纪DianNao的paper,摘要中直接就是DianNao与CPU的性能的比较,见红色框:

回顾一下历史

上个世纪出现神经网络的时候,那一定是用CPU计算的。

比特币刚出来,那也是用CPU在挖。目前已经进化成ASIC矿机了。比特大陆了解一下。

从2006年开始开启的深度学习热潮,CPU与GPU都能计算,发现GPU速度更快,但是贵啊,更多用的是CPU,而且,那时候GPU的CUDA可还不怎么样,后来,随着NN模型越来越大,GPU的优势越来越明显,CUDA也越来越6,目前就成了GPU的专场。

寒武纪2014年的DianNao(NPU)比CPU快,而且更加节能。ASIC的优势很明显啊。这也是为啥要开发ASIC的理由。

至于说很多公司的方案是可编程的,也就是大多数与FPGA配合。你说的是商汤、深鉴么?的确,他们发表的论文,就是基于FPGA的。

这些创业公司,他们更多研究的是算法,至于芯片,还不是重点,另外,他们暂时还没有那个精力与实力。FPGA非常灵活,成本不高,可以很快实现架构设计原型,所以他们自然会选择基于FPGA的方案。不过,最近他们都大力融资,官网也在招聘芯片设计岗位,所以,应该也在涉足ASIC研发了。

如果以FPGA为代表的可编程方案真的有巨大的商业价值,那他们何必砸钱去做ASIC?

说了这么多,我也是半路出家的,因为工作需要而学习的。按照我目前的理解,看TPU1的专利及论文,一步一步推导出内部的设计方法,理解了TPU1,大概就知道了所谓的AI处理器的大部分。然后研究研究寒武纪的一系列论文,有好几种不同的架构用于不同的情况,有兴趣可以研究一下。然后就是另外几个独角兽,比如商汤、深鉴科技等,他们每年都会有论文发表,没事去看看。这些论文,大概就代表了当前最先进的AI芯片的架构设计了。当然,最先进,别人肯定不会公开,比如谷歌就不曾公开关于TPU2和TPU3的相关专利,反正我没查到。不过,没事,目前的文献已经代表了最近几年最先进的进展了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53590

    浏览量

    459779
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11224

    浏览量

    223089
  • AI
    AI
    +关注

    关注

    90

    文章

    38265

    浏览量

    297288

原文标题:AI 芯片和传统芯片有何区别?

文章出处:【微信号:eetop-1,微信公众号:EETOP】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    VS680 HDMI AI分析解决方案 #目标识别 #视频翻译 #AI #芯片

    AI
    深蕾半导体
    发布于 :2025年11月12日 10:29:33

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)物联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术需求 AI取得成功
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    可以被称为第一人称视角。 第一人称视角:指一个实体本身在观察或经历事物时,所能够看到或感知到的角度。 二、AI感知技术与芯片 具身智能3个层次组成:感知层、认知层和决策行动层。 感知层: 感知层是具身
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    AI芯片不仅包括深度学细AI加速器,还有另外一个主要列别:类脑芯片。类脑芯片是模拟人脑神经网络架构的芯片
    发表于 09-17 16:43

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就一个跨学科、全面性覆盖的知识库和科学
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    顺序排列并存储在毛细血管内。 电石存储器: 3、化学计算的总体现状与前景 二、生物计算 1、用活细胞实现AI 作者第七章才会介绍类脑芯片,到时候我们再一起欣赏吧。 这里只是先给我们打了个基础概念。 1
    发表于 09-15 17:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    持续发展体现在: 1、收益递减 大模型的基础的需要极大的算力,这首先源于昂贵的高性能AI芯片,然后是宝贵的电力、水等与环境相关的资源。 收益递减体现在: ①模型大小 ②训练数据量 ③训练算法的优化 2
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    射频模拟处理器的原型与概念验证 3、光电组合AI芯片 目前最好的应对Transformer模型需要的极高算力的方法之一就是使用光子计算芯片来代替基于CMOS的
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    的工作吗? 从书中也了解到了AI芯片都有哪些?像CPU、GPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于AI
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    保持停滞的情况下,依照目前计算机的能耗效率,至少还需要30年的努力才接近其水准,见图1所示。 图1 大脑与计算机的能量效率对比 图2 类脑芯片的前瞻性研究领域AI湿件 为此,一些想法超前的科学家
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    章 具身智能芯片 第9章 从AI芯片到AGI芯片 图2 各章重点及逻辑框架 该书可供AI芯片
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    芯片设计为例,从最初的架构选型,到算法适配、性能优化,每个环节都考验着工程师的专业素养。在设计一款面向智能安防领域的 AI 芯片时,需要深入研究安防场景下图像识别算法的特点,针对性地
    发表于 08-19 08:58

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    名单公布 @LiuDW、@jinglixixi、@bruceleesohu 请于9月3日前,前往【书籍评测活动NO.64】《AI芯片:科技探索与AGI愿景》完成书籍兑换。 如有疑问请 添加小助手微信
    发表于 07-28 13:54

    AI芯片需要ASIC

    电子发烧友网报道(文/李弯弯) 2025年,全球AI芯片市场正迎来一场结构性变革。在英伟达GPU占据主导地位的大格局下,ASIC(专用集成电路)凭借针对AI任务的定制化设计,成为推动算力革命的新动力
    的头像 发表于 07-26 07:30 5902次阅读

    AI芯片上的应用:革新设计与功能

    AI芯片上的应用正在深刻改变着芯片设计、制造和应用的全过程。未来,随着AI技术的不断进步和应用场景的不断拓展,AI
    的头像 发表于 02-17 16:09 1316次阅读