电子发烧友网 > 人工智能 > 正文

智能芯片市场格局一变再变 TPU将成深度学习的未来?

2017年05月19日 11:49 次阅读

在Google I/O 2016的主题演讲进入尾声时,谷歌的CEO皮采提到了一项他们这段时间在AI和机器学习上取得的成果,一款叫做Tensor Processing Unit(张量处理单元)的处理器,简称TPU。在这个月看来,第一代的TPU处理器已经过时。

在昨天凌晨举行的谷歌I/O 2017大会上,谷歌除了宣传了安卓8.0之外,更为重要的是着重谈到了人工智能,于是第二代TPU也就应运而生。TPU是谷歌自主研发的一种转为AI运算服务的高性能处理器,其第一代产品已经在AlphaGo这样的人工智能当中使用,主攻运算性能。

第二代TPU相比较于初代主要是加深了人工智能在学习和推理方面的能力,至于性能的话,全新的谷歌TPU可以达到180 TFLOPs的浮点性能,和传统的GPU相比提升15倍,更是CPU浮点性能的30倍。

另外谷歌还推出了一款叫做TPU pod的运算阵列,最多可以包含64颗二代TPU,也就是说浮点性能可以达到惊人的11.5 PFLOPS。

从名字上我们可以看出,TPU的灵感来源于Google开源深度学习框架Tensor Flow,所以目前TPU还是只在Google内部使用的一种芯片。

TPU 诞生

2011年,Google 意识到他们遇到了问题。他们开始认真考虑使用深度学习网络了,这些网络运算需求高,令他们的计算资源变得紧张。Google 做了一笔计算,如果每位用户每天使用3分钟他们提供的基于深度学习语音识别模型的语音搜索服务,他们就必须把现有的数据中心扩大两倍。他们需要更强大、更高效的处理芯片。

他们需要什么样的芯片呢?中央处理器(CPU)能够非常高效地处理各种计算任务。但 CPU 的局限是一次只能处理相对来说很少量的任务。另一方面,图像处理单元(GPU)在执行单个任务时效率较低,而且所能处理的任务范围更小。不过,GPU 的强大之处在于它们能够同时执行许多任务。例如,如果你需要乘3个浮点数,CPU 会强过 GPU;但如果你需要做100万次3个浮点数的乘法,那么 GPU 会碾压 CPU。

GPU 是理想的深度学习芯片,因为复杂的深度学习网络需要同时进行数百万次计算。Google 使用 Nvidia GPU,但这还不够,他们想要更快的速度。他们需要更高效的芯片。单个 GPU 耗能不会很大,但是如果 Google 的数百万台服务器日夜不停地运行,那么耗能会变成一个严重问题。

谷歌决定自己造更高效的芯片。

2016年5月,谷歌在I/O大会上首次公布了TPU(张量处理单元),并且称这款芯片已经在谷歌数据中心使用了一年之久,李世石大战 AlphaGo 时,TPU 也在应用之中,并且谷歌将 TPU 称之为 AlphaGo 击败李世石的“秘密武器”。

智能芯片市场格局一变再变 TPU将成深度学习的未来?

第一代TPU内部架构

该图显示了TPU上的内部结构,除了外挂的DDR3内存,左侧是主机界面。指令从主机发送到队列中(没有循环)。这些激活控制逻辑可以根据指令多次运行相同的指令。

TPU并非一款复杂的硬件,它看起来像是雷达应用的信号处理引擎,而不是标准的X86衍生架构。Jouppi说,尽管它有众多的矩阵乘法单元,但是它GPU更精于浮点单元的协处理。另外,需要注意的是,TPU没有任何存储的程序,它可以直接从主机发送指令。

TPU上的DRAM作为一个单元并行运行,因为需要获取更多的权重以馈送到矩阵乘法单元(算下来,吞吐量达到了64,000)。Jouppi并没有提到是他们是如何缩放(systolic)数据流的,但他表示,使用主机软件加速器都将成为瓶颈。

智能芯片市场格局一变再变 TPU将成深度学习的未来?

256&TImes;256阵列缩放数据流引擎,经过矩阵乘法积累后实现非线性输出

从第二张图片可以看出,TPU有两个内存单元,以及一个用于模型中参数的外部DDR3 DRAM。参数进来后,可从顶部加载到矩阵乘法单元中。同时,可以从左边加载激活(或从“神经元”输出)。那些以收缩的方式进入矩阵单元以产生矩阵乘法,它可以在每个周期中进行64,000次累加。

毋庸置疑,谷歌可能使用了一些新的技巧和技术来加快TPU的性能和效率。例如,使用高带宽内存或混合3D内存。然而,谷歌的问题在于保持分布式硬件的一致性。

能够进行数据推理的第二代TPU

第一代的TPU只能用于深度学习的第一阶段,而新版则能让神经网络对数据做出推论。谷歌大脑研究团队主管Jeff Dean表示:“我预计我们将更多的使用这些TPU来进行人工智能培训,让我们的实验周期变得更加快速。”

“在设计第一代TPU产品的时候,我们已经建立了一个相对完善和出色的研发团队进行芯片的设计研发,这些研发人员也基本上都参与到了第二代TPU的研发工程中去。从研发的角度来看,第二代TPU相对于第一代来说,主要是从整体系统的角度,提升单芯片的性能,这比从无到有的设计第一代TPU芯片来说要简单许多。所以我们才能有更多的精力去思考如何提升芯片的性能,如何将芯片更好的整合到系统中去,使芯片发挥更大的作用。”Dean在演讲中表示。

未来,我们将继续跟进谷歌的进度,以进一步了解这一网络架构。但是在此之前,我们应当了解新一代TPU的架构、性能以及工作方式,明白TPU是如何进行超高性能计算的。在此次发布会上,谷歌并没有展示新一代TPU的芯片样片或者是更加详细的技术规格,但是我们依旧能够从目前所知的信息中对新一代TPU做出一些推测。

智能芯片市场格局一变再变 TPU将成深度学习的未来?

从此次公布的TPU图片来看,第二代TPU看上去有点像Cray XT或者是XC开发板。从图片上,我们不难发现,相互连接的几个芯片被焊接到了开发板上,同时保持了芯片之间以及芯片与外部的连接功能。整个板子上共有四个TPU芯片,正如我们之前所说,每一个单独的芯片都可以达到180TFLOPs的浮点性能。

在开发板的左右两侧各有四个对外的接口,但是在板子的左侧额外增加了两个接口,这一形式使得整个板子看上去略显突兀。如果未来每一个TPU芯片都能够直接连接到存储器上,就如同AMD即将推出的“Vega”处理器可以直接连接GPU一样,这一布局就显得非常有趣。左侧多出的这两个接口在未来可以允许TPU芯片直接连接存储器,或者是直接连接到上行的高速网络上以进行更加复杂的运算。

以上这些都是我们基于图片的猜测,除非谷歌能够透露更多的芯片信息。每一个TPU芯片都有两个接口可以与外部的设备进行连接,左侧有两个额外的接口对外开发,可以允许开发者在此基础上设计更多的功能,添加更多的扩展,无论是连接本地存储设备还是连接网络,这些功能在理论上都是可行的。(实现这些功能,谷歌只需要在这些接口之间建立相对松散可行的内存共享协议即可。)

下图展示了多个TPU板一种可能的连接形式,谷歌表示,这一模型可以实现高达11.5千万亿次的机器学习计算能力。

智能芯片市场格局一变再变 TPU将成深度学习的未来?

这一结果是如何得出的呢。上面这种连接方式,从外形上来看,非常像开放的计算机架构,或者是其他的一些东西。纵向上来看,叠加了8个TPU板,横向上看,并列了4个TPU板。目前我们无法断定每一个开发板都是完整的TPU板或者是半个开发板,我们只能看到板子的一侧有6个接口,另一侧有2个接口。

值得注意的是,板子的中间采用了4个接口,而左右两侧采用了2个接口,并且在左右两侧也没有见到与TPU开发板类似的外壳。对此,一个比较合理的解释就是,左右两侧连接的是本地存储器接口,而不是TPU芯片接口。

即便如此,我们依旧能看到至少32个TPU二代母板在运行,这也意味着,有128个TPU芯片在同时运行。经过粗略的计算,整套系统的计算能力大概在11.5千万亿次。

举个例子来说,如果这一运算能力在未来能够运用到商业领域,谷歌现在进行的大规模翻译工作所采用的32个目前最先进的GPU,在未来就可以缩减为4个TPU板,并能够极大的缩减翻译所需要的时间。

值得注意的是,上文所提到的TPU芯片不仅仅适用于浮点运算,也同样适用于高性能计算。

TPU的训练与学习

与第一代TPU相比,第二代TPU除了提高了计算能力之外,增加的最大的功能就是数据推理能力,不过这一推理模型必须先在GPU上进行训练才可以。这一训练模式使得谷歌等开发厂商必须降低实验的速度,重塑训练模型,这将耗费更长的时间,才能使机器获得一定的数据推理能力。

正是因为如此,在相对简单和单一的设备上先进行训练,然后将结果带入带更为复杂的环境中去,从而获得更高层次的数据推理能力,这一迭代工程是必不可少的。未来,英特尔推出的用于人工智能的GPU也将会采用这一迭代模式。英伟达的Volta GPU也是如此。

拥有“tensor core”的英伟达Volta GPU拥有超高速的机器学习与训练能力,未来可能达到120万亿次的单设备计算能力,这一运算能力与去年上市的Pascal GPU相比,在计算能力上提升了大约40%。但是像谷歌推出的TPU这种超高速的计算能力所带来的影响,我们即便很难在生活中切身的体会到,但是GPU越来越快的计算能力依旧令人印象深刻,也离我们更近。

Dean表示,英伟达Volta所采用的架构是非常有趣的,这一架构使得通过核心矩阵来加速应用的目的成为可能。从一定程度上来说,谷歌推出的第一代TPU也采用了类似的想法,实际上,这些技术现在依然在机器学习的流程中被采用。“能够加快线性计算能力总是非常有用的。”Dean强调。

姑且不考虑硬件方面的影响,依然存在着许多能够吸引用户的地方。与那些始终保持机密的项目不同,未来,谷歌将会将TPU技术运用到谷歌云平台。谷歌的高级研究员Jeff Dean表示,他们不希望通过各种手段来限制竞争,希望能够为TPU提供更多的可能与空间,这样在未来才能够与Volta GPU以及Skylake Xeons竞争。

智能芯片市场格局一变再变 TPU将成深度学习的未来?

Dean认为,平台也应当为开发者提供更多能够建立和执行各自特有模型的机会,而不是限制开发者的思维。未来,谷歌将会在云平台上为那些对开放的科研项目感兴趣并不断推进机器学习的研究团队提供超过1000个TPU。

Dean表示,现在在谷歌内部,在进行机器训练和学习的时候,也会同时采用GPU和CPU,在同一设备上也是如此,这样能够更好的保证平衡。但是对于新一代的TPU芯片,目前来说,训练和学习时候的功率还不能够准确的估计,但是值得肯定的是,功能肯定是低于Volta GPU。由于系统在功能上能够满足高性能计算和64位高性能计算,这就使得工作负载的计算异常复杂。英伟达的GPU在使用过程中也会遇到类似的问题。未来,想要更好的解决这一问题,需要我们跟工程师继续努力。

在这一点上,Dean也承认:“与第一代TPU芯片整数计算的方式不同,第二代芯片能够进行浮点运算。所以在芯片进行学习训练的过程中,只需要采用固定的模型即可,不需要变动算法。工程师可以采用相同的浮点运算方式,这在很大程度上降低了工作量。”

除了英伟达和英特尔之外,谷歌将其定制的硬件产品推向市场,对于企业来说未尝不是一件好事。因为TPU来说对于市场来说还是相当边缘化的技术。当第二代TPU产品应用到谷歌云平台之后,谷歌将会向大量的用户推送培训,这将会更好的推动这一技术的发展。

对于哪些对于谷歌为什么不将芯片进行商业化的人来说,以上的内容大概能够给出一个回答。随着人工智能和神经学习技术的不断发展,TPU将能够在谷歌云上大展拳脚,成为推动技术进步的一大力量。

TPU对谷歌意味着什么?

谷歌专门开发的应用于深度神经网络的软件引擎。谷歌表示,按照摩尔定律的增长速度,现在的TPU的计算能力相当于未来七年才能达到的计算水平,每瓦能为机器学习提供更高的量级指令,这意味它可以用更少的晶体进行每一个操作,也就是在一秒内进行更多的操作。并且谷歌将其与Deep learning系统平台TensorFlow进行了深度绑定,可以获得更好的支持,做更强的生态,包括搜索、无人驾驶汽车、智能语音等100多个需要使用机器学习技术的项目。

TPU 是深度学习的未来吗?

深度学习计算中的芯片部署都不是零和博弈。现实世界的深度学习网络需要系统的 GPU 与其他 GPU 或诸如 Google TPU 之类的 ASIC 通信。GPU 是理想的工作环境,具有深度学习所需的灵活性。但是,当完全专用于某个软件库或平台时,则 ASIC 是最理想的。

谷歌的 TPU 显然符合这样的要求。TPU 的卓越性能使得 TensorFlow 和 TPU 很可能是一起升级的。虽然谷歌官方已经多次明确表示,他们不会对外销售 TPU。不过,利用 Google 云服务做机器学习解决方案的第三方可以得益于 TPU 卓越性能的优势。

智能芯片市场格局一变再变,谷歌 TPU 的出现让面向神经网络/深度学习特定领域加速的芯片趋势更加明显。高端 AI 应用需要强大的芯片做支撑。软硬件缺了哪一块中国的智能生态也发展不起来。中国处理器学术和工程都在不断提高,我们期待中国芯早日出现在世界舞台与国际同行竞技。

技术专区

关注电子发烧友微信

有趣有料的资讯及技术干货

下载发烧友APP

打造属于您的人脉电子圈

关注发烧友课堂

锁定最新课程活动及技术直播
收藏 人收藏
分享:

评论

相关推荐

特斯拉无线充电器使用TPU

热塑性聚氨酯(TPU)作为公司后市解决方案的核心组成部分,提升了特斯拉无线充电器Model3的性能。

发表于 2018-03-20 11:09 484次阅读
特斯拉无线充电器使用TPU

人机搭配干活不累_与实体经济紧密融合

“加强新一代 人工智能 研发应用,在医疗、养老、教育、文化、体育等多领域推进‘互联网+’。发展智能产...

发表于 2018-03-16 01:36 237次阅读
人机搭配干活不累_与实体经济紧密融合

全志科技的芯片优势

全志科技(Allwinner Technology) 成立于2007年,研发总部位于中国珠海,在深圳...

发表于 2018-03-06 16:51 872次阅读
全志科技的芯片优势

专家与处理器架构未来

一年一度的ISSCC(International Solid State Circuits Conf...

发表于 2018-03-05 15:29 285次阅读
专家与处理器架构未来

谷歌出手AI芯片和公有云市场 TPU首次对外全面...

今日报道,谷歌向外宣布TPU将启动全面开放模式,据悉这是谷歌TPU首次对外全面开放。TPU的威力极大...

发表于 2018-02-13 09:49 259次阅读
谷歌出手AI芯片和公有云市场 TPU首次对外全面...

AI芯片NovuTensor是除TPU 世界上跑...

NovuMind推出的AI 芯片 NovuTensor号称是除了TPU 之外,跑得最快的单芯片,相同...

发表于 2018-01-12 10:54 236次阅读
AI芯片NovuTensor是除TPU 世界上跑...

传统计算机芯片“算力”不足问题日益凸显 研究新一...

前不久,美国公布的《2016—2045年新兴科技趋势报告》将人工智能作为最值得关注的科技发展趋势之一...

发表于 2018-01-08 08:44 1092次阅读
传统计算机芯片“算力”不足问题日益凸显 研究新一...

智能手机中的三大AI芯片的区别及应用详解

作为手机界的新生事物,目前搭载人工智能芯片的手机并不多见,仅有iPhone X、华为Mate 10/...

发表于 2017-12-11 15:39 3832次阅读
智能手机中的三大AI芯片的区别及应用详解

中国突围智能芯片领域,全面迎击国外芯片凶猛势力

中国半导体行业从2015年便开始了爆发性的增长,预测到2018年,行业产值将会突破6200亿元人民币...

发表于 2017-12-02 09:25 358次阅读
中国突围智能芯片领域,全面迎击国外芯片凶猛势力

tpu是什么材料_tpu硬度范围_tpu的应用

TPU(Thermoplastic polyurethanes)名称为热塑性聚氨酯弹性体橡胶。主要分...

发表于 2017-12-01 15:55 442次阅读
tpu是什么材料_tpu硬度范围_tpu的应用

语音通讯系统中的消噪,消回音技术-富迪FMXX系列消噪芯片介绍

发表于 2017-11-28 11:26 1130次阅读
语音通讯系统中的消噪,消回音技术-富迪FMXX系列消噪芯片介绍

英伟达GPU 对战谷歌TPU,英伟达是否还能坚守...

过去两年间,深度学习的热潮使英伟达的数据中心业务增长了五倍,同时也催生了行业竞争。截至2017年,以...

发表于 2017-11-21 16:57 222次阅读
英伟达GPU 对战谷歌TPU,英伟达是否还能坚守...

智能口罩免除雾霾困扰,续航可达四小时

与市面上其他产品(N95)相比,该口罩滤网的净化效果达到了N99的级别,从大的颗粒到小的PM2.5都...

发表于 2017-11-18 08:19 175次阅读
智能口罩免除雾霾困扰,续航可达四小时

小米随身电筒照明和手机充电两不误,仅售价79元

内置松下或LG的3350mAh锂离子电池,能支持长达216分钟的强光照明。同时支持智能温控功能,可以...

发表于 2017-11-17 15:51 486次阅读
小米随身电筒照明和手机充电两不误,仅售价79元

现代化生活 – 智能化的家与建筑

发表于 2017-09-12 14:41 234次阅读
现代化生活 – 智能化的家与建筑

GUI领域的又一个重器,电器设备领域人机交互触控的超级方案

发表于 2017-07-03 16:07 692次阅读
GUI领域的又一个重器,电器设备领域人机交互触控的超级方案

变轻的AlphaGo,仅使用1个谷歌专用芯片

近日,与柯杰象棋博弈的人工智能(AI)‘AlpahGo2.0’的大脑秘密被公开了。它仅用一个谷歌制造...

发表于 2017-05-24 17:24 385次阅读
变轻的AlphaGo,仅使用1个谷歌专用芯片

谷歌TPU性能再提升,Intel和NVIDIA感...

谷歌在其2017年I/O开发者大会推出了全新一代云端处理器单元(TPU),相比主攻内容认知判断的前一...

发表于 2017-05-18 10:08 377次阅读
谷歌TPU性能再提升,Intel和NVIDIA感...

Google公布Tensor人工智能服务器芯片T...

Google今天在一篇论文中公布了Tensor人工智能服务器处理芯片TPU的详细资料。TPU是一种专...

发表于 2017-04-08 01:15 241次阅读
Google公布Tensor人工智能服务器芯片T...

厉害了我的哥:地平线机器人 叫板谷歌、faceb...

在传感器层面的大数据爆发年代,伴随万物互联、大数据、云技术、超级计算等技术的发展,互联网智能化时代已...

发表于 2016-11-23 11:06 704次阅读
厉害了我的哥:地平线机器人 叫板谷歌、faceb...

人工智能的发展将影响英伟达、英特尔厂商命运

据国外媒体报道,目前,谷歌、Facebook、微软、亚马逊和百度等互联网巨头在探索多种能推动人工智能...

发表于 2016-10-31 13:52 257次阅读
人工智能的发展将影响英伟达、英特尔厂商命运

人工智能大风口下的TPU/NPU/CPU/GPU

芯片也为响应人工智能和深度学习的需要,在速度和低能耗方面被提出了更高的要求,目前使用的 GPU、FP...

发表于 2016-07-25 09:08 1405次阅读
人工智能大风口下的TPU/NPU/CPU/GPU

GPU/CPU/TPU都是啥?有何区别?

正在向人工智能服务器供应商转型的图形处理器 (GPU)生产巨头英伟达(NVIDIA)股价周一创出历史...

发表于 2016-05-30 16:01 32237次阅读
GPU/CPU/TPU都是啥?有何区别?

谷歌的TPU芯片是如何演进而来的?

Google I/O是由Google举行的网络开发者年会,讨论的焦点是用Google和开放网络技术开...

发表于 2016-05-30 10:11 2084次阅读
谷歌的TPU芯片是如何演进而来的?

谷歌设计的TPU芯片会使哪些厂商产生危机?

谷歌前些天发布了专为其深度学习算法Tensor Flow设计的专用集成芯片,命名为张量处理单元(Te...

发表于 2016-05-24 16:28 1076次阅读
谷歌设计的TPU芯片会使哪些厂商产生危机?

谷歌I/O大会上说的TPU是啥?谷歌是这样解释的

还记得前段时间沸沸扬扬的Google人工智能Alpha Go在南韩围赢了围棋九段高手李世乭的事吗?G...

发表于 2016-05-23 15:40 1552次阅读
谷歌I/O大会上说的TPU是啥?谷歌是这样解释的

如何应对常见的在线烧录异常情况

在线烧录,顾名思义,直接在电路板上对芯片进行烧录,不依赖于烧录座,不受烧录座寿命影响,是一种低成本I...

发表于 2016-02-24 15:50 1816次阅读
如何应对常见的在线烧录异常情况

Sci-brick互联网+万用表,给工程师享受一...

Sci-brick互联网+万用表是最大的特点就是“自动测量,一键生成图表,海量存储和贴心人机交互。

发表于 2015-12-03 14:46 341次阅读
Sci-brick互联网+万用表,给工程师享受一...

可穿戴风暴挡不住 跑鞋也玩智能化

“这双跑鞋是智能的吗?”,未来在运动鞋的卖场或许也会出现这样的疑问。我们可以不使用任何可穿戴设备,但...

发表于 2015-03-20 15:38 1609次阅读
可穿戴风暴挡不住 跑鞋也玩智能化

MWC2015快速充电引关注 各大品牌纷纷秀技术

手机行业上应用快充的案例早就有之,最早可以从OPPO在量产产品中采用VOOC闪充说起,其快充案例应用...

发表于 2015-03-05 13:42 1347次阅读
MWC2015快速充电引关注 各大品牌纷纷秀技术

高通正开发像大脑一样有学习能力的处理器

著名芯片厂商美国高通公司目前正在开发一种全新的Zeroth处理器来帮助计算机或智能设备可以模拟人脑神...

发表于 2013-10-14 10:03 369次阅读
高通正开发像大脑一样有学习能力的处理器

智能芯片业迎来机遇 本土企业借势壮大

智能电网、智能卡、北斗系统等国家积极鼓励促进的产业,为本土IC企业带来了难得的机遇,诞生或壮大了一批...

发表于 2013-02-26 09:57 371次阅读
智能芯片业迎来机遇 本土企业借势壮大

智能芯片爆发 联发科光荣之战“芯”路历程

2013年将是联发科的反扑时刻。根据估计,联发科智能手机芯片出货量将达2.68亿套,是去年1.5倍以...

发表于 2013-01-28 17:58 1204次阅读
智能芯片爆发 联发科光荣之战“芯”路历程

吸热、吸光、吸震的免电池芯片

电子发烧友网: 在生物医学、远程控制以及外太空等电子应用领域,免电池芯片控制系统可大大减少电子设备的...

发表于 2012-07-16 16:36 617次阅读
吸热、吸光、吸震的免电池芯片

英飞凌:智能芯片行业的领导者

在世界上最大和要求最苛刻的智能卡项目上,在安全领域,是谁默默的、辛勤耕耘25载,取得了诸多技术创新却...

发表于 2011-08-17 09:25 280次阅读
英飞凌:智能芯片行业的领导者

手机钱包

发表于 2011-06-30 11:17 1635次阅读
手机钱包