侵权投诉

Facebook AI又出新作:性能翻倍,计算成本不增加

全球人工智能 2019-07-16 10:56 次阅读

Facebook AI又出新作,LeCun力荐!在BERT等先进架构中插入一个“存储器”层,能极大提升网络容量和性能,同时保持计算成本基本不变。实验表明,采用新模型的12层网络性能即与24层BERT-large模型的性能相当,运行时间减少一半。

图灵奖得主,AI大神Yann LeCun发Twitter推荐。LeCun认为,本文用product key memory层替代了BERT模型中的结构层,实现了与后者相当的性能,计算量降低了一半。

本文介绍了一种可以轻松集成到神经网络中的结构化存储器。该存储器在设计上非常大,架构的容量显著增加,参数数量可达十亿个,而增加的计算成本基本上可忽略不计。存储器的设计和访问模式基于产品密钥,可实现快速准确的最近邻搜索。

这一新方法在保持计算成本不增加的同时,大幅增加了参数数量,使得整个系统在训练和测试时,能够在预测准确度和计算效率之间进行更优化的权衡。这个存储器层能够处理超大规模的语言建模任务。

在实验中,我们使用一个包含高达300亿字的数据集,并将存储器层插入最先进的transformer的架构网络中。结果表明,只有12层的存储器增强模型的性能,优于24层的基线transformer模型,而在推理时间方面,前者比后者快两倍。相关代码已经发布,以用于重现实验。

图1:键值存储器层概述:输入x通过查询网络处理,该查询网络生成查询向量q,将查询向量q与所有键进行比较。输出是与所选键相关的存储器的稀疏加权和。对于大量密钥| K |,密钥选择过程在实践中成本过高。我们的product key方法是精确的,整个搜索过程非常快。

神奇的“存储器层”:性能翻倍,计算成本不增加

本文提出了一个键值存储器(key memory)层,可以扩展到非常大的规模,同时保持对关键空间的搜索精度。该层显著增加了整个系统的容量,而增加的计算成本可以忽略不计。与基于键值存储器的现有模型(图1)不同,本文将“键”定义为两个子键的串联。更多细节如图2所示,该结构隐含地定义了一组非常大的键,每个键与值存储器槽相关。值向量集中引入了大量参数,因为参数数量与子键的数量成平方关系。

图2:product key示意图。我们定义了两个离散的密钥子集(子密钥集1和子密钥集2)。它们会产生更大的密钥集,这些密钥永远不会明文表示。对于给定的查询,我们将其分为两个子查询(q1和q2)。在每个子集中选择k个最接近的密钥(图中的k = 2),从而隐含地选择k×k个密钥。保证使用查询最大化内积的k个key属于该子集,在该子集上可以更高效地进行搜索。

尽管存储器slot数量很大,但找到输入的最精确键是非常有效的,通常需要O(p | K |)次向量比较,其中|K |是内存插槽的总数。所有存储器参数都是可训练的,但在训练时每个输入只更新少量内存slot。密钥选择和参数更新的稀疏性使训练和推理非常有效。

本文中加入的存储器层,可以解决现有架构在给定大量可用数据的情况下遇到的问题,也可以提升运行速度。我们以语言建模任务为例,将存储器层整合到流行的transformer架构中。这样做的原因是,BERT 和GPT-2 取得了巨大成功,证明了增加大型模型的容量,能够直接转化为对语言建模性能的大幅改进,反过来又能促进双语言理解任务和文本生成任务的性能提升。

总的来说,本文的主要贡献如下:

引入了一个新的网络层,大幅扩充了神经网络的容量,在训练和测试时只需要很小的计算成本,几乎可以忽略不计。

提出了新的快速索引策略,通过构造提供精确的最近邻域搜索,并避免了依赖在训练期间重新学习的索引结构产生的缺陷。

在一个大型transformer最先进网络架构中演示了本文中的方法,该网络由24层组成。我们的方法有1个存储器和12层结构,结果性能与24层transformer架构相当,推理时间则是后者的两倍。实验表明,为各种复杂性的transformer网络架构添加更多存储器层,可以为目标任务提供系统而显著的性能提升。

图3:左:典型的transformer模块由自注意力层和FFN层(双层网络)组成。右图:在我们的系统用product存储器层替换了FFN层,这类似于具有非常大的隐藏状态的稀疏FFN层。在实践中,我们仅替换N层FFN层,其中N∈{0,1,2}

实验过程

数据集

最大的公开语言建模数据集是One Billion Word语料库。在该数据集上获得良好的性能需要繁琐的正则化,因为它现在对于标准体系结构来说太小了,本实验亦然,且观察到即使是小模型也足以过度拟合。

在此数据集上,对于维度为1024的16层模型,当验证困惑(perplexity)开始增加时,获得25.3的测试困惑度。

研究人员从公共通用爬网中提取了30倍大的语料库,训练集由280亿字组成(140 GB的数据)。

与One Billion Word语料库不同,研究人员的语料库没有改变句子,允许模型学习远程依赖。在这个数据集上,没有观察到任何过度拟合,并且系统地增加模型容量导致验证集上的更好性能。

操作细节

研究人员使用具有16个attention heads和位置嵌入的transformer架构。

研究人员考虑具有12、16或24层的模型,具有1024或1600维度,并使用Adam优化器训练模型,学习率为2.5×10^(-4),其中β1=0.9,β2=0.98,遵循Vaswani等人的学习率计划。

由于使用稀疏更新来学习内存值,研究人员发现以更高的Adam学习率10^(-3)来学习它们是极好的。于是用PyTorch实现模型、在32个Volta GPU上训练,并使用float16操作来加速训练、减少模型的GPU内存使用。

下图是对比有内和没有内存时,模型的测试困惑;以及在测试集上的速度和困惑之间进行权衡。

结果

上图显示了CC-News语料库测试集上,不同模型的困惑度。研究人员观察到,增加维度或层数会导致在所有模型中显著改善困惑。

但是,为模型添加内存比增加层数更有利;例如,当隐藏单元的数量为1024和1600时,具有单个存储器和12层的模型优于具有相同隐藏尺寸和24层的无记忆模型。

添加2或3个存储层进一步提高了性能。特别是,当内部隐藏状态具有1600维时,具有12层和存储器的模型比具有24层(与BERT large的配置相同)的模型获得更好的困惑,速度几乎快了两倍。将内存添加到内部维度等于1600的large型模型时,推理时间几乎不会增加。

消融研究(Ablation study)

在为了研究不同组件对内存层的影响,并测量它们如何影响模型性能和内存使用情况。除非特别注明,这里考虑存储器为5122=262k插槽,4个存储器磁头,k=32个选定键,研究人员将其嵌入到第5层。

上图显示增加head数或k-NN数。可以改善模型的复杂性和内存使用。

研究人员还注意到。具有相同h×k(h是head数,k是最近邻数)的模型具有相似的内存使用。比如,(h, k) ∈ {(1, 64),(2, 32),(4, 16),(8, 8)}所有内存使用率约为70%,困惑度约为20.5。

总体上看,添加更多head可以提高性能,但也会增加计算时间。实验结果表明,head=4,k=32时可以在速度和性能之间取得良好的平衡。

总结

论文介绍了一个内存层,它允许以几乎可以忽略不计的计算开销大幅提高神经网络的容量。

该层的效率依赖于两个关键因素:将key分解为产品集,以及对内存值的稀疏读/写访问。图层被集成到现有的神经网络架构中。

研究人员通过实验证明它在大规模语言建模方面取得了重要进展,12层的性能达到了24层BERT-large模型的性能,运行时间缩短了一半。

原文标题:LeCun力荐:Facebook推出十亿参数超大容量存储器

文章出处:【微信号:aicapital,微信公众号:全球人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

【5月12】不懂编程没关系,邀请您来学AI

不懂编程没关系,邀请您来学AI活动概述:本活动是现场讲座,由台湾知名AI教育专家、金门创新学院院长、台湾Android技
发表于 05-24 00:00 0次 阅读
【5月12】不懂编程没关系,邀请您来学AI

AI热潮不减 BAT开始打响海外抢人大战

10月19日,小米集团宣布,AI语音识别大牛Daniel Povey正式加入小米。而在9月份,世界级....
发表于 11-13 17:37 56次 阅读
AI热潮不减 BAT开始打响海外抢人大战

企业移动性怎样利用AI来改变

人工智能的崛起,让应用程序,设备管理和用户体验都将受到影响,但最大的发展可能是在安全领域。
发表于 11-13 17:32 32次 阅读
企业移动性怎样利用AI来改变

使用架构可以怎样来解决人工智能问题

人工智能技术虽然令人兴奋,但也并不成熟。冒着听起来亵渎神明的风险,但孤立的人工智能技术是没有用的。
发表于 11-13 17:28 19次 阅读
使用架构可以怎样来解决人工智能问题

英特尔推出 AI 新品,性能是竞品 6 倍!

电子发烧友网报道,北京时间11月13日凌晨2点,英特尔在旧金山举行2019人工智能峰会,推出代号为K....
发表于 11-13 16:12 97次 阅读
英特尔推出 AI 新品,性能是竞品 6 倍!

英特尔的新人工智能产品线有什么特点

随着专用于人工智能的硬件产品组合的丰富,以及相关工具包的发布,英特尔声称其将从云端到边缘提供完整的人....
发表于 11-13 14:54 38次 阅读
英特尔的新人工智能产品线有什么特点

百度与浪潮如何在AI领域合作双赢

将联合推进人工智能、云计算、大数据以及物联网等前沿在医疗健康、智能城市等领域的应用落地,为进一步加快....
发表于 11-13 14:51 105次 阅读
百度与浪潮如何在AI领域合作双赢

人工智能怎样赋能中医领域

自从人工智能技术问世以来,医疗领域一直被业界认定为最有应用空间的领域,也获得了政策的大力支持。
发表于 11-13 11:23 34次 阅读
人工智能怎样赋能中医领域

人工智能治理的全球图景与技术是怎样的

对于可持续发展来说,人工智能是未来的一个非常重要的途径和工具。人工智能不仅仅能够提升经济,虽然很多目....
发表于 11-13 11:18 31次 阅读
人工智能治理的全球图景与技术是怎样的

社群商业生态有了人工智能以后有怎样的改变

与独到科技CEO张文浩演讲的主题一样,独到科技一直致力于用人工智能赋能社群商业生态,目前独到科技已经....
发表于 11-13 11:15 30次 阅读
社群商业生态有了人工智能以后有怎样的改变

人工智能在医疗领域的发展史与五大应用现状分析

AI与医学领域的结合点非常多,通过AI在医疗领域的应用情况进行总结分析,目前主要应用于五大领域,分别....
发表于 11-13 11:14 316次 阅读
人工智能在医疗领域的发展史与五大应用现状分析

从云端到边缘的全新AI 硬件是什么样子的

推进深度学习推理和应用需要极其复杂的数据、模型和技术,因此在架构选择上需要有不同的考量。
发表于 11-13 11:11 36次 阅读
从云端到边缘的全新AI 硬件是什么样子的

AI可以检测宫颈癌了吗

人工智能可以在健康发生问题之前或者当潜在的疾病变得更加严重之前可以对医生进行提醒。
发表于 11-13 11:07 27次 阅读
AI可以检测宫颈癌了吗

华为将于11月14日正式发布麒麟A1处理器

这款处理器最早在IFA 2019上发布,同时它还同时获得了蓝牙5.1和蓝牙低功率5.1标准认证,实现....
的头像 lhl545545 发表于 11-13 11:06 261次 阅读
华为将于11月14日正式发布麒麟A1处理器

NVIDIA的AI技术可以帮助USPS更快地处理软件包

美国邮政总局(USPS)每年估计发送1,460亿封邮件,包括60亿个包裹。为了更有效地处理打包数据,....
发表于 11-13 10:25 44次 阅读
NVIDIA的AI技术可以帮助USPS更快地处理软件包

谷歌与Ascension将在云计算领域开展合作

据了解,多年来,谷歌一直在开发可以分析MRI扫描图及其它病人数据的AI工具,谷歌希望工具能诊断疾病、....
的头像 lhl545545 发表于 11-13 10:11 181次 阅读
谷歌与Ascension将在云计算领域开展合作

硝烟再起!高端FPGA最终拼什么?

Intel正式宣布全球容量最大的Stratix 10 GX 10M FPGA量产,它拥有1020 万....
的头像 墨记 发表于 11-13 08:49 1200次 阅读
硝烟再起!高端FPGA最终拼什么?

全场景AI电视亮相 改变了消费者对智能电视的认知

近几年电视的智能化发展突飞猛进。支持安装第三方APP、能语音交互等功能早不是什么新鲜事,连AI人工智....
发表于 11-13 08:46 44次 阅读
全场景AI电视亮相 改变了消费者对智能电视的认知

区块链在智慧城市领域中的探索和应用

智慧城市(Smarter Cities)的概念涵盖硬件、软件、管理、计算、数据分析等业务在城市领域中....
的头像 独爱72H 发表于 11-12 16:30 360次 阅读
区块链在智慧城市领域中的探索和应用

人工智能和增强现实对于我们的工作方式有什么影响

科技是人类社会发展的重要驱动力,它促进了生产力的不断提升,推动社会在向前进步,并创造出前所示有的机遇....
发表于 11-12 15:54 48次 阅读
人工智能和增强现实对于我们的工作方式有什么影响

移动机器人的机遇什么时候到来

随着物联网和人工智能技术的进步,无人商店等新零售模式开始流行,并带来巨大的商业机遇。
发表于 11-12 15:51 100次 阅读
移动机器人的机遇什么时候到来

AI智能客服机器人全面上线会带来怎样的体验

全面上线了申通AI智能客服机器人,助力双11,用技术革新客服服务,为客户提供不一样的客服体验。
发表于 11-12 15:40 68次 阅读
AI智能客服机器人全面上线会带来怎样的体验

AI机器人的用武之地在哪里

这篇文章的作者们计划开始对他们提出的解决方案进行试验,但机器人拆解电池的装配线仍需要数年时间,目前还....
发表于 11-12 15:36 44次 阅读
AI机器人的用武之地在哪里

双模5G AI芯片Exynos 980发布,vivo和三星共同研发

近日vivo联合三星共同发布了双模5G AI芯片联合研发成果——Exynos 980。会后,三星半导....
的头像 汽车玩家 发表于 11-12 15:26 324次 阅读
双模5G AI芯片Exynos 980发布,vivo和三星共同研发

语音机器人会把人工给替换掉吗

智能机器人在回复客户问题的时候还具备了分析功能,依照特定的算法,分析客户的意图,从而给予回答。
发表于 11-12 15:25 25次 阅读
语音机器人会把人工给替换掉吗

智能语音机器人具备哪一些优点

电销机器人可以在使用中,应用业务数据进行自学习,越用越聪明,外呼效果在不久的将来可以达到甚至超过人工....
发表于 11-12 15:23 35次 阅读
智能语音机器人具备哪一些优点

AI可以相当于生产力吗

AI(人工智能)就是新旧动能转换的发动机,是我们经济转型的加速器,会使我们传统产业插上起飞的翅膀。
发表于 11-12 15:11 66次 阅读
AI可以相当于生产力吗

AI技术行进的方向应该是怎样的

这些投入也被外界称为“为未来买单”,facebook扔进大海的石子并没有沉没了事儿,也是激起了几多浪....
发表于 11-12 15:05 31次 阅读
AI技术行进的方向应该是怎样的

可信可用的人工智能是怎样的

人工智能(AI)不是一种单一的技术,而是多种方法和工具的集合,它有很多子领域,可被应用于丰富的场景。
发表于 11-12 14:54 24次 阅读
可信可用的人工智能是怎样的

人工智能在发展的路上怎样避免陷阱

为了更好的推动其发展,人工智能的落地与应用必然会是一个循序渐进的过程。
发表于 11-12 14:31 31次 阅读
人工智能在发展的路上怎样避免陷阱

普适计算愿景怎样利用人工智能来打造

该算法可处理来自传感器的数据,提取周围环境的3D几何信息,并将其整合、上传到云平台,创建出基于这些相....
发表于 11-12 14:25 24次 阅读
普适计算愿景怎样利用人工智能来打造

MediaTek ASIC服务推出硅验证的7nm制程112G远程SerDes IP

MediaTek今日宣布,其ASIC服务将扩展至112G远程(LR)SerDes IP芯片。Medi....
发表于 11-12 14:22 64次 阅读
MediaTek ASIC服务推出硅验证的7nm制程112G远程SerDes IP

人工智能如何解决企业营销的痛点

智能云手册运用AI算法,能够自动为用户画像,并智能预测用户成交概率。通过自动抓取用户行为轨迹与频次,....
发表于 11-12 14:20 48次 阅读
人工智能如何解决企业营销的痛点

人工智能融得的效果怎样

在智能制造、智能家居、智慧城市管理等场景中,人工智能技术应用越来越广泛。
发表于 11-12 14:08 21次 阅读
人工智能融得的效果怎样

未来的AI怎样赋能生产力

人工智能技术也处于前所未有的发展浪潮中,与首届中国国际进口博览会相比,本届进博会更是被形容为全球人工....
发表于 11-12 11:49 34次 阅读
未来的AI怎样赋能生产力

AI人工智能和摩尔定律的后指数时代是怎样的

与摩尔定律的指数级增长的减少几乎同时发生了训练人工智能的计算能力需求的指数级增长。
发表于 11-12 11:39 32次 阅读
AI人工智能和摩尔定律的后指数时代是怎样的

人工智能在医疗领域的超前应用是怎样的

智能化是必然趋势,数据收集的工作未来可能只有政府能做,利用区块链技术来保证政府收集到的数据的安全性。
发表于 11-12 11:27 129次 阅读
人工智能在医疗领域的超前应用是怎样的

人工智能对于生活会是什么形式的影响

虽然人工智能在许多行业发挥着越来越重要的作用,覆盖从文本翻译、为工业无人机提供动力到患者诊疗等多个领....
发表于 11-12 11:17 39次 阅读
人工智能对于生活会是什么形式的影响

人工智能技术现在在各国是怎样的地位

人工智能具有极大潜力,谁能掌握它,谁就会脱颖而出,向前发展,进而获得巨大竞争优势,因此人工智能关系到....
发表于 11-12 11:12 52次 阅读
人工智能技术现在在各国是怎样的地位

AI助战物流 缓解双十一物流压力

双十一在今年已是第11个年头了,但其销售额依然极其亮眼。据星图数据统计,截止至11日上午10点,全网....
发表于 11-12 11:06 105次 阅读
AI助战物流 缓解双十一物流压力

大脑神经网络助力下 AI和ML新算法有了新的方向

人们曾经认为眼睛是一个“哑的”传感器,通过视觉神经将数据发送到大脑,大脑包含了所有的视觉“处理”能力....
发表于 11-12 11:05 56次 阅读
大脑神经网络助力下 AI和ML新算法有了新的方向

智能家电行业的市场发展前景将有着无限的可能

事实上,AI技术在家电产业的应用已经落地,并为之赋能。一方面,主流家电厂商对AI技术的应用已经覆盖全....
发表于 11-12 10:45 243次 阅读
智能家电行业的市场发展前景将有着无限的可能

如何训练出不会对环境造成影响的人工智能

近年来,在测量机器学习的偏见方面存在一个估计。我们现在知道,这些“无偏见”的自动化工具实际上并非没有....
发表于 11-12 10:37 248次 阅读
如何训练出不会对环境造成影响的人工智能

各国都力争抢占AI领域制高点 意图成为该领域的领先者

近日,在莫斯科举行的国际人工智能会议(AI Journey)上,俄罗斯总统普京出席会议并发表了自己的....
发表于 11-12 09:17 57次 阅读
各国都力争抢占AI领域制高点 意图成为该领域的领先者

安富利一流的供应链管理能力已获得了业界的充分认可

全球领先的技术解决方案提供商安富利亚太连续第18年蝉联《国际电子商情》"十大最佳国际品牌分销商"。该....
的头像 电子发烧友网工程师 发表于 11-12 09:01 181次 阅读
安富利一流的供应链管理能力已获得了业界的充分认可

5G时代下云技术和人工智能将会无处不在

在当前的中国产业智能化浪潮中,一个很大的特点就是智能和信息化同时发生,在各行各业拥抱智能化的速度和意....
的头像 独爱72H 发表于 11-11 23:40 396次 阅读
5G时代下云技术和人工智能将会无处不在

普京加速了AI在俄的普及 引发了西方国家的担忧

近日,俄罗斯总统普京在出席莫斯科出席首届“人工智能之旅”国际会议时指出,人工智能是一项极具潜力的技术....
发表于 11-11 14:06 117次 阅读
普京加速了AI在俄的普及 引发了西方国家的担忧

怎样利用人工智能来进行工业质检

人工智能、机器视觉作为实现中国制造2025的核心技术正处于制造产业的风口浪尖。
发表于 11-11 11:31 83次 阅读
怎样利用人工智能来进行工业质检

算力、AI和存储如何改变全球产业链,听紫光集团、ARM和华为高管怎么说?

近日,针对全球产业链的巨大变化,新兴的经济驱动了全球将来四分之三的消费增量,未来将如何带动新的增长。....
的头像 章鹰 发表于 11-11 11:04 1533次 阅读
算力、AI和存储如何改变全球产业链,听紫光集团、ARM和华为高管怎么说?

智慧交通大爆发的原因是什么

技术的发展让人们构想建造一个更加智慧的城市,政府尝试开放数据,主导智慧城市规划已成为全球的一大趋势。
发表于 11-11 10:44 93次 阅读
智慧交通大爆发的原因是什么

如何使用人工智能技术来遏制假冒伪造现象

“人工智能”(AI)的表述充满了许多假设,这些假设来自多年的科幻电影,其中涉及机器人控制世界。到目前....
发表于 11-11 10:00 1969次 阅读
如何使用人工智能技术来遏制假冒伪造现象

央行数字货币DCEP,中国为全球准备的“世界货币”

        我们先来看今天金色财经的一条新闻:10月18日,Calibra首席执行官、前Facebook区块链负...
发表于 10-19 19:41 372次 阅读
央行数字货币DCEP,中国为全球准备的“世界货币”

Facebook的扩展性挑战讨论

  今天我们一起来了解Facebook背后的软件,看看作为当今世界上访问量最大的网站之一,Facebook是如何保证5亿用户的系...
发表于 07-17 07:22 134次 阅读
Facebook的扩展性挑战讨论

Facebook后台背后的技术

今天我们一起来了解Facebook背后的软件,看看作为当今世界上访问量最大的网站之一,Facebook是如何保证5亿用户的系统一直稳定可...
发表于 07-17 06:18 172次 阅读
Facebook后台背后的技术

Facebook背后的软件揭秘

Facebook的扩展性挑战 在我们讨论细节之前,这里有一些Facebook已经做的软件规模: ◆Facebook有570000000000每月页面浏览量...
发表于 07-16 06:48 122次 阅读
Facebook背后的软件揭秘

透过VR看世界

导语:Facebook“抄袭”Snapchat或许是创新的开始。 今年4月,Facebook2017年F8大会在圣何塞正式召开,吸引了全球开发者的目...
发表于 05-12 17:23 1324次 阅读
透过VR看世界

2017,VR技术将重新定义未来

VR(Virtual Reality,即虚拟现实,简称VR)以沉浸、交互和想象这三个典型特征成为了2016年科技界的“网红”。VR样板房来...
发表于 03-14 14:48 1007次 阅读
2017,VR技术将重新定义未来

锐捷助互联网数据中心网络自动化、可视化运维

当前,云计算、大数据、移动互联网等新兴技术和商业模式不断涌现,促使互联网行业迎来了高速发展期,更推动互联网行业用户在IT...
发表于 01-25 09:42 1372次 阅读
锐捷助互联网数据中心网络自动化、可视化运维

精装智能手环上市

新款手环即将上市,强大的功能等你来鉴定。 采用1.8寸全弧形屏幕显示,日本原装进口。手环颜色:金色跟黑色,功能:通话、蓝牙音...
发表于 08-18 15:48 2346次 阅读
精装智能手环上市

OFweek行业研究中心:服务机器人将成为新一代智能终端

概要:从产业生命周期来看,服务机器人正处于市场导入期,在云计算和大数据日趋成熟的背景下,深度学习等人工智能关键技术取得一...
发表于 01-26 14:11 1497次 阅读
OFweek行业研究中心:服务机器人将成为新一代智能终端

BB-8机器人竟然有人做出来了!大赞!

注:本创客项目来自Makezine,作者为Michael Tinson。想必很多人在看过《星球大战》的预告片之后就深深地被里面圆滚滚的BB...
发表于 01-07 17:37 10486次 阅读
BB-8机器人竟然有人做出来了!大赞!