张飞软硬开源基于STM32 BLDC直流无刷电机驱动器开发视频套件,👉戳此立抢👈

Facebook AI又出新作:性能翻倍,计算成本不增加

全球人工智能 2019-07-16 10:56 次阅读

Facebook AI又出新作,LeCun力荐!在BERT等先进架构中插入一个“存储器”层,能极大提升网络容量和性能,同时保持计算成本基本不变。实验表明,采用新模型的12层网络性能即与24层BERT-large模型的性能相当,运行时间减少一半。

图灵奖得主,AI大神Yann LeCun发Twitter推荐。LeCun认为,本文用product key memory层替代了BERT模型中的结构层,实现了与后者相当的性能,计算量降低了一半。

本文介绍了一种可以轻松集成到神经网络中的结构化存储器。该存储器在设计上非常大,架构的容量显著增加,参数数量可达十亿个,而增加的计算成本基本上可忽略不计。存储器的设计和访问模式基于产品密钥,可实现快速准确的最近邻搜索。

这一新方法在保持计算成本不增加的同时,大幅增加了参数数量,使得整个系统在训练和测试时,能够在预测准确度和计算效率之间进行更优化的权衡。这个存储器层能够处理超大规模的语言建模任务。

在实验中,我们使用一个包含高达300亿字的数据集,并将存储器层插入最先进的transformer的架构网络中。结果表明,只有12层的存储器增强模型的性能,优于24层的基线transformer模型,而在推理时间方面,前者比后者快两倍。相关代码已经发布,以用于重现实验。

图1:键值存储器层概述:输入x通过查询网络处理,该查询网络生成查询向量q,将查询向量q与所有键进行比较。输出是与所选键相关的存储器的稀疏加权和。对于大量密钥| K |,密钥选择过程在实践中成本过高。我们的product key方法是精确的,整个搜索过程非常快。

神奇的“存储器层”:性能翻倍,计算成本不增加

本文提出了一个键值存储器(key memory)层,可以扩展到非常大的规模,同时保持对关键空间的搜索精度。该层显著增加了整个系统的容量,而增加的计算成本可以忽略不计。与基于键值存储器的现有模型(图1)不同,本文将“键”定义为两个子键的串联。更多细节如图2所示,该结构隐含地定义了一组非常大的键,每个键与值存储器槽相关。值向量集中引入了大量参数,因为参数数量与子键的数量成平方关系。

图2:product key示意图。我们定义了两个离散的密钥子集(子密钥集1和子密钥集2)。它们会产生更大的密钥集,这些密钥永远不会明文表示。对于给定的查询,我们将其分为两个子查询(q1和q2)。在每个子集中选择k个最接近的密钥(图中的k = 2),从而隐含地选择k×k个密钥。保证使用查询最大化内积的k个key属于该子集,在该子集上可以更高效地进行搜索。

尽管存储器slot数量很大,但找到输入的最精确键是非常有效的,通常需要O(p | K |)次向量比较,其中|K |是内存插槽的总数。所有存储器参数都是可训练的,但在训练时每个输入只更新少量内存slot。密钥选择和参数更新的稀疏性使训练和推理非常有效。

本文中加入的存储器层,可以解决现有架构在给定大量可用数据的情况下遇到的问题,也可以提升运行速度。我们以语言建模任务为例,将存储器层整合到流行的transformer架构中。这样做的原因是,BERT 和GPT-2 取得了巨大成功,证明了增加大型模型的容量,能够直接转化为对语言建模性能的大幅改进,反过来又能促进双语言理解任务和文本生成任务的性能提升。

总的来说,本文的主要贡献如下:

引入了一个新的网络层,大幅扩充了神经网络的容量,在训练和测试时只需要很小的计算成本,几乎可以忽略不计。

提出了新的快速索引策略,通过构造提供精确的最近邻域搜索,并避免了依赖在训练期间重新学习的索引结构产生的缺陷。

在一个大型transformer最先进网络架构中演示了本文中的方法,该网络由24层组成。我们的方法有1个存储器和12层结构,结果性能与24层transformer架构相当,推理时间则是后者的两倍。实验表明,为各种复杂性的transformer网络架构添加更多存储器层,可以为目标任务提供系统而显著的性能提升。

图3:左:典型的transformer模块由自注意力层和FFN层(双层网络)组成。右图:在我们的系统用product存储器层替换了FFN层,这类似于具有非常大的隐藏状态的稀疏FFN层。在实践中,我们仅替换N层FFN层,其中N∈{0,1,2}

实验过程

数据集

最大的公开语言建模数据集是One Billion Word语料库。在该数据集上获得良好的性能需要繁琐的正则化,因为它现在对于标准体系结构来说太小了,本实验亦然,且观察到即使是小模型也足以过度拟合。

在此数据集上,对于维度为1024的16层模型,当验证困惑(perplexity)开始增加时,获得25.3的测试困惑度。

研究人员从公共通用爬网中提取了30倍大的语料库,训练集由280亿字组成(140 GB的数据)。

与One Billion Word语料库不同,研究人员的语料库没有改变句子,允许模型学习远程依赖。在这个数据集上,没有观察到任何过度拟合,并且系统地增加模型容量导致验证集上的更好性能。

操作细节

研究人员使用具有16个attention heads和位置嵌入的transformer架构。

研究人员考虑具有12、16或24层的模型,具有1024或1600维度,并使用Adam优化器训练模型,学习率为2.5×10^(-4),其中β1=0.9,β2=0.98,遵循Vaswani等人的学习率计划。

由于使用稀疏更新来学习内存值,研究人员发现以更高的Adam学习率10^(-3)来学习它们是极好的。于是用PyTorch实现模型、在32个Volta GPU上训练,并使用float16操作来加速训练、减少模型的GPU内存使用。

下图是对比有内和没有内存时,模型的测试困惑;以及在测试集上的速度和困惑之间进行权衡。

结果

上图显示了CC-News语料库测试集上,不同模型的困惑度。研究人员观察到,增加维度或层数会导致在所有模型中显著改善困惑。

但是,为模型添加内存比增加层数更有利;例如,当隐藏单元的数量为1024和1600时,具有单个存储器和12层的模型优于具有相同隐藏尺寸和24层的无记忆模型。

添加2或3个存储层进一步提高了性能。特别是,当内部隐藏状态具有1600维时,具有12层和存储器的模型比具有24层(与BERT large的配置相同)的模型获得更好的困惑,速度几乎快了两倍。将内存添加到内部维度等于1600的large型模型时,推理时间几乎不会增加。

消融研究(Ablation study)

在为了研究不同组件对内存层的影响,并测量它们如何影响模型性能和内存使用情况。除非特别注明,这里考虑存储器为5122=262k插槽,4个存储器磁头,k=32个选定键,研究人员将其嵌入到第5层。

上图显示增加head数或k-NN数。可以改善模型的复杂性和内存使用。

研究人员还注意到。具有相同h×k(h是head数,k是最近邻数)的模型具有相似的内存使用。比如,(h, k) ∈ {(1, 64),(2, 32),(4, 16),(8, 8)}所有内存使用率约为70%,困惑度约为20.5。

总体上看,添加更多head可以提高性能,但也会增加计算时间。实验结果表明,head=4,k=32时可以在速度和性能之间取得良好的平衡。

总结

论文介绍了一个内存层,它允许以几乎可以忽略不计的计算开销大幅提高神经网络的容量。

该层的效率依赖于两个关键因素:将key分解为产品集,以及对内存值的稀疏读/写访问。图层被集成到现有的神经网络架构中。

研究人员通过实验证明它在大规模语言建模方面取得了重要进展,12层的性能达到了24层BERT-large模型的性能,运行时间缩短了一半。

原文标题:LeCun力荐:Facebook推出十亿参数超大容量存储器

文章出处:【微信号:aicapital,微信公众号:全球人工智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

【5月12】不懂编程没关系,邀请您来学AI

不懂编程没关系,邀请您来学AI活动概述:本活动是现场讲座,由台湾知名AI教育专家、金门创新学院院长、台湾Android技
发表于 05-24 00:00 0次 阅读
【5月12】不懂编程没关系,邀请您来学AI

AI技术在网络安全攻防中可发挥重要作用

在网络安全的攻防演练中,攻击方叫做蓝队,防守方叫做红队,蓝队的水平往往决定了这场攻防演练的质量。
发表于 08-25 10:35 16次 阅读
AI技术在网络安全攻防中可发挥重要作用

机器人和AI的结合将如何赋能工业互联网

现如今,人类与机器人的关系,已从过去的竞争变成了现在的协作,也就是从竞争、共存、协作到未来的共事。
发表于 08-25 10:12 14次 阅读
机器人和AI的结合将如何赋能工业互联网

学习人工智能技术有什么途径吗

在当前的教育体系下,人工智能领域的人才培养依然以研究生教育为主,随着近些年来人工智能领域人才缺口的增....
发表于 08-25 09:59 35次 阅读
学习人工智能技术有什么途径吗

会计被人工智能替代的时代即将来临

我们也知道在计算科学的发展下,目前已经衍生出了一大批的人工智能的系统,交通、医疗、生活、金融等方面应....
发表于 08-25 09:57 115次 阅读
会计被人工智能替代的时代即将来临

华为昇腾910AI芯片即将商用 总体技术表现超出预期

2018 年 10 月,在华为 2018 全联接大会上,华为对外宣布了昇腾 910 芯片(Ascen....
发表于 08-25 09:53 55次 阅读
华为昇腾910AI芯片即将商用 总体技术表现超出预期

人工智能未来将成为中小学社会实践课程

人工智能无疑已是当今最热门话题之一。为了进一步促进人工智能与教育的融合发展,北京市教委昨天下发了《北....
发表于 08-25 09:51 24次 阅读
人工智能未来将成为中小学社会实践课程

AI时代我们应该怎样做

大数据是新时代的“数字宝矿”,是当今世界最有价值的战略资源。
发表于 08-25 09:31 35次 阅读
AI时代我们应该怎样做

首个AI合成虚拟主播在吉林正式上线

8月22日,东北亚博览会召开之际,万众瞩目的中国吉林网首个AI合成虚拟主播上线了!它的到来,意味着中....
的头像 电子魔法师 发表于 08-24 09:41 188次 阅读
首个AI合成虚拟主播在吉林正式上线

谷歌、Facebook、亚马逊接连陷入AI造假门。AI是否还只是泡沫

AI公司“借假修真”:有意为之?无奈而为?
的头像 陈翠 发表于 08-24 09:12 266次 阅读
谷歌、Facebook、亚马逊接连陷入AI造假门。AI是否还只是泡沫

Efinix可编程芯片将推动AI技术的发展

在Efinix公司联合创始人看来,他们研发的可编程芯片应该在正确的时间出现在了正确的地方。如今,工程....
发表于 08-23 17:51 28次 阅读
Efinix可编程芯片将推动AI技术的发展

华为发布的AI计算框架可保护用户隐私

华为发布AI计算框架确保用户隐私安全
的头像 陈翠 发表于 08-23 17:28 371次 阅读
华为发布的AI计算框架可保护用户隐私

这两大重器于华为AI战略具有里程碑式的意义

两大重器发布,华为AI战略的里程碑!
的头像 陈翠 发表于 08-23 17:24 706次 阅读
这两大重器于华为AI战略具有里程碑式的意义

华为发布最外那个算力AI芯片

华为史上最强算力AI芯片发布,开源首款国产全场景AI计算框架
的头像 陈翠 发表于 08-23 17:15 161次 阅读
华为发布最外那个算力AI芯片

未来的女性更容易被人工智能抢掉饭碗吗

近年来,职场女性是多方关注的重点对象。如何让女性在职场中真正实现“男女平等”,成为众多企业为之努力的....
发表于 08-23 16:10 23次 阅读
未来的女性更容易被人工智能抢掉饭碗吗

这款处理器为AI助力

奔腾不止的芯,助力AI跨越时代
的头像 陈翠 发表于 08-23 16:08 807次 阅读
这款处理器为AI助力

未来人工智能将如何影响人们的生活

人工智能一词,最早是由以麦卡锡、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家,在1956....
发表于 08-23 16:07 186次 阅读
未来人工智能将如何影响人们的生活

中国电信首次明确SA的时间表,力争在明年启动面向SA的网络升级

相比于非独立组网(NSA),独立组网(SA)能够满足5G更多的应用场景,低时延及大连接特性也是前者所....
的头像 电子发烧友网工程师 发表于 08-23 16:03 111次 阅读
中国电信首次明确SA的时间表,力争在明年启动面向SA的网络升级

不会织毛衣?没事,AI会

麻省理工的 AI 新研究:你不会织毛衣没关系,交给 AI 就行了
的头像 陈翠 发表于 08-23 15:57 156次 阅读
不会织毛衣?没事,AI会

医疗行业技术的全新革命即将到来

全球人口老龄化,对消费者基因检测和其他技术进步的认识增强,这些将促使遗传学检测市场到2024年规模达....
发表于 08-23 15:41 75次 阅读
医疗行业技术的全新革命即将到来

AI时代的智慧城市的安全管理是怎样的

随着目前城市化进程的加快,各类突发事件和灾害事件不断增加,给人民群众的生命财产带来巨大的损失。
发表于 08-23 15:25 71次 阅读
AI时代的智慧城市的安全管理是怎样的

智能系统预测心脏病比医生预测的更准确

Mayo Clinic的一项研究显示,通过AI技术分析心电图能够准确筛查出早期无症状左心室功能障碍症....
发表于 08-23 15:22 75次 阅读
智能系统预测心脏病比医生预测的更准确

谷歌公布AI手势识别新成果

谷歌新成果AI手势识别追踪技术公布
的头像 陈翠 发表于 08-23 15:17 144次 阅读
谷歌公布AI手势识别新成果

华为采用达芬奇架构的AI芯片Ascend 910正式商用

据了解,华为将在会上宣布,采用达芬奇架构的又一款“巨无霸”——AI芯片Ascend 910正式商用,....
的头像 电子发烧友网工程师 发表于 08-23 15:10 95次 阅读
华为采用达芬奇架构的AI芯片Ascend 910正式商用

华为发布最强的AI处理器“昇腾910”与打造全栈全场景AI解决方案

实测结果表明,在算力方面“昇腾910”完全达到了设计规格,重要的是,达到规格算力所需功耗仅310W,....
的头像 电子发烧友网工程师 发表于 08-23 15:03 1040次 阅读
华为发布最强的AI处理器“昇腾910”与打造全栈全场景AI解决方案

这项AI技术首次被证实在医学上有用

这项AI技术在医院火了四年,如今首次被证实对医生有效
的头像 陈翠 发表于 08-23 14:46 162次 阅读
这项AI技术首次被证实在医学上有用

写作机器人乃当之无愧的AI营销神器

写作机器人,AI营销神器
的头像 陈翠 发表于 08-23 14:39 247次 阅读
写作机器人乃当之无愧的AI营销神器

配送机器人圈这两款新品或于2020年量产

配送机器人圈再多两款新品:AI运维+道路预测,最早2020年量产
的头像 陈翠 发表于 08-23 11:08 228次 阅读
配送机器人圈这两款新品或于2020年量产

未来已来,拥抱人工智能避无可避

你好,人工智能!
的头像 陈翠 发表于 08-23 10:26 178次 阅读
未来已来,拥抱人工智能避无可避

有情感的AI来啦,他们真的来啦!

有情感的AI将成群而来?距离《西部世界》已不遥远
的头像 陈翠 发表于 08-23 10:16 164次 阅读
有情感的AI来啦,他们真的来啦!

华为攻坚AI

面对AI大产业 华为再度攻坚
的头像 陈翠 发表于 08-23 10:13 243次 阅读
华为攻坚AI

华为AI或将与谷歌、脸书三分天下?

华为AI觉醒,与谷歌、脸书“三分天下”?
的头像 陈翠 发表于 08-23 10:09 352次 阅读
华为AI或将与谷歌、脸书三分天下?

AI已与我们的生活密不可分

未来已来 尽情享受AI生活
的头像 陈翠 发表于 08-23 10:02 127次 阅读
AI已与我们的生活密不可分

英特尔于AI的七重助力

「破局」AI规模化落地,英特尔至强的七重助力
的头像 陈翠 发表于 08-23 09:46 211次 阅读
英特尔于AI的七重助力

AI技术结合移动医疗带来医疗新体验

医疗的最高境界,窃以为是当国民未犯病时,就已有机构能预知和采取措施,将疾病铲除于未发。即所谓的良医治....
发表于 08-23 09:30 72次 阅读
AI技术结合移动医疗带来医疗新体验

除AI,5G鸿蒙华为还有这一王牌

AI三分天下 5G鸿蒙之后华为又打一王牌
的头像 陈翠 发表于 08-23 08:47 318次 阅读
除AI,5G鸿蒙华为还有这一王牌

FPGA智能芯片的研发仍需努力

5G、AI 和边缘计算等新兴技术正将汽车、工业、医疗等各个领域推上数字化转型的浪潮,传统芯片急需向智....
发表于 08-22 17:52 42次 阅读
FPGA智能芯片的研发仍需努力

英特尔推出全新Nervana NNP模拟芯片

目前全世界的几乎所有科技技术公司都或多或少的有人工智能这方面的项目,特别是英特尔在人工智能方面做了很....
发表于 08-22 17:44 45次 阅读
英特尔推出全新Nervana NNP模拟芯片

AI技术将助力触控技术的发展

据venturebeat的报道,韩国高等科学技术研究院的研究人员在预印本平台(arXiv.org)上....
发表于 08-22 16:34 73次 阅读
AI技术将助力触控技术的发展

AI机器人或将助力人类探索宇宙的能力

俄罗斯“联盟2.1a”运载火箭已将“联盟MS-14”飞船送入环绕地球的预定轨道,而该飞船搭载有俄罗斯....
发表于 08-22 15:32 28次 阅读
AI机器人或将助力人类探索宇宙的能力

墨奇科技新一代“指纹-身份识别”AI系统

墨奇科技是北京大数据研究院于2016年孵化的人工智能公司,致力于非结构化数据的前沿理论探索与技术应用....
的头像 倩倩 发表于 08-22 14:34 154次 阅读
墨奇科技新一代“指纹-身份识别”AI系统

AI技术在工业控制中的落地应用

人工智能在风口上已经飞了很长一段时间了,一直以来,不乏有市场人士指出其概念炒作,但在另一面,依托于人....
发表于 08-22 11:54 22次 阅读
AI技术在工业控制中的落地应用

华为岂只有5G,眼界又怎限于电讯设备?

定了!华为周五将转守为攻,谁也没料到来得这么迅速
的头像 陈翠 发表于 08-22 11:42 211次 阅读
华为岂只有5G,眼界又怎限于电讯设备?

人工智能正在兴起新一轮的产业变革

我国作为全球人工智能领域赛道的领跑者,大力发展人工智能技术的目的,并不仅仅是为增强军事严防的力量,更....
发表于 08-22 10:09 36次 阅读
人工智能正在兴起新一轮的产业变革

医疗机器人的市场规模或将超过汽车机器人

随着社会人口老龄化加重,医疗机器人的应用需求逐渐增加,以康复机器人为主的手术机器人已得到较为广泛的应....
发表于 08-22 09:45 39次 阅读
医疗机器人的市场规模或将超过汽车机器人

如何提高医疗行业药物研发的成功率

如果说化学阶段的目的是Be better的话,那么医学阶段的目标似乎又收缩了,变成了Be usabl....
发表于 08-22 09:35 95次 阅读
如何提高医疗行业药物研发的成功率

中央广播电视总台正式展示出了5G+4K+AI战略发展成果

中央广播电视总台副台长阎晓明在致辞中谈到,互联网时代,媒体的竞争直接体现在技术能力的竞争,某种意义上....
发表于 08-22 09:07 210次 阅读
中央广播电视总台正式展示出了5G+4K+AI战略发展成果

阿里、百度和腾讯AI实力排名前三 这是凭什么?

许多人认为AI有一天会像蒸汽机,电力和计算机那样具有颠覆性,其市场潜在价值和产品服务创新能力皆是史无....
的头像 渔翁先生 发表于 08-22 00:34 2966次 阅读
阿里、百度和腾讯AI实力排名前三 这是凭什么?

Facebook将拟用人工智能进行新闻编辑

据外媒报道,长期以来,Facebook始终依赖于算法来为用户选择想要看的新闻。现在,这家社交网络巨头....
发表于 08-21 16:11 89次 阅读
Facebook将拟用人工智能进行新闻编辑

用FPGA迎接AI时代而不是专用芯片

在AI芯片领域,前有英伟达GPU独领风骚,后有谷歌对外开放TPU,赛灵思CEO Victor则认为F....
发表于 08-21 15:10 107次 阅读
用FPGA迎接AI时代而不是专用芯片

如何上facebook推特网社交网站?

  很多香港、台湾或国外的明星喜欢在“脸谱网”上分享自己的生活和乐趣,香港和台湾的同胞们却能看到,今天就告诉大家怎样可随...
发表于 08-04 22:04 124次 阅读
如何上facebook推特网社交网站?

Facebook的扩展性挑战讨论

  今天我们一起来了解Facebook背后的软件,看看作为当今世界上访问量最大的网站之一,Facebook是如何保证5亿用户的系...
发表于 07-17 07:22 66次 阅读
Facebook的扩展性挑战讨论

Facebook后台背后的技术

今天我们一起来了解Facebook背后的软件,看看作为当今世界上访问量最大的网站之一,Facebook是如何保证5亿用户的系统一直稳定可...
发表于 07-17 06:18 56次 阅读
Facebook后台背后的技术

Facebook背后的软件揭秘

Facebook的扩展性挑战 在我们讨论细节之前,这里有一些Facebook已经做的软件规模: ◆Facebook有570000000000每月页面浏览量...
发表于 07-16 06:48 46次 阅读
Facebook背后的软件揭秘

透过VR看世界

导语:Facebook“抄袭”Snapchat或许是创新的开始。 今年4月,Facebook2017年F8大会在圣何塞正式召开,吸引了全球开发者的目...
发表于 05-12 17:23 1245次 阅读
透过VR看世界

2017,VR技术将重新定义未来

VR(Virtual Reality,即虚拟现实,简称VR)以沉浸、交互和想象这三个典型特征成为了2016年科技界的“网红”。VR样板房来...
发表于 03-14 14:48 943次 阅读
2017,VR技术将重新定义未来

锐捷助互联网数据中心网络自动化、可视化运维

当前,云计算、大数据、移动互联网等新兴技术和商业模式不断涌现,促使互联网行业迎来了高速发展期,更推动互联网行业用户在IT...
发表于 01-25 09:42 1293次 阅读
锐捷助互联网数据中心网络自动化、可视化运维

精装智能手环上市

新款手环即将上市,强大的功能等你来鉴定。 采用1.8寸全弧形屏幕显示,日本原装进口。手环颜色:金色跟黑色,功能:通话、蓝牙音...
发表于 08-18 15:48 2257次 阅读
精装智能手环上市

OFweek行业研究中心:服务机器人将成为新一代智能终端

概要:从产业生命周期来看,服务机器人正处于市场导入期,在云计算和大数据日趋成熟的背景下,深度学习等人工智能关键技术取得一...
发表于 01-26 14:11 1435次 阅读
OFweek行业研究中心:服务机器人将成为新一代智能终端

BB-8机器人竟然有人做出来了!大赞!

注:本创客项目来自Makezine,作者为Michael Tinson。想必很多人在看过《星球大战》的预告片之后就深深地被里面圆滚滚的BB...
发表于 01-07 17:37 10339次 阅读
BB-8机器人竟然有人做出来了!大赞!