0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出1.6万亿参数的人工智能语言模型,打破GPT-3记录

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-01-18 17:16 次阅读

古谚道:“熟读唐诗三百首,不会作诗也会吟。” 这句话放在目前的人工智能语言模型中也非常适用。

此前,OpenAI 的研究人员开发出 “GPT-3”,这是一个由 1750 亿个参数组成的 AI 语言模型,堪称有史以来训练过的最大的语言模型,可以进行原始类比、生成配方、甚至完成基本代码编写。

如今,这一记录被打破了。近日,谷歌研究人员开发出一个新的语言模型,它包含了超过 1.6 万亿个参数,这是迄今为止最大规模的人工智能语言模型,比之前谷歌开发的语言模型 T5-XXL 的规模大了 4 倍。

6735ad0e-584e-11eb-8b86-12bb97331649.png

参数是机器学习算法的关键所在,它们是从历史训练数据中学习到的模型的一部分。一般而言,在语言领域中参数的数量和复杂度之间的相关性非常好。这一点类似于 GPU晶体管的数量,在同样的制程工艺下,晶体管越多其算力便越强,而语言模型包含的参数愈多就愈接近人类自然语言。

正如研究人员在一篇论文中指出的那样,大规模的训练是通向强大模型的有效途径,在大数据集和参数计数的支持下,简单的体系结构远远超过了更复杂的算法。但是,有效的大规模培训在计算上非常密集。这就是为什么研究人员热衷于他们所说的 “开关变压器”,这是一种 “稀疏激活” 技术,它只使用模型权重的一个子集或者在模型中转换输入数据的参数。

“开关变压器” 是早在 90 年代初首次提出的一种人工智能模型范例,大体意思是将多个专家或专门处理不同任务的模型放在一个更大的模型中,并有一个 “门控网络” 来选择为任何给定数据咨询哪些专家。

在一项实验中,研究人员使用 32 个 TPU 内核对几个不同的 “开关变压器” 模型进行了预训练,这些 TPU 内核位于一个从 Reddit、Wikipedia 和其他网络资源中搜集的 750GB 大小的文本数据语料库中,任务则是让这些模型预测段落中 15% 的单词被遮住的缺失单词,以及其他挑战,比如检索文本来回答一系列越来越难的问题。

研究人员称,包含了 1.6 万亿参数和 2048 名专家的模型 Switch-C 显示 “完全没有训练不稳定性”。然而,在桑福德问答数据集的基准测试中,Switch-C 的得分居然比仅包含 3950 亿个参数和 64 名专家的模型 Switch-XXL 还要低一点,对此,研究人员认为是因为微调质量、计算要求和参数数量之间的不透明关系所致。

在这种情况下,“开关变压器” 导致了一些下游任务的收益。例如,研究人员称在使用相同数量的计算资源的情况下,它可以使训练前的加速速度提高 7 倍以上。他们还证明 “稀疏激活” 技术可以用来创建更小、更密集的模型,这些模型可以对任务进行微调,其质量增益为大型模型的 30%。

对此他们表示:虽然这项工作主要集中在超大模型上,但我们也发现只有两名专家的模型可以提高性能,同时很容易适应通用 GPU 或 TPU 的内存限制。另外,通过将稀疏模型提取为稠密模型,可以实现 10 到 100 倍的压缩率,同时获得专家模型约 30% 的质量增益。

在另一个测试中,“开关变压器” 模型被训练在 100 多种不同语言之间进行翻译,研究人员观察到 101 种语言的 “普遍改善”,91% 的语言受益于比基线模型快 4 倍以上的速度。未来,研究人员还计划将 “开关变压器” 应用于新的领域,比如图像和文本。他们认为,模型稀疏性可以赋予优势,在一系列不同的媒体以及多模态模型。

美中不足的是,研究人员的工作没有考虑到这些语言模型在现实世界中的影响,比如模型通常会放大一些公开数据中的偏见。对此,OpenAI 公司指出,这可能导致在女性代词附近放置 “淘气”;而在 “恐怖主义” 等词附近放置 “伊斯兰” 等。根据米德尔伯里国际研究所的说法,这种偏见可能被恶意行为者利用,通过散布错误信息、造谣和谎言来煽动不和。

而路透社也曾报道称,谷歌的研究人员现在被要求在研究人脸和情绪分析以及种族分类等话题之前,先咨询法律、政策和公关团队,性别或政治派别。

综上所述,尽管谷歌训练的 1.6 万亿参数的人工智能语言模型还没办法做到真正意义上的人工智能,存在一些不足之处需要完善和优化,但随着在摩尔定律下电子设备算力的不断提升,近些年 AI 语言模型参数量级呈指数倍发展,相信在不久的将来,或许真的会出现一个无限接近熟读人类历史所有文明记录的超级模型,能够和人类完全实现自然语言交流,不妨让我们好好期待一下吧!

原文标题:GPT-3记录被打破!谷歌推出1.6万亿参数的人工智能语言模型

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5800

    浏览量

    103141
  • 人工智能
    +关注

    关注

    1773

    文章

    43356

    浏览量

    230126

原文标题:GPT-3记录被打破!谷歌推出1.6万亿参数的人工智能语言模型

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    嵌入式人工智能的就业方向有哪些?

    。 国内外科技巨头纷纷争先入局,在微软、谷歌、苹果、脸书等积极布局人工智能的同时,国内的BAT、华为、小米等科技公司也相继切入到嵌入式人工智能的赛道。那么嵌入式AI可就业的方向有哪些呢? 嵌入式AI开发
    发表于 02-26 10:17

    谷歌发布轻量级开源人工智能模型Gemma

    谷歌近日宣布推出开源人工智能(AI)模型系列Gemma,旨在为开发人员和研究人员提供一个负责任的AI构建平台。这一举措标志着自2022年OpenAI的ChatGPT引领AI聊天机器人热
    的头像 发表于 02-23 11:38 367次阅读

    谷歌最新人工智能模型Gemini Pro已在欧洲上市

    近日,谷歌宣布其最新人工智能模型Gemini Pro已在欧洲市场上市,向欧洲用户开放。Gemini Pro是谷歌最大的人工智能(AI)
    的头像 发表于 02-04 15:10 677次阅读

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    、计算机时代、互联网时代,而这个时代叫做 ——人工智能时代 想象 GPT 是一位语言天才,她擅长制作一种特殊的串联词语游戏。这个游戏的目标是在给定的起始词汇后,找到一系列相关的词汇,每个词汇之间都有
    发表于 12-22 10:18

    谷歌推出Gemini 希望击败GPT-4

    Gemini不仅仅是一个单一的人工智能模型。有一个简单版本叫Gemini Nano,旨在在安卓设备上离线运行。有一个更强大的版本叫Gemini Pro,很快将为谷歌的许多人工智能服务提
    的头像 发表于 12-14 17:30 451次阅读

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言
    的头像 发表于 12-04 15:51 364次阅读

    人工智能模型、应用场景、应用部署教程超详细资料

    丰富的选择。 此次推出的人工智能模型主要包括:Adain 风格迁移模型、Conformer 模型、DeeplabV
    发表于 11-13 14:49

    盘古大模型GPT3有哪些不同

    盘古大模型GPT3有哪些不同 盘古大模型GPT-3都是人工智能领域迈出的重要一步,它们的发展对于人工
    的头像 发表于 08-30 18:28 1228次阅读

    华为盘古大模型GPT的区别

    华为盘古大模型GPT的区别  随着人工智能技术的不断进步,机器学习领域的研究也越来越深入。在这其中,以自然语言处理技术为主要研究方向的人工智能
    的头像 发表于 08-30 17:38 3154次阅读

    chatGPT和GPT4有什么区别

    chatGPT和GPT4有什么区别 GPT(Generative Pre-trained Transformer)系列模型由OpenAI公司开发,是一组用于自然语言处理(NLP)任务
    的头像 发表于 08-09 15:18 1628次阅读

    AI 人工智能的未来在哪?

    人工智能、AI智能模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI对人类是一种威胁;谷歌前CEO施密特认为AI和机器学习对人类有很大益处。 每个国家
    发表于 06-27 10:48

    一文读懂大语言模型

    本文旨在让没有计算机科学背景的人对ChatGPT和类似的人工智能系统(GPT-3GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一种基于*大
    发表于 06-16 09:59 1055次阅读
    一文读懂大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    最新、最强大的模型GPT-4将向美国政府机构开放

    最新、最强大的模型GPT-4将向美国政府机构开放 此前微软已向其商业客户提供了OpenAI模型,现在微软宣布将向azure government云计算客户开放openai的人工智能
    的头像 发表于 06-08 20:15 1186次阅读

    ChatGPT系统开发AI人功智能方案

    。ChatGPT是一个由OpenAI开发的人工智能语言模型,可以实现自然语言处理、对话生成等功能。要开发一个类似ChatGPT的人工智能系统
    发表于 05-18 10:16

    机器学习和人工智能有什么区别?

    机器学习和人工智能有什么区别?当今唯一可用的软件选项是 ML 系统。在十年左右的时间里,当计算能力和算法开发达到可以显着影响结果的地步时,我们将见证第一个真正的人工智能。是人工智能软件吗?软件构成
    发表于 04-12 08:21