0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开发出一个新的语言模型,包含了超过1.6万亿个参数

ss 来源:陈述根本 作者:陈根 2021-01-19 15:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

开发人工智能的语言模型,一直是人工智能的重要细分领域。人工智能语言模型应用包括搜索引擎、文字生成、个性化的对话工具以及软件生成等。

2020年5月,OpenAI的一组研究人员发布了具有里程碑意义的AI模型GPT-3。GPT-3就是在570 GB的文本数据上训练的语言模型,因此,就训练数据和生成能力而言,GPT-3截至2020年都是最庞大的公开发布的语言模型。

此外,OpenAI的GPT-3一反之前死守基础研究的思路,将 GPT-3 做成了一个服务,提供可以调用的 OpenAI API,并且向开放了少量体验资格,使得拿到体验资格的业界人士或学者等,开发出了一众惊人的演示。

包括答题、翻译、写文章,甚至是数学计算和编写代码。而由GPT-3所写的文章几乎达到了以假乱真的地步,在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为 12%。

但现在,谷歌研究人员开发出一个新的语言模型,它包含了超过 1.6 万亿个参数,远超 Open AI 开发的 GTP-3 的规模(1750 亿个参数),成为迄今为止最大规模的人工智能语言模型,比之前谷歌开发过最大的语言模型 T5-XXL 的效率提高了 4 倍。

该语言模型使用 Switch Transformer 方法进行大规模训练,这是一种“稀疏激活”技术,它只使用模型权重的子集或在模型中转换输入数据的参数,以有效降低计算密集度。

尽管在部分实验中,该模型相比规模更小的模型得到了较低分数。但在相同的计算资源下,预训练速度提高了7倍。这些改进扩展到多语言设置中,我们在所有101种语言中测量mT5基本版本的增益。最后,我们通过在“巨大的干净的爬虫语料库”上预先训练多达万亿个参数的模型,提高了语言模型的当前规模,并实现了比T5-XXL模型4倍的加速。

研究人员认为,稀疏性可以在未来赋予该模型在一系列不同媒体下多模态的优势。这也为人工智能语言模型的深入研究提供了更多方向的参考。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38271

    浏览量

    297326
  • 人工智能
    +关注

    关注

    1813

    文章

    49783

    浏览量

    261879
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11265
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌AI模型点亮开发无限可能

    在 2025 年的 Google 谷歌开发者大会上,AI 不是门“技术”,更是股彻底改变开发范式的“力量”,助力
    的头像 发表于 08-29 09:29 895次阅读

    ‌Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技

    Groq LPU 如何让万亿参数模型「飞」起来?揭秘 Kimi K2 40 倍提速背后的黑科技‌ 最近,Moonshot AI 的千亿参数模型 ‌Kimi K2‌ 在 ‌GroqCl
    的头像 发表于 08-07 10:01 672次阅读

    万亿参数!元脑企智体机率先支持Kimi K2大模型

    北京2025年7月21日 /美通社/ -- 浪潮信息宣布元脑企智体机已率先完成对Kimi K2 万亿参数模型的适配支持,并实现单用户70 tokens/s的流畅输出速度,为企业客户
    的头像 发表于 07-22 09:27 416次阅读
    <b class='flag-5'>万亿</b><b class='flag-5'>参数</b>!元脑企智<b class='flag-5'>一</b>体机率先支持Kimi K2大<b class='flag-5'>模型</b>

    如何将FA模型开发的声明式范式应用切换到Stage模型

    模型切换概述 本文介绍如何将FA模型开发的声明式范式应用切换到Stage模型,您需要完成如
    发表于 06-04 06:22

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为热门话题。这些模型通过学习大量的文本
    的头像 发表于 04-30 18:34 1081次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    小白学大模型:训练大语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的项研究中,科学家们为了深入了解如何高效地训练大型
    的头像 发表于 03-03 11:51 1227次阅读
    小白学大<b class='flag-5'>模型</b>:训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    超过150万模型,DeepSeek全球最受欢迎

    ,中国开源大模型 DeepSeek-R1 在 huggingface 平台上超过 150 万模型中脱颖而出,成为该平台最受欢迎的开源大模型
    的头像 发表于 02-25 00:13 3962次阅读
    <b class='flag-5'>超过</b>150万<b class='flag-5'>个</b>大<b class='flag-5'>模型</b>,DeepSeek全球最受欢迎

    模型领域常用名词解释(近100

    的分类进行了整理,以下供参考:模型架构与基础概念大语言模型(LLM,LargeLanguageModel):种基于深度学习的大规模神经网络模型
    的头像 发表于 02-19 11:49 1309次阅读
    大<b class='flag-5'>模型</b>领域常用名词解释(近100<b class='flag-5'>个</b>)

    添越智创基于 RK3588 开发板部署测试 DeepSeek 模型全攻略

    在 AI 技术日新月异的当下,新的模型与突破不断涌现。近期,DeepSeek(深度求索)模型以其卓越性能和亲民成本,迅速在全球开发者圈子里引发热议。作为款强大的
    发表于 02-14 17:42

    文详解视觉语言模型

    视觉语言模型(VLM)是种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3330次阅读
    <b class='flag-5'>一</b>文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    腾讯公布大语言模型训练新专利

    语言模型的训练过程中引入第摘要文本和第二摘要文本,为模型提供了更为丰富的学习信息。这两摘要文本在信息量上存在差异,且第
    的头像 发表于 02-10 09:37 743次阅读

    2025年:大模型Scaling Law还能继续吗

    模型在推理能力方面是重要的进步。 然而,最近关于人工智能进展停滞的报道中包含了种对进展速度的悲观情绪。许多人可能仍然在思考大型
    的头像 发表于 01-15 14:32 957次阅读
    2025年:大<b class='flag-5'>模型</b>Scaling Law还能继续吗

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的项关键技术,它指的是在已经预训练好的大型深度学习模型
    发表于 01-14 16:51

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 581次阅读

    AI大语言模型开发步骤

    开发高效、准确的大语言模型复杂且多阶段的过
    的头像 发表于 12-19 11:29 1241次阅读