0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出1.6万亿参数的人工智能语言模型,打破GPT-3记录

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2021-01-18 17:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

古谚道:“熟读唐诗三百首,不会作诗也会吟。” 这句话放在目前的人工智能语言模型中也非常适用。

此前,OpenAI 的研究人员开发出 “GPT-3”,这是一个由 1750 亿个参数组成的 AI 语言模型,堪称有史以来训练过的最大的语言模型,可以进行原始类比、生成配方、甚至完成基本代码编写。

如今,这一记录被打破了。近日,谷歌研究人员开发出一个新的语言模型,它包含了超过 1.6 万亿个参数,这是迄今为止最大规模的人工智能语言模型,比之前谷歌开发的语言模型 T5-XXL 的规模大了 4 倍。

6735ad0e-584e-11eb-8b86-12bb97331649.png

参数是机器学习算法的关键所在,它们是从历史训练数据中学习到的模型的一部分。一般而言,在语言领域中参数的数量和复杂度之间的相关性非常好。这一点类似于 GPU晶体管的数量,在同样的制程工艺下,晶体管越多其算力便越强,而语言模型包含的参数愈多就愈接近人类自然语言。

正如研究人员在一篇论文中指出的那样,大规模的训练是通向强大模型的有效途径,在大数据集和参数计数的支持下,简单的体系结构远远超过了更复杂的算法。但是,有效的大规模培训在计算上非常密集。这就是为什么研究人员热衷于他们所说的 “开关变压器”,这是一种 “稀疏激活” 技术,它只使用模型权重的一个子集或者在模型中转换输入数据的参数。

“开关变压器” 是早在 90 年代初首次提出的一种人工智能模型范例,大体意思是将多个专家或专门处理不同任务的模型放在一个更大的模型中,并有一个 “门控网络” 来选择为任何给定数据咨询哪些专家。

在一项实验中,研究人员使用 32 个 TPU 内核对几个不同的 “开关变压器” 模型进行了预训练,这些 TPU 内核位于一个从 Reddit、Wikipedia 和其他网络资源中搜集的 750GB 大小的文本数据语料库中,任务则是让这些模型预测段落中 15% 的单词被遮住的缺失单词,以及其他挑战,比如检索文本来回答一系列越来越难的问题。

研究人员称,包含了 1.6 万亿参数和 2048 名专家的模型 Switch-C 显示 “完全没有训练不稳定性”。然而,在桑福德问答数据集的基准测试中,Switch-C 的得分居然比仅包含 3950 亿个参数和 64 名专家的模型 Switch-XXL 还要低一点,对此,研究人员认为是因为微调质量、计算要求和参数数量之间的不透明关系所致。

在这种情况下,“开关变压器” 导致了一些下游任务的收益。例如,研究人员称在使用相同数量的计算资源的情况下,它可以使训练前的加速速度提高 7 倍以上。他们还证明 “稀疏激活” 技术可以用来创建更小、更密集的模型,这些模型可以对任务进行微调,其质量增益为大型模型的 30%。

对此他们表示:虽然这项工作主要集中在超大模型上,但我们也发现只有两名专家的模型可以提高性能,同时很容易适应通用 GPU 或 TPU 的内存限制。另外,通过将稀疏模型提取为稠密模型,可以实现 10 到 100 倍的压缩率,同时获得专家模型约 30% 的质量增益。

在另一个测试中,“开关变压器” 模型被训练在 100 多种不同语言之间进行翻译,研究人员观察到 101 种语言的 “普遍改善”,91% 的语言受益于比基线模型快 4 倍以上的速度。未来,研究人员还计划将 “开关变压器” 应用于新的领域,比如图像和文本。他们认为,模型稀疏性可以赋予优势,在一系列不同的媒体以及多模态模型。

美中不足的是,研究人员的工作没有考虑到这些语言模型在现实世界中的影响,比如模型通常会放大一些公开数据中的偏见。对此,OpenAI 公司指出,这可能导致在女性代词附近放置 “淘气”;而在 “恐怖主义” 等词附近放置 “伊斯兰” 等。根据米德尔伯里国际研究所的说法,这种偏见可能被恶意行为者利用,通过散布错误信息、造谣和谎言来煽动不和。

而路透社也曾报道称,谷歌的研究人员现在被要求在研究人脸和情绪分析以及种族分类等话题之前,先咨询法律、政策和公关团队,性别或政治派别。

综上所述,尽管谷歌训练的 1.6 万亿参数的人工智能语言模型还没办法做到真正意义上的人工智能,存在一些不足之处需要完善和优化,但随着在摩尔定律下电子设备算力的不断提升,近些年 AI 语言模型参数量级呈指数倍发展,相信在不久的将来,或许真的会出现一个无限接近熟读人类历史所有文明记录的超级模型,能够和人类完全实现自然语言交流,不妨让我们好好期待一下吧!

原文标题:GPT-3记录被打破!谷歌推出1.6万亿参数的人工智能语言模型

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110255
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261507

原文标题:GPT-3记录被打破!谷歌推出1.6万亿参数的人工智能语言模型

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    GPT-5震撼发布:AI领域的重大飞跃

    跃升重新定义了人工智能的能力边界。OpenAI首席执行官山姆·奥特曼在发布会上直言:“这不仅是模型的升级,更是通往通用人工智能(AGI)的关键里程碑。”     GPT-5:集成
    的头像 发表于 08-09 07:44 9868次阅读
    <b class='flag-5'>GPT</b>-5震撼发布:AI领域的重大飞跃

    利用超微型 Neuton ML 模型解锁 SoC 边缘人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍这对开发人员意味着什么,以及使用 Neuton 模型如何改进您的开发和终端
    发表于 08-31 20:54

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,课程覆盖的广度
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    应用场景。从数据采集,到模型推理,都能完整且自如地参与,轻松解锁人工智能全流程实训,让你深度体验AI技术的魅力 。 四、九门课程全覆盖,满足多元学习需求 对于高校教学或者技术学习来说,课程覆盖的广度
    发表于 08-07 14:23

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    人工智能技术的现状与未来发展趋势

    人工智能技术的现状与未来发展趋势     近年来,人工智能(AI)技术迅猛发展,深刻影响着各行各业。从计算机视觉到自然语言处理,从自动驾驶到医疗诊断,AI的应用场景不断扩展,推动社会向智能
    的头像 发表于 07-16 15:01 1186次阅读

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的
    发表于 07-04 11:10

    如何借助大语言模型打造人工智能生态系统

    、硬件需求以及所涉及的财务影响这三者之间的内在联系。我们将深入探究现实中大语言模型的发展趋势,并共同探讨如何借助规模更小、效能更高的模型,打造一个更具可持续性的人工智能生态系统。
    的头像 发表于 04-27 09:19 896次阅读
    如何借助大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>打造<b class='flag-5'>人工智能</b>生态系统

    Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用

    -Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用 Cognizant将在关键增长领域提供解决方案,包括企业级AI智能体、定制化行业大型语言
    的头像 发表于 03-26 14:42 578次阅读
    Cognizant将与NVIDIA合作部署神经<b class='flag-5'>人工智能</b>平台,加速企业<b class='flag-5'>人工智能</b>应用

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型
    的头像 发表于 03-17 15:32 7572次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    马斯克发布Grok 3模型,超越GPT-4o

    近日,科技巨头马斯克宣布其最新研发的人工智能模型——Grok 3正式发布。这一消息引起了业界的广泛关注。 据马斯克介绍,Grok 3在数学推理、科学逻辑推理以及代码写作等多项能力上均
    的头像 发表于 02-19 13:50 720次阅读

    OpenAI即将推出GPT-5模型

    先进技术,其中包括备受瞩目的o3工具。通过整合这些技术,GPT-5模型将实现更加强大的功能和性能。 值得一提的是,GPT-5模型将被广泛应用
    的头像 发表于 02-13 11:21 913次阅读

    人工智能模型年度发展趋势报告

    2024年12月的中央经济工作会议明确把开展“人工智能+”行动作为2025年要抓好的重点任务。当前,以大模型为代表的人工智能正快速演进,激发全球科技之变、产业之变、时代之变,人工智能
    的头像 发表于 02-13 10:57 1511次阅读
    <b class='flag-5'>人工智能</b>大<b class='flag-5'>模型</b>年度发展趋势报告

    【「具身智能机器人系统」阅读体验】1.初步理解具身智能

    与未来,涵盖如基于行为的人工智能、生物启发的进化人工智能及认知机器人技术的发展。这一历史背景为随后的大模型驱动的具身智能讨论奠定了基础,随着人工智能
    发表于 12-28 21:12

    Banana Pi 携手 ArmSoM 推出人工智能加速 RK3576 CM5 计算模块

    的机器学习和人工智能 (ML 和 AI) 工作负载,以及 Arm Mali G52-MC3 图形处理器和支持 H.264/H.265/MJPEG 编码和 H.265/H.265/VP9/AVI1/AVS2
    发表于 12-11 18:38