0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI推出了一种自然语言处理模型

电子工程师 来源:lq 2019-04-29 18:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

几个月前,OpenAI推出了一种自然语言处理模型,能够从维基百科以及亚马逊的产品评价中生产连贯的文本段落。

最近,其开放的OpenAI Five 人工智能系统在全网公开赛中放出了骄人战绩——击败了99.4%的玩家。在和3万多名人类玩家的对垒中,只输了42场。

OpenAI的大招还不止如此。今日凌晨,OpenAI发博文表示,在这些和其他研究的基础上,他们开发了一种深度神经网络稀疏 Transformer(Sparse Transformer),可以实现生成式模型,在文本、图像、声音等序列预测上都创造了新纪录。并且可预测的序列长度比之前可能的长度长了30倍。

“人工智能研究的一个现有挑战是如何对复杂数据中远距离,且较精细的相互依赖性进行建模,”OpenAI技术人员Rewon Child和软件工程师Scott Gray在博客文章中写道。“过去,在这些数据上使用的模型往往只是针对一个域专门设计的,或者是很难扩展到超过几千个元素的序列。相比之下,我们的模型可以使用上百层对有上万元素的序列进行建模,并且在多个域中实现最先进的性能。

这次稀疏 Transformer 研究的基础源于17年Google Brain设计的一种新型的网络结构,即《Attention Is All You Need》中提出的Transformer。不使用 RNN、CNN 模型,只使用 attention 机制构成的解码编码结构就达到了很好的效果。为谷歌团队于前年 6 月所提出的 NLP 经典之作,同时被 2017 NIPS 接收(2017 录取率约 20 %),引用次数已达1566次,并还在持续增加中。

与所有深度神经网络一样, Transformer包含排列在互连层中的神经元(本质用数学函数模拟生物神经元),这些层从输入数据传入“信号”,并缓慢调整每个连接的权重。这是模型如何提取特征并学习以及如何进行预测的关键点。在 Transformer 中,每个输出元素与每个输入元素都相连,它们之间的权重是动态计算出来的,而过程称为注意力。

上图:用稀疏 Tansformer 重计算(recomputaing)注意力矩阵前后的内存使用情况。

注意力机制通常需要为每个层和每个所谓的注意头创建一个注意力矩阵,从计算的角度来看这不是特别有效。例如,包含24,000个样本的2秒音频片段或64低分辨率图像的语料库可能分别占用590GB和154GB内存,而这远远高于用于训练AI模型的GPU的负载。

OpenAI的方法通过重新计算矩阵来最小化内存使用量,上面描述的590GB的内存需求在重新计算后仅需9.2GB;154GB可压缩到2.4GB。于是,实际上最大的内存开销就变得与层数无关了,因此就允许所述模型进行“非常深”的深度来进行训练。

由于单个注意力矩阵对于庞大的数据量输入并不是特别实用,因此本文提出的深度神经网络实现了稀疏注意力模式,其中每个输出仅从输入子集计算权重,对于跨越较大子集的神经元层,通过矩阵因子分解来转换矩阵,他们认为这是保持神经网络层学习数据模式能力所必需的一步。

上图:使用稀疏Transformer生成图像

通常,实现稀疏注意力需要将查询和关键矩阵进行“切片”,因此为了简化实验,OpenAI 实现了一组块稀疏核,这些核在 GPU 上高效地执行这些操作。另外,OpenAI开源了这些内核,并在Github上提供示例稀疏注意函数。

https://github.com/openai/sparse_attention

根据OpenAI的博客介绍到,即使经过改进,自回归序列生成对于非常高分辨率的图像或视频来说仍然是不切实际的。不过,提出的优化注意力操作可能是一次有益的探索,可以和其他(如多尺度方法)方法相结合来对高维数据进行建模。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    320

    浏览量

    62754
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261634
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14565

原文标题:OpenAI提出稀疏Transformer模型:文本、图像、声音一网打尽,将可预测序列长度提高30倍

文章出处:【微信号:BigDataDigest,微信公众号:大数据文摘】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知
    的头像 发表于 11-10 17:30 531次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出了一种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
    的头像 发表于 08-27 14:06 672次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    ifconfig、gpio write 1 1)。 工作流程 : MCP客户端发送自然语言指令到 HZ-T536 的 MCP 服务器; MCP 服务器利用DeepSeek的大语言模型能力,生成
    发表于 08-23 13:10

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界直在期待的OpenAI代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是
    的头像 发表于 08-07 14:13 8935次阅读

    自然语言提示原型在英特尔Vision大会上首次亮相

    在英特尔Vision大会上,Network Optix首次展示了自然语言提示原型,该方案将重新定义视频管理,为各行各业由AI驱动的洞察和效率提速。
    的头像 发表于 04-09 09:30 794次阅读

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能
    的头像 发表于 03-17 15:32 7629次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    一种基于正交与缩放变换的大模型量化方法

    近年来,大规模语言模型(Large Language Models, LLMs)在自然语言处理领域取得了革命性进展。以 GPT 系列、LLaMA 等为代表的
    的头像 发表于 03-04 11:10 923次阅读
    <b class='flag-5'>一种</b>基于正交与缩放变换的大<b class='flag-5'>模型</b>量化方法

    语言模型的解码策略与关键优化总结

    的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。大型语言模型的技术基础大型语言模型是当代自然语言
    的头像 发表于 02-18 12:00 1076次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与关键优化总结

    OpenAI即将推出GPT-5模型

    OpenAI首席执行官奥尔特曼近日宣布了项重要消息:OpenAI将在今年未来几个月内推出全新的GPT-5模型。这
    的头像 发表于 02-13 11:21 917次阅读

    文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3271次阅读
    <b class='flag-5'>一</b>文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    广和通正式推出AI玩具大模型解决方案

    ,即可实现音视频及图像的实时传输、语音识别、自然语言处理以及机器学习等多种功能。这意味着玩具能够与用户进行更加丰富的互动,通过拟人、拟动物或拟IP的形式,以视、听、触等多维度的方式与用户进行交流。 广和通的AI玩具大模型解决方案
    的头像 发表于 01-24 10:36 1747次阅读

    OpenAI报告GPT-4o及4o-mini模型性能下降,正紧急调查

    ,自发现这问题以来,公司已经迅速启动了内部调查机制,以尽快查明导致模型性能下降的具体原因。OpenAI强调,他们对此次事件高度重视,并将全力以赴解决这问题,以确保用户能够继续享受到
    的头像 发表于 01-23 10:22 1107次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种结合信息检索与文本生成能力的技术,它通过
    发表于 01-17 19:53

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    阅读之旅。在翻开这本书之前,我对大模型的认知仅仅停留在它是一种强大的人工智能技术,可以进行自然语言处理、图像识别等任务。我知道像 ChatGPT 这样的应用是基于大
    发表于 12-24 13:10

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现
    的头像 发表于 12-13 10:51 960次阅读