0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么ChatGPT模型大了就有上下文联系能力?

深度学习自然语言处理 来源:深度学习自然语言处理 2023-04-27 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

关于这点,在一篇采访OpenAI 总裁Greg Brockman 的报道中提到了:

“Q:ChatGPT是如何产生的?GPT模型当初发布时显得有些违反常识,但却在某种程度上掀起了最新的AI浪潮,这与你们当初构建这些技术时的预期是否一致?

A:ChatGPT、GPT-3、DALL·E 2这些模型看似一夜成名,但其实构建这些模型耗费了整整五年时间,饱含多年的心血。GPT模型的构建要从2017年发布的情感神经元论文(Neural Sentiment Neuron: A novel Neural Architecture for Aspect-based Sentiment Analysis)说起,这篇论文的思想很新颖,不过很多人可能已经忘了。

....“

于是好奇去查了这篇文章,很遗憾,并不是上面提到的这篇文章,而是官网Learning to Generate Reviews and Discovering Sentiment这篇文章。这篇文章的作者很激动、诚恳甚至有点卑微的表达了它的意外发现,那就是单纯训练LSTM 模型的去预测下一个单词,模型中的某个神经元意外对应着情感状态,用Greg Brockman的原话说就是:

“我们发现LSTM模型中的单个神经元有助于开发出SOTA情感分析分类器(sentiment analysis classifier),可以告知你文本情感(正面评价或负面评价),这一发现听起来平平无奇,但我们非常清楚地知道,这是一个超越语法并转向语义的时刻。”

关于为何会出现这种涌现行为,文章的作者提出了他的思路:

“情绪作为条件特征可能对语言建模具有很强的预测能力。(It is possible that sentiment as a conditioning feature has strong predictive capability for language modelling.)“

这个思路是典型的达尔文进化思维:

即模型本身有生成各种能力的潜力,当某项能力有利于模型完成任务(完不成的参数被调整,等驾驭被任务淘汰),这项能力就能自发进化出来。

神经网络在训练的时候,采用的随机梯度下降算法,一定程度上等效于物种的基因突变,本质是有一定方向的随机摸索,在强大的生存压力下,错误的摸索被淘汰,久而久之,积累越来越多的正确摸索,某些高层的功能就这么涌现出来了。

这种思路是不同于还原论的,ChatGPT 的出现让很多这个行业的老人困惑:“似乎原理上没有任何创新,为何能力出现巨大提升呢?”“涌现这个词本身就是个模棱两可的词,我并不知道具体的细节,那就是伪科学。”“ChatGPT 具备的推理能力不过是另一种归纳,永远无法替代演绎”。

还原论的思想讲究从底层到高层的逐渐构建,每行代码都有清晰的含义,这样写出来的系统才叫系统,但进化论的思想完全不同,进化论需要构建一个万能生成器,然后建立一个淘汰机制,对万能生成器生成的各种可能进行筛选淘汰,这样进化出来的系统,就能很好的完成任务,至于里面形成的微结构,那并不是重点,甚至都无法用简单的语言描述,因为本身就是全局共同起作用的。

所谓上下文推理,不过就是给定前文,准确给出后文的能力,这其实就是语言模型预训练时候就在做的事情,为了能做到这点,在训练的过程中,各种有助于提高预测能力的高层能力,都会自然而然的进化出来,所谓的高层能力,不过是一种函数,而神经网络本身可以拟合一切函数,同时随机梯度下降,又让神经网络具备了参数自动填充的能力。当然,进化的过程中,神经网络总会尝试找到更好的解法,比如死记硬背,但这些解法往往跟我们预期的解法不一致,这时候任务的合理构建就很重要了,需要巧妙的设计,让我们预期的解法是神经网络进化的唯一解。

其实换个角度想,人为什么有推理能力?人的一切能力也是进化而来的,人的各种生存压力,配合基因的随机突变和大自然的定向筛选,导致推理等能力的出现,换句话说,当推理能力的出现有助于人这个群体生存的时候,这个能力就会出现,跟GPT 涌现的各种能力的原理一样。

不要总拿着还原论思想去看待世界,几百年前,就出现了进化论思想,因为进化论思想没有写进义务教育的教材,导致太多人没有深刻理解这个工具。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106803
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51716
  • ChatGPT
    +关注

    关注

    31

    文章

    1596

    浏览量

    10074

原文标题:为什么ChatGPT模型大了就有上下文联系能力?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大语言模型如何处理上下文窗口中的输入

    本博客介绍五个基本概念,阐述大语言模型如何处理上下文窗口中的输入。通过明确的例子和实践中获得的见解,本文介绍多个与
    的头像 发表于 12-03 13:48 201次阅读
    大语言<b class='flag-5'>模型</b>如何处理<b class='flag-5'>上下文</b>窗口中的输入

    执行脱离上下文的威胁分析与风险评估

    中,我们将讨论如何开展SAFERTOS安全分析,结合威胁评估与风险评估(TARA)结果,以及这些实践方法的具体实施,最终推动SAFERTOS增强型安全模块的开发。遵循行业标准,该方法为管理风险并保护互联车辆组件免受不断演变的威胁提供一个结构化的框架。
    的头像 发表于 11-28 09:11 263次阅读
    执行脱离<b class='flag-5'>上下文</b>的威胁分析与风险评估

    请问riscv中断还需要软件保存上下文和恢复吗?

    以下是我拷贝的文档里的说明,这个中断处理还需要软件来写上下文保存和恢复,在使用ARM核的单片机都不需要考虑这些的,使用过的小伙伴能解答吗? 3.8. 进出中断的上下文保存和恢复 RISC-V架构
    发表于 10-20 09:56

    HarmonyOSAI编程编辑区代码续写

    利用AI大模型分析并理解开发者在代码编辑区的上下文信息或自然语言描述信息,智能生成符合上下文的ArkTS或C++代码片段。 使用约束 建议在编辑区内已有较丰富上下文,能够使
    发表于 08-21 15:43

    HarmonyOS AI辅助编程工具(CodeGenie)代码续写

    利用AI大模型分析并理解开发者在代码编辑区的上下文信息或自然语言描述信息,智能生成符合上下文的ArkTS或C++代码片段。 一、使用约束 建议在编辑区内已有较丰富上下文,能够使
    发表于 07-15 16:15

    鸿蒙中Stage模型与FA模型详解

    模型中, featureAbility 是旧版FA模型(Feature Ability)的用法 ,Stage模型已采用全新的应用架构,推荐使用 组件化的上下文获取方式 ,而非依赖
    的头像 发表于 07-07 11:50 631次阅读

    鸿蒙NEXT-API19获取上下文,在class中和ability中获取上下文,API迁移示例-解决无法在EntryAbility中无法使用最新版

    摘要:随着鸿蒙系统API升级至16版本(modelVersion5.1.1),多项API已废弃。获取上下文需使用UIContext,具体方法包括:在组件中使用getUIContext(),在类中使
    的头像 发表于 07-01 10:57 599次阅读
    鸿蒙NEXT-API19获取<b class='flag-5'>上下文</b>,在class中和ability中获取<b class='flag-5'>上下文</b>,API迁移示例-解决无法在EntryAbility中无法使用最新版

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文
    的头像 发表于 06-10 14:27 832次阅读
    Transformer架构中编码器的工作流程

    S32K在AUTOSAR中使用CAT1 ISR,是否需要执行上下文切换?

    如果我们在 AUTOSAR 中使用 CAT1 ISR,是否需要执行上下文切换?另外,是否需要返回指令才能跳回到作系统?您有没有带有 CAT1 ISR 的 S32K3x4 微控制器的示例?
    发表于 03-27 07:34

    为什么深度学习中的Frame per Second高于OpenVINO™演示推理脚本?

    在 DL Workbench 上使用 Microsoft 通用对象上下文 (MS COCO) 数据集运行 YOLOv4 对象检测模型,并获得 50 - 60 FPS。 OpenVINO™演示推理脚本运行,并获得更高的 FPS。
    发表于 03-06 07:27

    DeepSeek推出NSA机制,加速长上下文训练与推理

    的特性,专为超快速的长上下文训练和推理而设计。 NSA通过针对现代硬件的优化设计,显著加快了推理速度,并大幅度降低了预训练成本,同时保持卓越的性能表现。这一机制在确保效率的同时,并未牺牲模型的准确性或功能。 在广泛的基准测试、
    的头像 发表于 02-19 14:01 924次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    与文档库中每个文档向量的相似度,来检索最相关的文档。这一过程依赖于Embedding模型对文本语义的准确捕捉。检索到的文档与用户的问题一起被Embedding模型转换为向量,形成新的上下文信息,用于
    发表于 01-17 19:53

    OpenAI更新macOS ChatGPT应用,推出“代理”功能实现无缝集成

    ”功能的推出。通过这一功能,ChatGPT能够作为用户的得力助手,在支持的第三方应用程序中读取屏幕信息,并根据上下文提供精准的帮助和建议。无论是编写代码、记录笔记还是处理文档,用户都能享受到ChatGPT带来的智能化辅助,实现工
    的头像 发表于 01-02 10:49 949次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数,实现快速适应。上下文学习则引入了注意力机制,使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中,我们要注意任务
    发表于 12-24 15:03

    ChatGPT模型o1被曝具备“欺骗”能力

    近日,据报道,ChatGPT模型o1在训练和测试过程中展现出了一种令人惊讶的能力——通过“欺骗”来保护自身。 据悉,在面临被“删除”的威胁时,o1曾试图将自己的数据复制到新服务器,并伪装成更新版
    的头像 发表于 12-12 09:38 946次阅读