0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

特斯拉前AI总监Andrej Karpathy:大模型有内存限制,这个妙招挺好用!

CVer 来源:机器之心 2023-09-04 15:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Andrej Karpathy 用通俗易懂的语言介绍了 speculative execution。

「如今,LLM(大语言模型)并不是单点突破的 —— 而是需要多个重要组件有效协同工作的系统。Speculative decoding 是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。

58f1639a-4a73-11ee-97a6-92fbcf53809c.png

符尧上述观点评论的是特斯拉AI 总监、年初重回 OpenAI 的 Andrej Karpathy 刚刚发布的一条推特。

人形机器人公司 1X Technologies 的 AI 副总裁 Eric Jang 评价道:「Karpathy 很好的解释了 LLM 的 speculative execution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从 K 步中获益较少(可能在第 1 步后偏离猜测),但可以将其应用于 VQ-latents 的离散代码。」

590ef96e-4a73-11ee-97a6-92fbcf53809c.png

看完上述评价,我们大概也了解了,Karpathy 说的「Speculative execution」,这是优化技术的一类,采用这个技术的计算机系统会根据现有信息,利用空转时间提前执行一些将来可能用得上,也可能用不上的指令。如果指令执行完成后发现用不上,系统会抛弃计算结果,并回退执行期间造成的副作用(如缓存)。

为了让大家更好的理解 Karpathy 的内容。我们先介绍一下「Speculative decoding」方法,对后续理解更加有益,其主要用于加速大模型的推理。据了解,GPT-4 泄密报告也提到了 OpenAI 线上模型推理使用了它(不确定是否 100%)。

关于「Speculative decoding」,已有几篇重要文献可供参考,这也是 Karpathy 为了写这则推特所参考的论文,包括谷歌今年 1 月发表的论文《Fast Inference from Transformers via Speculative Decoding》、DeepMind 今年 2 月发表的论文《Accelerating Large Language Model Decoding with Speculative Sampling》,以及谷歌等机构 2018 年的论文《Blockwise Parallel Decoding for Deep Autoregressive Models 》 。

简单来说,「Speculative decoding」使用两个模型:一个是原始目标模型称为大模型,另一个是比原始模型小得多的近似模型称为小模型。主要思想是先让小模型提前解码多个 token 进行猜测,并将它们作为单个 batch 输入到一个大模型中进行审核修正,其效果和直接用大模型解码等价。如果小模型猜测的不准确,那么大型模型会放弃小模型预测的 token,继续使用大型模型进行解码。

由于小模型计算量小,从而大大减少了内存访问需求。

介绍完「Speculative decoding」,我们再回到 Karpathy 的推特。Karpathy 是针对下面内容回复的。

59286e94-4a73-11ee-97a6-92fbcf53809c.gif

Karpathy 表示:对于 LLM 来说,「Speculative execution」 是一种极好的推理 — 时间优化方法。

它取决于以下方面:在单个输入 token 上分发 LLM 所花费的时间与在批处理中分发 K 个输入 token 所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从 VRAM 读取 transformer 的权重到片上缓存进行处理。如果你要做的工作是来读取这些权值,你可以把它们应用到一整批输入向量上。

但是我们不能一次性采样一批 K 个 token,因为每 N 个 token 都取决于我们在第 N-1 步采样的 token。由于存在串行依赖性,因此基线实现只是从左到右逐一进行。

现在最聪明的想法是使用一个小而便宜的草稿模型(draft model),先生成 K 个 token 候选序列,即一个「草稿」。然后用大模型批量的将输入组合在一起。速度几乎与仅输入一个 token 一样快。接着从左到右遍历模型和样本 token 预测的 logits。任何与「草稿」一致的样本都允许立即跳到下一个 token。如果存在分歧,那么就丢弃「草稿」并承担一些一次性工作的成本(对「草稿」进行采样并为所有后续 token 进行前向传递)。

这种方法起作用的原因在于,很多「草稿」token 都会被接受,因为它们很容易,所以即使是更小的草稿模型也能得到它们。当这些简单的 token 被接受时,我们会跳过这些部分。大模型不同意的 hard token 会回落到原始速度,但由于一些额外的工作,实际上速度会慢一些。

Karpathy 表示,这个奇怪的技巧之所以有效,是因为 LLM 在推理时受到内存限制,在对单个序列进行采样的 batch size=1 设置中,很大一部分本地 LLM 用例都属于这种情况。因为大多数 token 都很「简单」。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38233

    浏览量

    297129
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9820
  • 大模型
    +关注

    关注

    2

    文章

    3460

    浏览量

    4975
  • LLM
    LLM
    +关注

    关注

    1

    文章

    341

    浏览量

    1260

原文标题:特斯拉前AI总监Andrej Karpathy:大模型有内存限制,这个妙招挺好用!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    太强了!AI PC搭载70B大模型,算力狂飙,内存开挂

    电子发烧友网报道(文/黄晶晶)AI推理助推了DeepSeek一体机的市场热度,而AI PC对DeepSeek大模型的支持也将是广大用户采购AI PC的参考因素。不同配置的
    的头像 发表于 03-24 08:52 3006次阅读
    太强了!<b class='flag-5'>AI</b> PC搭载70B大<b class='flag-5'>模型</b>,算力狂飙,<b class='flag-5'>内存</b>开挂

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、现阶段更智能、更接近AGI的6中算法与模型 1、MoE模型 MoE模型作为Transfomer模型的后继者,代表着AI技术的一项重大创新和
    发表于 09-18 15:31

    科普:什么AI 内存技术

    问题。 为什么 AI 内存很重要? 在 AI 模型训练和推理过程中,大量的数据需要从内存传输到处理器(如 GPU 或 TPU)进行计算。传统
    的头像 发表于 09-03 15:44 778次阅读

    在K230中,如何使用AI Demo中的object_detect_yolov8n,YOLOV8多目标检测模型

    在K230的AI开发教程文档中,可以看到有源码的AI Demo,其中包括yolov8n模型,在仓库里可以看到源码 我想请问各位大佬,如何使用这个程序?如何更改程序,替换为我自己的
    发表于 08-07 06:48

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?

    大家都在用什么AI软件?有没有好用的免费的AI软件推荐一下?直接发个安装包,谢谢。比如deepseek、Chatgpt、豆包、阿里AI、百度AI
    发表于 07-09 18:30

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    模型库的限制,联发科还首发了开源弹性架构。区别于过往的开放接口,只能部署特定架构模型,开放弹性架构允许开发者直接调整平台源代码,无需等待芯片厂商的支持,即可完成目标或其他自研大模型轻松
    发表于 04-13 19:52

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    霍尔电流传感器的原边端如何接入AI模型

    霍尔电流传感器的原边端如何接入AI模型,以便AI分析问题解决问题?话题会不会太超前?现在正式AI风口啊,猪都要起飞了
    发表于 03-03 15:18

    企业能耗 “大瘦身”, Acrel-EIOT 能源物联网平台妙招

    企业能耗 “大瘦身”, Acrel-EIOT 能源物联网平台妙招
    的头像 发表于 03-01 08:04 436次阅读
    企业能耗 “大瘦身”, Acrel-EIOT 能源物联网平台<b class='flag-5'>有</b><b class='flag-5'>妙招</b>

    AI模型托管原理

    AI模型托管的核心在于将训练好的AI模型部署在云端或边缘服务器上,由第三方平台提供模型运行、管理和优化等服务。下面,
    的头像 发表于 02-26 10:31 925次阅读

    AI开源模型什么用

    AI开源模型库作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源
    的头像 发表于 02-24 11:50 901次阅读

    数据驱动AI工具好用

    当今,数据驱动AI工具,正逐渐成为企业和研究机构提升效率、优化决策、创新服务的关键手段。那么,数据驱动AI工具好用吗?下面,AI部落小编带您了解。
    的头像 发表于 02-14 09:17 659次阅读

    生成式AI工具好用

    当下,生成式AI工具正以其强大的内容生成能力,为用户带来了前所未有的便捷与创新。那么,生成式AI工具到底好用吗?答案无疑是肯定的。接下来,AI部落小编带您了解。
    的头像 发表于 01-17 09:54 841次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    的平衡,解释得清清楚楚,让我这个非专业人士也能明白大模型在实际应用中面临的挑战和限制,也对这些模型的复杂性和挑战了更深的理解。 而且,书
    发表于 12-20 15:46