0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

深度学习自然语言处理 来源:机器之心 2024-01-04 16:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。

我们都知道,OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。

在基准测试中,Mistral 8x7B 的表现优于 Llama 2 70B,在大多数标准基准测试上与 GPT-3.5 不相上下,甚至略胜一筹。

5e8e9c7c-aa00-11ee-8b88-92fbcf53809c.png5e9b6678-aa00-11ee-8b88-92fbcf53809c.png▲图源 https://mistral.ai/news/mixtral-of-experts/

随着这项研究的出现,很多人表示:「闭源大模型已经走到了结局。」 5e9fa184-aa00-11ee-8b88-92fbcf53809c.png

短短几周的时间,机器学习爱好者 Vaibhav (VB) Srivastav 表示:随着 AutoAWQ(支持 Mixtral、LLaVa 等模型的量化)最新版本的发布,现在用户可以将 Mixtral 8x7B Instruct 与 Flash Attention 2 结合使用,达到快速推理的目的,实现这一功能大约只需 24GB GPU VRAM、不到十行代码。 5ea3abda-aa00-11ee-8b88-92fbcf53809c.png▲图源 https://twitter.com/reach_vb/status/1741175347821883502

AutoAWQ地址:

https://github.com/casper-hansen/AutoAWQ 操作过程是这样的: 首先是安装 AutoAWQ 以及 transformers

pipinstallautoawqgit+https://github.com/huggingface/transformers.git
第二步是初始化 tokenizer 和模型: 5eaa2c8a-aa00-11ee-8b88-92fbcf53809c.png  第三步是初始化 TextStreamer: 5eae1264-aa00-11ee-8b88-92fbcf53809c.png  第四步对输入进行 Token 化: 5eb31566-aa00-11ee-8b88-92fbcf53809c.png  第五步生成: 5eb7ddda-aa00-11ee-8b88-92fbcf53809c.png  当你配置好项目后,就可以与 Mixtral 进行对话,例如对于用户要求「如何做出最好的美式咖啡?通过简单的步骤完成」,Mixtral 会按照 1、2、3 等步骤进行回答。

5ec0113a-aa00-11ee-8b88-92fbcf53809c.png

项目中使用的代码:

5ec86e84-aa00-11ee-8b88-92fbcf53809c.png

Srivastav 表示上述实现也意味着用户可以使用 AWQ 运行所有的 Mixtral 微调,并使用 Flash Attention 2 来提升它们。 看到这项研究后,网友不禁表示:真的很酷。

5ecdb254-aa00-11ee-8b88-92fbcf53809c.png  5ed1689a-aa00-11ee-8b88-92fbcf53809c.png


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4976

    浏览量

    74378
  • GPT
    GPT
    +关注

    关注

    0

    文章

    372

    浏览量

    16965
  • OpenAI
    +关注

    关注

    9

    文章

    1249

    浏览量

    10279

原文标题:8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AT89C51RD2/ED2:高性能8Flash微控制器的深度剖析

    AT89C51RD2/ED2:高性能8Flash微控制器的深度剖析 在电子设计领域,微控制器是众多项目的核心。今天我们要深入探讨的是AT89C51RD
    的头像 发表于 04-05 16:40 1224次阅读

    海光DCU完成阶跃星辰基座模型Step 3.5 Flash推理适配

    近日,海光DCU正式完成对阶跃星辰旗舰开源基座模型Step 3.5 Flash的全流程适配与深度调优。得益于新一代海光DCU原生支持FP8精度、超越主流旗舰产品的更大显存等核心优势,高效完成Step 3.5 Flash FP
    的头像 发表于 03-26 09:48 637次阅读

    海光DCU完成Qwen3.5多模态MoE模型全量适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰多模态模型、Qwen3.5-35B-A3B MoE多模态模型全量适配、精度对齐与推理
    的头像 发表于 03-26 09:35 703次阅读

    C8051F52x/F53x 8/4/2 kB ISP Flash MCU Family:高性能混合信号MCU的深度剖析

    C8051F52x/F53x 8/4/2 kB ISP Flash MCU Family:高性能混合信号MCU的深度剖析 在电子设计领域,微
    的头像 发表于 03-18 17:05 547次阅读

    阶跃星辰开源Step 3.5 Flash,多家国产芯片厂商完成适配

    。   Step 3.5 Flash模型聚焦于实时Agent工作流场景,采用稀疏MoE架构,总参数量高达1960亿,不过每个token仅激活约110亿参数。这种设计旨在兼顾推理速度与使用成本,为智能体(Agent)提供稳定可靠且
    的头像 发表于 02-02 15:36 1813次阅读

    如何正确配置AG32 MCU,实现FLASH或者代码加密?

    的SDK资料:海振远科技为客户提供丰富的开发资料和多款开发板可以选择,方便用户快速上手设计。 2、开发板资源: 二、如何正确配置AG32 MCU,实现FLASH或者
    发表于 01-22 15:01

    今日看点:小米正式发布并开源新模型 MiMo-V2-Flash;磷酸铁锂开启涨价潮

    (激活15B)的 MoE 模型,通过引入 Hybrid 注意力架构创新 及 多层 MTP 推理加速,在多个 Agent 测评基准上进入全球开源模型 Top 2
    的头像 发表于 12-17 09:42 4489次阅读

    Qwen3-VL 4B/8B全面适配,BM1684X成边缘最佳部署平台!

    算能BM1684X上完成Qwen3-VL4B/8B模型的适配,推理速度13.7/7.2tokens/s,使其成为边缘部署多模态大模型的最佳选择。近日,阿里千问正式开源Qwen3-VL系
    的头像 发表于 10-16 18:00 3128次阅读
    Qwen3-VL 4<b class='flag-5'>B</b>/<b class='flag-5'>8B</b>全面适配,BM1684<b class='flag-5'>X</b>成边缘最佳部署平台!

    【「DeepSeek 核心技术揭秘」阅读体验】基于MOE混合专家模型的学习和思考-2

    = F.softmax(self.gate(x), dim=-1) # 这就是公式中的 p_i^c # 2. 计算每个专家的输出 expert_outputs = [] for expert
    发表于 08-23 17:00

    杭州灵汐类脑智算集群实现大模型快速推理

    据悉,“杭州灵汐类脑智算集群”已于7月底实现了大模型快速推理API的企业服务试运行。该集群由杭州灵汐类脑科技有限公司牵头搭建运营,中国电信、中国电子科技南湖研究院以及脑启社区作为合作方
    的头像 发表于 08-18 16:06 1117次阅读

    华为宣布开源盘古7B稠密和72B混合专家模型

    关键一步,为全球开发者、企业及研究人员提供了强大的技术支撑。   华为此次开源行动涵盖三大核心板块:盘古Pro MoE 72B模型权重与基础推理代码已率先上线开源平台;基于昇腾的超大规
    的头像 发表于 07-06 05:51 7624次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千百业的应用与价值创造。 盘古Pro MoE 72B模型权重、基础推理代码,已
    的头像 发表于 06-30 11:19 1443次阅读

    具有载波聚合的 RX 分集 FEM(B26、B8B12/13、B2/25、B4 和 B7) skyworksinc

    电子发烧友网为你提供()具有载波聚合的 RX 分集 FEM(B26、B8B12/13、B2/25、B4 和
    发表于 06-19 18:35
    具有载波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B8</b>、<b class='flag-5'>B</b>12/13、<b class='flag-5'>B2</b>/25、<b class='flag-5'>B</b>4 和 <b class='flag-5'>B7</b>) skyworksinc

    润和软件StackRUNS异构分布式推理框架的应用案例

    江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的StackRUNS异构分布式推理框架已在实际场景中取得显著成效,成功应用于大型园区多模态模型演练及高校满血版DeepSeek-MoE 671B的运行,有效推动了大模型技术
    的头像 发表于 06-13 09:11 1441次阅读
    润和软件StackRUNS异构分布式<b class='flag-5'>推理</b>框架的应用案例

    代码革命的先锋:aiXcoder-7B模型介绍

       国内开源代码大模型 4月9日aiXcoder宣布正式开源其7B模型Base版,仅仅过去一个礼拜,aiXcoder-7B在软件源代码托管服务平台GitHub上的Star数已超过
    的头像 发表于 05-20 14:41 955次阅读
    <b class='flag-5'>代码</b>革命的先锋:aiXcoder-<b class='flag-5'>7B</b>模型介绍