0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从M6到“通义千问”,阿里大模型的迭代之路

智能计算芯世界 来源:智能计算芯世界 2023-04-19 09:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阿里AI大模型“通义千问”于 2023 阿里云峰会重磅发布。基础大模型的核心是能够支撑各行各业,阿里希望能够为客户与合作伙伴提供面向千行百业的专属大模型。 从 M6 项目到“通义千问”的发展之路。阿里 AI 大模型“通义千问”前身系阿里达摩院 M6 项目,阿里达摩院于 2020 年 6 月发布 3 亿参数基础模型,21 年 1 月模型参数规模达百亿,同年 5 月达万亿参数,同年 10月达 10 万亿,成为全球首个 10 万亿参数多模态大模型,并落地应用于天猫虚拟主播等 40 多个细分场景。22年 9 月达摩院发布“通义”大模型系列,打造业界首个 AI 底座,且兼顾大小模型的层次化建构体系。

1 阿里大模型的迭代进阶之路

项目启动阶段:M6 项目于 2020 年启动,同年 6 月推出 3 亿参数的基础模型,2021年 1 月,模型参数规模达百亿,成为世界最大的中文多模态模型。

万亿模型阶段:2021 年 5 月,达摩院发布万亿参数模型 M6 并正式投入使用,追上谷歌发展脚步。M6 在多模态 GreenAI、文到图生成、商业化领域并肩世界一流水平,与英伟达、谷歌相比,M6 仅用 480 卡 V100 32G GPU 就实现了万亿模型,节省算力资源超 80%,训练效率提升近 11 倍。

十万亿模型阶段:2021 年 10 月,M6 进一步升级成为全球首个 10 万亿参数的多模态大模型,并应用于天猫虚拟主播等 40 多个创造相关场景中;在绿色低碳方面,相比 GPT-3,M6 实现了同等参数规模下,能耗仅为 1%。

大模型阶段:2022 年 9 月,达摩院发布“通义”大模型系列,打造业界首个 AI 统一底座,并构建了大小模型协同的层次化人工智能体系,其中,统一底座 M6-OFA 模型在不引入新增结构情况下,可同时处理 10 余项单模态和跨模态任务,通义大模型的出现将为 AI 从感知智能迈向知识驱动的认知智能提供先进基础设施。

63879810-de35-11ed-bfe3-dac502259ad0.png

2 阿里达摩院年度科技趋势:阿里对 AI 大模型高度重视 达摩院每年都会发布对当年的十大科技趋势预测,在最近两年的科技趋势预测中,充分体现阿里对 AI 技术及大模型的重视:

2022 年,达摩院在十大科技趋势中提到多项 AI 相关内容,包括 AI for Science(将AI 应用于高技术领域科学研究)、大小模型协同进化、绿色能源 AI(基于 AI 算力对资源消耗严重的现实,从降本增效角度提出了绿色能源 AI 新概念)等。

2023 年,达摩院在十大科技趋势中,将多模态预训练大模型放在首位,足以显现其对大模型的重视。CLIP 和 BEiT-3 等多模态模型实现技术突破,多模态融合的通用人工智能成为未来发展趋势。多模态预训练的发展将重塑人工智能商业模式。多模态统一建模,目的增强模型的跨模态语义对齐能力,打通各模态之间的关系,促使模型逐步标准化。基于多领域知识,构建统一的、跨场景、多任务的多模态基础模型将成为未来人工智能的重点发展方向。

63a27a40-de35-11ed-bfe3-dac502259ad0.png

通用模型层主要包含通义-M6、通义-AliceMind、通义-视觉三种通用模型。1)通义-M6 是国际首个参数规模达到 10 万亿的全球最大预训练模型。2)通义-AliceMind作为开源深度语言模型体系,形成了从文本 PLUG 到多模态 mPLUG 再到模块化统一模型演化趋势。3)通义-视觉可在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

63c98cfc-de35-11ed-bfe3-dac502259ad0.png

3 统一技术底座-三位一体:M6-OFA 为通义大模型底座,实现架构、模态、任务三方面统一 通义大模型在国内率先构建 AI 统一底座,在业界首次实现模态表示、任务表示、模型结构的统一,统一学习范式 OFA 是通义大模型背后的核心技术支撑。 架构统一:M6-OFA 采用了 Transformer Encoder-Decoder + ResNet Blocks 架构,ResNet Blocks 用于提取图像特征,Transformer Encoder 负责多模态特征的交互,Transformer Decoder 采用自回归方式输出结果。无需增加任何任务特定的模型层,即可实现预训练与微调的相同学习模式。 模态统一:M6-OFA 构建了一个涵盖不同模态的通用词表,以便模型使用该词表表示不同任务的输出结果。其中 BPE 编码的自然语言 token 用于表示文本类任务或图文类任务的数据;图片中连续的横纵坐标编码为离散化 token,用于表示视觉定位、物体检测的数据;图片中的像素点信息编码为离散化 token,用于表示图片生成、图片补全等任务的数据。 任务统一:通过设计不同的 instruction,M6-OFA 将涉及多模态和单模态(即 NLP 和CV)的所有任务都统一建模成序列到序列(seq2seq)任务。M6-OFA 覆盖了 5 项多模态任务,视觉定位、定位字幕、图文匹配、图像字幕和视觉问答;2 项视觉任务,检测和图像填补和 1 项文本任务,即文本填补。

63e085e2-de35-11ed-bfe3-dac502259ad0.png

4 通用模型层-通义视觉大模型 通义-视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。在应用层面,通义-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

640be4f8-de35-11ed-bfe3-dac502259ad0.png

阿里大模型赋能天猫精灵有望承担智能家居生态入口角色。结合真格基金 7 项针对大模型的测试题与答复,阿里大模型天猫精灵压缩版的成绩为 4.5/2.5,表现优于文心一言(1/6)和 GPT3.5(4/3),逊于 GPT4.0(7/0)。可见在简单的逻辑推理和垂直能力领域,阿里大模型压缩版已初步具备与 ChatGPT 与文心一言一较高下的实力。

6427ba52-de35-11ed-bfe3-dac502259ad0.png

644757d6-de35-11ed-bfe3-dac502259ad0.png

通义千问赋能天猫精灵有望成为智能居家生态入口的不二选择。阿里大模型通义千问有望赋能旗下智能音箱天猫精灵打造居家场景智能生态入口,与萤石网络等智能家居厂商优势互补,通过“人机自然交互、信息上传云端,联动控制反馈”的机制,开展智能家居生态共建。

645de73a-de35-11ed-bfe3-dac502259ad0.png

647c9df6-de35-11ed-bfe3-dac502259ad0.png

阿里大模型“通义千问”有望基于其升级版天猫精灵(智能居家入口)、淘宝(智能电商入口)、钉钉(智能办公入口)、高德地图(智能汽车入口)等,协同合作厂商共建阿里系生态,借助多项生态入口打造覆盖“衣食住行工”的全域智能生态场景。目前,发布会已披露三大场景:智能居家:通义千问×智能家居(天猫精灵等),有望成为具备个性化故事生成、个性化歌单推荐、个性化菜谱生成等功能的智能生活助理。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41198

    浏览量

    302633
  • 模型
    +关注

    关注

    1

    文章

    3826

    浏览量

    52276
  • 阿里达摩院
    +关注

    关注

    0

    文章

    35

    浏览量

    3668

原文标题:从M6到“通义千问”,阿里大模型的迭代之路

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    24小时订单破6万!26.98万起,华为王炸配置押注智慧SUVM6

    3月23日,在华为春季全场景新品发布会上,华为终端 BG 首席执行官何刚宣布,搭载896线激光雷达的M6正式上市,M6最大的杀手锏在于其“全系标配激光雷达 + 华为ADS 4.
    的头像 发表于 03-26 11:22 9595次阅读
    24小时订单破<b class='flag-5'>6</b>万!26.98万起,华为王炸配置押注智慧SUV<b class='flag-5'>问</b>界<b class='flag-5'>M6</b>

    天数智芯完成阿里通义Qwen3.5系列多模态模型全量适配

    近日,天数智芯携手众智FlagOS 社区完成阿里通义 Qwen3.5 系列多模态模型全量适配,实现
    的头像 发表于 03-26 09:25 1893次阅读

    M6全系标配896线双光路图像级激光雷达,预售价26.98万元起

    M6全系标配896线双光路图像级激光雷达
    的头像 发表于 03-24 10:47 682次阅读
    <b class='flag-5'>问</b>界<b class='flag-5'>M6</b>全系标配896线双光路图像级激光雷达,预售价26.98万元起

    沐曦股份曦云C系列GPU全面适配通义Qwen3.5三款新模型

    今日,通义团队正式开源发布Qwen3.5系列中等规模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三个版本。沐曦股份旗下曦
    的头像 发表于 02-28 10:05 732次阅读
    沐曦股份曦云C系列GPU全面适配<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen3.5三款新<b class='flag-5'>模型</b>

    沐曦股份曦云C系列GPU深度适配通义Qwen3.5模型

    今天,通义今天正式发布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。沐曦股份曦云C系列GPU 完成对Qwen 3.5
    的头像 发表于 02-26 14:26 802次阅读
    沐曦股份曦云C系列GPU深度适配<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>Qwen3.5<b class='flag-5'>模型</b>

    阿里巴巴发布通义旗舰推理模型Qwen3-Max-Thinking

    今天,我们正式发布旗舰推理模型Qwen3-Max-Thinking,创下数项权威评测全球新纪录。
    的头像 发表于 01-27 15:47 597次阅读
    <b class='flag-5'>阿里</b>巴巴发布<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>旗舰推理<b class='flag-5'>模型</b>Qwen3-Max-Thinking

    比Google更快!阿里率先推出AI购物、点外卖,全面打通阿里生态

    1月15日,在阿里产品迭代发布会上,阿里巴巴集团副总裁、阿里
    的头像 发表于 01-15 14:39 1.2w次阅读
    比Google更快!<b class='flag-5'>阿里</b><b class='flag-5'>千</b><b class='flag-5'>问</b>率先推出AI购物、点外卖,全面打通<b class='flag-5'>阿里</b>生态

    Powered by XuanTie,Qwen Inside:阿里通义模型携手玄铁 RISC-V开启“端侧智能”新纪元

    在 AI 迈向“端边云协同”的新时代,大模型的价值不仅在于云端的超强算力,更在于能否高效、低成本地部署行百业的终端设备中。近日,阿里通义
    的头像 发表于 01-12 11:49 400次阅读
    Powered by XuanTie,Qwen Inside:<b class='flag-5'>阿里</b><b class='flag-5'>通义</b>大<b class='flag-5'>模型</b>携手玄铁 RISC-V开启“端侧智能”新纪元

    APP与通义系列大模型,才是智能汽车的“黄金组合”

    座舱的正确打开方式;单点智能撬动的价值有限,完整的场景化体验是用户的最终选择。 在这种市场趋势下,阿里巴巴APP与通义系列大模型,具备成
    的头像 发表于 12-30 17:25 714次阅读

    阿里通义发布小尺寸模型Qwen3-4B,手机也能跑

    电子发烧友网综合报道 8月7日,阿里通义宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thi
    的头像 发表于 08-12 17:15 7027次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>发布小尺寸<b class='flag-5'>模型</b>Qwen3-4B,手机也能跑

    AI大模型加速上车,联手高通,阿里有哪些策略?

    系列模型衍生数量超Llama,三大方向形成 阿里巴巴的“AI大模型通义
    的头像 发表于 07-03 01:10 9292次阅读
    AI大<b class='flag-5'>模型</b>加速上车,联手高通,<b class='flag-5'>阿里</b>有哪些策略?

    广和通加速通义Qwen3在端侧全面落地

    6月,广和通宣布:率先完成通义Qwen3系列混合推理模型在高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬
    的头像 发表于 06-25 15:35 1360次阅读

    比亚迪座舱接入通义模型,未来将联合打造更多AI智能座舱场景

    高质量壁纸,随时间自动调节光影与色调,打造行业首创的个性化车载体验;基于通义星尘,上线“心理伴聊”等场景,结合智能语音对话系统,为车主提供情感陪伴、心理疗愈,打造“温暖”座舱;在营销服务领域,比亚迪基于阿里云百炼调用通义
    的头像 发表于 06-12 08:52 745次阅读

    Arm CPU适配通义Qwen3系列模型

    近日,阿里巴巴开源了新一代通义模型 Qwen3,Arm 率先成为首批成功适配该模型的计算平台
    的头像 发表于 05-12 16:37 1593次阅读

    壁仞科技完成阿里巴巴通义Qwen3全系列模型支持

    4月29日,阿里巴巴通义发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,壁仞科技完成全
    的头像 发表于 04-30 15:19 1714次阅读