0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从M6到“通义千问”,阿里大模型的迭代之路

智能计算芯世界 来源:智能计算芯世界 2023-04-19 09:51 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阿里AI大模型“通义千问”于 2023 阿里云峰会重磅发布。基础大模型的核心是能够支撑各行各业,阿里希望能够为客户与合作伙伴提供面向千行百业的专属大模型。 从 M6 项目到“通义千问”的发展之路。阿里 AI 大模型“通义千问”前身系阿里达摩院 M6 项目,阿里达摩院于 2020 年 6 月发布 3 亿参数基础模型,21 年 1 月模型参数规模达百亿,同年 5 月达万亿参数,同年 10月达 10 万亿,成为全球首个 10 万亿参数多模态大模型,并落地应用于天猫虚拟主播等 40 多个细分场景。22年 9 月达摩院发布“通义”大模型系列,打造业界首个 AI 底座,且兼顾大小模型的层次化建构体系。

1 阿里大模型的迭代进阶之路

项目启动阶段:M6 项目于 2020 年启动,同年 6 月推出 3 亿参数的基础模型,2021年 1 月,模型参数规模达百亿,成为世界最大的中文多模态模型。

万亿模型阶段:2021 年 5 月,达摩院发布万亿参数模型 M6 并正式投入使用,追上谷歌发展脚步。M6 在多模态 GreenAI、文到图生成、商业化领域并肩世界一流水平,与英伟达、谷歌相比,M6 仅用 480 卡 V100 32G GPU 就实现了万亿模型,节省算力资源超 80%,训练效率提升近 11 倍。

十万亿模型阶段:2021 年 10 月,M6 进一步升级成为全球首个 10 万亿参数的多模态大模型,并应用于天猫虚拟主播等 40 多个创造相关场景中;在绿色低碳方面,相比 GPT-3,M6 实现了同等参数规模下,能耗仅为 1%。

大模型阶段:2022 年 9 月,达摩院发布“通义”大模型系列,打造业界首个 AI 统一底座,并构建了大小模型协同的层次化人工智能体系,其中,统一底座 M6-OFA 模型在不引入新增结构情况下,可同时处理 10 余项单模态和跨模态任务,通义大模型的出现将为 AI 从感知智能迈向知识驱动的认知智能提供先进基础设施。

63879810-de35-11ed-bfe3-dac502259ad0.png

2 阿里达摩院年度科技趋势:阿里对 AI 大模型高度重视 达摩院每年都会发布对当年的十大科技趋势预测,在最近两年的科技趋势预测中,充分体现阿里对 AI 技术及大模型的重视:

2022 年,达摩院在十大科技趋势中提到多项 AI 相关内容,包括 AI for Science(将AI 应用于高技术领域科学研究)、大小模型协同进化、绿色能源 AI(基于 AI 算力对资源消耗严重的现实,从降本增效角度提出了绿色能源 AI 新概念)等。

2023 年,达摩院在十大科技趋势中,将多模态预训练大模型放在首位,足以显现其对大模型的重视。CLIP 和 BEiT-3 等多模态模型实现技术突破,多模态融合的通用人工智能成为未来发展趋势。多模态预训练的发展将重塑人工智能商业模式。多模态统一建模,目的增强模型的跨模态语义对齐能力,打通各模态之间的关系,促使模型逐步标准化。基于多领域知识,构建统一的、跨场景、多任务的多模态基础模型将成为未来人工智能的重点发展方向。

63a27a40-de35-11ed-bfe3-dac502259ad0.png

通用模型层主要包含通义-M6、通义-AliceMind、通义-视觉三种通用模型。1)通义-M6 是国际首个参数规模达到 10 万亿的全球最大预训练模型。2)通义-AliceMind作为开源深度语言模型体系,形成了从文本 PLUG 到多模态 mPLUG 再到模块化统一模型演化趋势。3)通义-视觉可在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

63c98cfc-de35-11ed-bfe3-dac502259ad0.png

3 统一技术底座-三位一体:M6-OFA 为通义大模型底座,实现架构、模态、任务三方面统一 通义大模型在国内率先构建 AI 统一底座,在业界首次实现模态表示、任务表示、模型结构的统一,统一学习范式 OFA 是通义大模型背后的核心技术支撑。 架构统一:M6-OFA 采用了 Transformer Encoder-Decoder + ResNet Blocks 架构,ResNet Blocks 用于提取图像特征,Transformer Encoder 负责多模态特征的交互,Transformer Decoder 采用自回归方式输出结果。无需增加任何任务特定的模型层,即可实现预训练与微调的相同学习模式。 模态统一:M6-OFA 构建了一个涵盖不同模态的通用词表,以便模型使用该词表表示不同任务的输出结果。其中 BPE 编码的自然语言 token 用于表示文本类任务或图文类任务的数据;图片中连续的横纵坐标编码为离散化 token,用于表示视觉定位、物体检测的数据;图片中的像素点信息编码为离散化 token,用于表示图片生成、图片补全等任务的数据。 任务统一:通过设计不同的 instruction,M6-OFA 将涉及多模态和单模态(即 NLP 和CV)的所有任务都统一建模成序列到序列(seq2seq)任务。M6-OFA 覆盖了 5 项多模态任务,视觉定位、定位字幕、图文匹配、图像字幕和视觉问答;2 项视觉任务,检测和图像填补和 1 项文本任务,即文本填补。

63e085e2-de35-11ed-bfe3-dac502259ad0.png

4 通用模型层-通义视觉大模型 通义-视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。在应用层面,通义-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

640be4f8-de35-11ed-bfe3-dac502259ad0.png

阿里大模型赋能天猫精灵有望承担智能家居生态入口角色。结合真格基金 7 项针对大模型的测试题与答复,阿里大模型天猫精灵压缩版的成绩为 4.5/2.5,表现优于文心一言(1/6)和 GPT3.5(4/3),逊于 GPT4.0(7/0)。可见在简单的逻辑推理和垂直能力领域,阿里大模型压缩版已初步具备与 ChatGPT 与文心一言一较高下的实力。

6427ba52-de35-11ed-bfe3-dac502259ad0.png

644757d6-de35-11ed-bfe3-dac502259ad0.png

通义千问赋能天猫精灵有望成为智能居家生态入口的不二选择。阿里大模型通义千问有望赋能旗下智能音箱天猫精灵打造居家场景智能生态入口,与萤石网络等智能家居厂商优势互补,通过“人机自然交互、信息上传云端,联动控制反馈”的机制,开展智能家居生态共建。

645de73a-de35-11ed-bfe3-dac502259ad0.png

647c9df6-de35-11ed-bfe3-dac502259ad0.png

阿里大模型“通义千问”有望基于其升级版天猫精灵(智能居家入口)、淘宝(智能电商入口)、钉钉(智能办公入口)、高德地图(智能汽车入口)等,协同合作厂商共建阿里系生态,借助多项生态入口打造覆盖“衣食住行工”的全域智能生态场景。目前,发布会已披露三大场景:智能居家:通义千问×智能家居(天猫精灵等),有望成为具备个性化故事生成、个性化歌单推荐、个性化菜谱生成等功能的智能生活助理。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38161

    浏览量

    296833
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • 阿里达摩院
    +关注

    关注

    0

    文章

    32

    浏览量

    3566

原文标题:从M6到“通义千问”,阿里大模型的迭代之路

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里通义发布小尺寸模型Qwen3-4B,手机也能跑

    电子发烧友网综合报道 8月7日,阿里通义宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thi
    的头像 发表于 08-12 17:15 6310次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>发布小尺寸<b class='flag-5'>模型</b>Qwen3-4B,手机也能跑

    AI大模型加速上车,联手高通,阿里有哪些策略?

    系列模型衍生数量超Llama,三大方向形成 阿里巴巴的“AI大模型通义
    的头像 发表于 07-03 01:10 8822次阅读
    AI大<b class='flag-5'>模型</b>加速上车,联手高通,<b class='flag-5'>阿里</b>有哪些策略?

    广和通加速通义Qwen3在端侧全面落地

    6月,广和通宣布:率先完成通义Qwen3系列混合推理模型在高通QCS8550平台端侧的适配部署。广和通通过定制化混合精度量化方案与创新硬
    的头像 发表于 06-25 15:35 781次阅读

    比亚迪座舱接入通义模型,未来将联合打造更多AI智能座舱场景

    高质量壁纸,随时间自动调节光影与色调,打造行业首创的个性化车载体验;基于通义星尘,上线“心理伴聊”等场景,结合智能语音对话系统,为车主提供情感陪伴、心理疗愈,打造“温暖”座舱;在营销服务领域,比亚迪基于阿里云百炼调用通义
    的头像 发表于 06-12 08:52 500次阅读

    Arm CPU适配通义Qwen3系列模型

    近日,阿里巴巴开源了新一代通义模型 Qwen3,Arm 率先成为首批成功适配该模型的计算平台
    的头像 发表于 05-12 16:37 1106次阅读

    壁仞科技完成阿里巴巴通义Qwen3全系列模型支持

    4月29日,阿里巴巴通义发布并开源8款新版Qwen3系列“混合推理模型”(简称“Qwen3”)。Qwen3发布后数小时内,壁仞科技完成全
    的头像 发表于 04-30 15:19 1357次阅读

    低至¥2.27/h!就能使用全球最强开元模型—— QwQ-32B

    ABSTRACT摘要捷智算平台上新全球最强开元模型——QwQ-32B。JAEALOT2025年3月18日3月17日,阿里通义
    的头像 发表于 03-19 12:34 883次阅读
    低至¥2.27/h!就能使用全球最强开元<b class='flag-5'>模型</b>——<b class='flag-5'>千</b><b class='flag-5'>问</b> QwQ-32B

    阿里最新消息:国家超算互联网平台、广州算力中心、多所高校接入通义模型

      国家超算互联网平台 接入阿里通义模型   3月10日,国家超算互联网平台接入阿里巴巴
    的头像 发表于 03-14 11:54 1138次阅读

    Manus与阿里通义达成合作

    据媒体报道,火爆异常的AI Agent新秀Manus和阿里云旗下大语言模型通义达成合作。双方将基于
    的头像 发表于 03-12 15:47 1224次阅读

    摩尔线程支持阿里通义QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义QwQ-32B。摩尔线程在该模型发布后2小时内,
    的头像 发表于 03-07 17:48 1124次阅读
    摩尔线程支持<b class='flag-5'>阿里</b>云<b class='flag-5'>通义</b><b class='flag-5'>千</b><b class='flag-5'>问</b>QwQ-32B开源<b class='flag-5'>模型</b>

    广和通基于阿里通义模型推出随身智能解决方案,赋能消费电子终端行业

    2月,广和通与全球领先的云解决方案提供商阿里云达成合作:广和通AI模组及解决方案,基于阿里通义
    的头像 发表于 03-03 17:55 1051次阅读
    广和通基于<b class='flag-5'>阿里</b>云<b class='flag-5'>通义</b>大<b class='flag-5'>模型</b>推出随身智能解决方案,赋能消费电子终端行业

    广和通携手阿里云推出随身智能解决方案

    2月,广和通与全球领先的云解决方案提供商阿里云达成合作:广和通AI模组及解决方案,基于阿里通义
    的头像 发表于 02-25 16:04 879次阅读

    阿里通义Qwen2.5-Max模型全新升级

    近期,阿里通义团队为用户带来了一个振奋人心的好消息:其旗舰版模型Qwen2.5-Max迎来了全新升级发布。 Qwen2.5-Max模型阿里
    的头像 发表于 02-05 14:07 1179次阅读

    阿里通义开源长文本新模型Qwen2.5-1M

    近日,阿里通义宣布了一项重大开源举措,推出了支持100万Tokens上下文的Qwen2.5-1M模型。这一新模型在处理长文本任务中展现出了
    的头像 发表于 02-05 14:01 787次阅读

    通义”应用团队阿里云分拆并入智能信息事业群

    近日,据多个独立消息源透露,阿里巴巴旗下的AI应用“通义”已经正式阿里云体系中分拆出来,并并入阿里智能信息事业群。这一调整意味着“
    的头像 发表于 12-20 14:10 985次阅读