0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从M6到“通义千问”,阿里大模型的迭代之路

智能计算芯世界 来源:智能计算芯世界 2023-04-19 09:51 次阅读

阿里AI大模型“通义千问”于 2023 阿里云峰会重磅发布。基础大模型的核心是能够支撑各行各业,阿里希望能够为客户与合作伙伴提供面向千行百业的专属大模型。 从 M6 项目到“通义千问”的发展之路。阿里 AI 大模型“通义千问”前身系阿里达摩院 M6 项目,阿里达摩院于 2020 年 6 月发布 3 亿参数基础模型,21 年 1 月模型参数规模达百亿,同年 5 月达万亿参数,同年 10月达 10 万亿,成为全球首个 10 万亿参数多模态大模型,并落地应用于天猫虚拟主播等 40 多个细分场景。22年 9 月达摩院发布“通义”大模型系列,打造业界首个 AI 底座,且兼顾大小模型的层次化建构体系。

1 阿里大模型的迭代进阶之路

项目启动阶段:M6 项目于 2020 年启动,同年 6 月推出 3 亿参数的基础模型,2021年 1 月,模型参数规模达百亿,成为世界最大的中文多模态模型。

万亿模型阶段:2021 年 5 月,达摩院发布万亿参数模型 M6 并正式投入使用,追上谷歌发展脚步。M6 在多模态 GreenAI、文到图生成、商业化领域并肩世界一流水平,与英伟达、谷歌相比,M6 仅用 480 卡 V100 32G GPU 就实现了万亿模型,节省算力资源超 80%,训练效率提升近 11 倍。

十万亿模型阶段:2021 年 10 月,M6 进一步升级成为全球首个 10 万亿参数的多模态大模型,并应用于天猫虚拟主播等 40 多个创造相关场景中;在绿色低碳方面,相比 GPT-3,M6 实现了同等参数规模下,能耗仅为 1%。

大模型阶段:2022 年 9 月,达摩院发布“通义”大模型系列,打造业界首个 AI 统一底座,并构建了大小模型协同的层次化人工智能体系,其中,统一底座 M6-OFA 模型在不引入新增结构情况下,可同时处理 10 余项单模态和跨模态任务,通义大模型的出现将为 AI 从感知智能迈向知识驱动的认知智能提供先进基础设施。

63879810-de35-11ed-bfe3-dac502259ad0.png

2 阿里达摩院年度科技趋势:阿里对 AI 大模型高度重视 达摩院每年都会发布对当年的十大科技趋势预测,在最近两年的科技趋势预测中,充分体现阿里对 AI 技术及大模型的重视:

2022 年,达摩院在十大科技趋势中提到多项 AI 相关内容,包括 AI for Science(将AI 应用于高技术领域科学研究)、大小模型协同进化、绿色能源 AI(基于 AI 算力对资源消耗严重的现实,从降本增效角度提出了绿色能源 AI 新概念)等。

2023 年,达摩院在十大科技趋势中,将多模态预训练大模型放在首位,足以显现其对大模型的重视。CLIP 和 BEiT-3 等多模态模型实现技术突破,多模态融合的通用人工智能成为未来发展趋势。多模态预训练的发展将重塑人工智能商业模式。多模态统一建模,目的增强模型的跨模态语义对齐能力,打通各模态之间的关系,促使模型逐步标准化。基于多领域知识,构建统一的、跨场景、多任务的多模态基础模型将成为未来人工智能的重点发展方向。

63a27a40-de35-11ed-bfe3-dac502259ad0.png

通用模型层主要包含通义-M6、通义-AliceMind、通义-视觉三种通用模型。1)通义-M6 是国际首个参数规模达到 10 万亿的全球最大预训练模型。2)通义-AliceMind作为开源深度语言模型体系,形成了从文本 PLUG 到多模态 mPLUG 再到模块化统一模型演化趋势。3)通义-视觉可在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

63c98cfc-de35-11ed-bfe3-dac502259ad0.png

3 统一技术底座-三位一体:M6-OFA 为通义大模型底座,实现架构、模态、任务三方面统一 通义大模型在国内率先构建 AI 统一底座,在业界首次实现模态表示、任务表示、模型结构的统一,统一学习范式 OFA 是通义大模型背后的核心技术支撑。 架构统一:M6-OFA 采用了 Transformer Encoder-Decoder + ResNet Blocks 架构,ResNet Blocks 用于提取图像特征,Transformer Encoder 负责多模态特征的交互,Transformer Decoder 采用自回归方式输出结果。无需增加任何任务特定的模型层,即可实现预训练与微调的相同学习模式。 模态统一:M6-OFA 构建了一个涵盖不同模态的通用词表,以便模型使用该词表表示不同任务的输出结果。其中 BPE 编码的自然语言 token 用于表示文本类任务或图文类任务的数据;图片中连续的横纵坐标编码为离散化 token,用于表示视觉定位、物体检测的数据;图片中的像素点信息编码为离散化 token,用于表示图片生成、图片补全等任务的数据。 任务统一:通过设计不同的 instruction,M6-OFA 将涉及多模态和单模态(即 NLP 和CV)的所有任务都统一建模成序列到序列(seq2seq)任务。M6-OFA 覆盖了 5 项多模态任务,视觉定位、定位字幕、图文匹配、图像字幕和视觉问答;2 项视觉任务,检测和图像填补和 1 项文本任务,即文本填补。

63e085e2-de35-11ed-bfe3-dac502259ad0.png

4 通用模型层-通义视觉大模型 通义-视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。在应用层面,通义-视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

640be4f8-de35-11ed-bfe3-dac502259ad0.png

阿里大模型赋能天猫精灵有望承担智能家居生态入口角色。结合真格基金 7 项针对大模型的测试题与答复,阿里大模型天猫精灵压缩版的成绩为 4.5/2.5,表现优于文心一言(1/6)和 GPT3.5(4/3),逊于 GPT4.0(7/0)。可见在简单的逻辑推理和垂直能力领域,阿里大模型压缩版已初步具备与 ChatGPT 与文心一言一较高下的实力。

6427ba52-de35-11ed-bfe3-dac502259ad0.png

644757d6-de35-11ed-bfe3-dac502259ad0.png

通义千问赋能天猫精灵有望成为智能居家生态入口的不二选择。阿里大模型通义千问有望赋能旗下智能音箱天猫精灵打造居家场景智能生态入口,与萤石网络等智能家居厂商优势互补,通过“人机自然交互、信息上传云端,联动控制反馈”的机制,开展智能家居生态共建。

645de73a-de35-11ed-bfe3-dac502259ad0.png

647c9df6-de35-11ed-bfe3-dac502259ad0.png

阿里大模型“通义千问”有望基于其升级版天猫精灵(智能居家入口)、淘宝(智能电商入口)、钉钉(智能办公入口)、高德地图(智能汽车入口)等,协同合作厂商共建阿里系生态,借助多项生态入口打造覆盖“衣食住行工”的全域智能生态场景。目前,发布会已披露三大场景:智能居家:通义千问×智能家居(天猫精灵等),有望成为具备个性化故事生成、个性化歌单推荐、个性化菜谱生成等功能的智能生活助理。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26471

    浏览量

    264097
  • 模型
    +关注

    关注

    1

    文章

    2707

    浏览量

    47702
  • 阿里达摩院
    +关注

    关注

    0

    文章

    27

    浏览量

    3212

原文标题:从M6到“通义千问”,阿里大模型的迭代之路

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    阿里云携手联发科为手机芯片适配大模型

    联发科,作为全球智能手机芯片市场的佼佼者,最近携手阿里云取得了重大突破。联发科在其旗舰芯片天玑9300上成功部署了通义千问大模型,这是首次在手机芯片端实现大模型的深度适配。这一技术革新
    的头像 发表于 03-29 11:00 260次阅读

    联发科天玑9300等旗舰芯片搭载通义千问大模型,成功实现

    通义千问大模型可在离线环境下轻松应对多轮AI对话。此外,阿里云也承诺与联发科进行深度合作,为全球手机制造商提供端侧大模型解决方案。
    的头像 发表于 03-28 16:35 440次阅读

    联发科旗舰芯片部署阿里云大模型

    全球智能手机芯片出货量领先的半导体公司联发科近日宣布,已成功在天玑9300等旗舰芯片上集成阿里通义千问大模型,实现了大模型在手机芯片端的深度适配,此举尚属业界首次。
    的头像 发表于 03-28 13:59 149次阅读

    通义千问首次落地天玑9300移动平台!阿里云携手MediaTek探索端侧AI智能体

    3月28日,阿里云与知名半导体公司MediaTek联合宣布,通义千问18亿、40亿参数大模型已成功部署进天玑9300移动平台,可离线流畅运行即时且精准的多轮AI对话应用,连续推理功耗增量不到3W
    发表于 03-28 10:51 107次阅读
    <b class='flag-5'>通义</b>千问首次落地天玑9300移动平台!<b class='flag-5'>阿里</b>云携手MediaTek探索端侧AI智能体

    联发科天玑9300搭载通义千问大模型阿里云提供解决方案

    通义千问大模型已开源多项版本,包括18亿、70亿、140亿及720亿参数等版本伴随视觉、音频多模态能力提升。阿里云于去年10月发布的通义千问2.0,其参数规模已接近千亿级。
    的头像 发表于 03-28 09:55 132次阅读

    阿里通义千问重磅升级,免费开放1000万字长文档处理功能

    近日,阿里巴巴旗下的人工智能应用通义千问迎来重磅升级,宣布向所有人免费开放1000万字的长文档处理功能,这一创新举措使得通义千问成为全球文档处理容量第一的AI应用。
    的头像 发表于 03-26 11:09 325次阅读

    阿里模型通义听悟”升级

    阿里旗下的强大模型产品“通义听悟”近日迎来了一系列功能升级,其中包括备受瞩目的音视频问答助手“小悟”的正式上线。这一新功能凭借出色的多语言Query处理能力、长篇章文本理解能力以及指令演化框架优化
    的头像 发表于 03-21 11:30 491次阅读

    阿里模型产品发布多项新功能,音视频问答助手“小悟”上线

    通义听悟基于通义千问大模型,集成10余项人工智能功能,涉及转化、翻译、角色分割、全篇摘要、章节浏览、发言总结以及PPT提取等。同时,通义听悟提供标注重点与随手笔记功能。
    的头像 发表于 03-19 15:51 140次阅读

    阿里通义千问720亿参数模型宣布开源

    12月1日,阿里通义千问720亿参数模型Qwen-72B宣布开源。与此同时,他们还开源了18亿参数模型Qwen-1.8B和音频大模型Qwe
    的头像 发表于 12-01 17:08 858次阅读

    阿里云发布通义千问2.0,性能超GPT-3.5

    在过去的6个月里,通义千问2.0与4月份推出的1.0版本相比,在复杂的命令理解、文学创作、通用数学、知识记忆、幻觉抵抗力等方面有了很大的提高。目前,通义千问的千托综合性能已经超过gpt-3.5,正在快速赶上gpt-4。
    的头像 发表于 11-01 09:57 442次阅读

    阿里通义千问大模型已首批通过备案,正式向公众开放

    据悉,通义千问在技术创新和行业应用上均位居大型模型行业前列。在idc的最新ai大模型评估报告中,通义千问在11个测试中,在共同能力、服务能力、创新能力、服务能力、平台能力、生态合作、电
    的头像 发表于 09-13 11:20 900次阅读

    今日看点丨iPhone 15 Pro首次搭载A17 Pro:全球首款3nm芯片;联发科回应“天玑 9300 芯片过热”:毫无根据

    1. 阿里通义千问大模型已首批通过备案,正式向公众开放   “阿里云”13日消息,今天,阿里云宣布通义
    发表于 09-13 10:59 721次阅读
    今日看点丨iPhone 15 Pro首次搭载A17 Pro:全球首款3nm芯片;联发科回应“天玑 9300 芯片过热”:毫无根据

    阿里通义千问”已完成备案 即将上线

    阿里通义千问”已完成备案 即将上线 就在文心一言开放之后,其他的大模型都在加速,阿里旗下的大模型通义
    发表于 09-02 15:56 304次阅读

    步步向前,曙光已现:百度的大模型之路

    模型之路如何走?文心加飞桨,翩然赴星河
    的头像 发表于 08-21 09:04 831次阅读
    步步向前,曙光已现:百度的大<b class='flag-5'>模型</b><b class='flag-5'>之路</b>

    阿里通义模型发布新进展 “通义听悟”开放公测

    6月1日,“2023阿里云峰会·粤港澳大湾区”在广州举行,峰会上阿里云CTO周靖人登台向业界宣布了阿里的AI新品的新产品“通义听悟”正式上线开放公测。
    的头像 发表于 06-03 01:19 1803次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>通义</b>大<b class='flag-5'>模型</b>发布新进展 “<b class='flag-5'>通义</b>听悟”开放公测