0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代的AI之变与开发之根

脑极体 来源:脑极体 作者:脑极体 2021-09-29 08:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自2018年谷歌发布Bert以来,预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集。随着产学研各界的深入研究,大模型在AI产学研各界的地位得到不断加强。到2021年,我们可以看到各大学术机构、科技企业都在打造自己的大模型,并且将其能力边界、技术路径进行了极大拓展。

有人认为,AI大模型的到来让这项技术完成了从实验室到工业化集成的转变。如果说过去的AI开发需要手工作坊模式的调参、调优、数据积累,那么大模型则预先集成了海量数据的训练效果,企业与科研用户拿到手中就是一个“智力”强大、效果客观的完成品。于是极大程度节省了重复开发成本,降低了开发门槛。

大模型的价值涌现出来,下一个问题随之诞生:打造大模型需要人工智能算力、网络、框架等一系列条件形成有效支撑,才能让大模型真正“大”起来。大模型能够持续发展的前提,是必须打造强壮的AI根技术,在框架、算力等层面满足大模型的“建造”需求。

不久之前,中科院自动化所发布了全球首个三模态大模型——紫东.太初。

而这项技术成果的背后,是中科院自动化所与华为携手,利用全场景AI框架MindSpore对大模型开发进行了一系列支撑。9月25日, 在华为全联接2021上,MindSpore中文名“昇思”发布,同时推出昇思1.5版本。这一版本强化全场景能力、原生支持大模型,并新增AI科学计算新范式,发布电磁仿真套件和分子模拟套件,促进AI应用于科学计算领域。

ec8d5bc6dd014e8fbc2a29c104c8137c~tplv-tt-shrink:640:0.image

我们就借此机会,聊聊大模型如何从昇思1.5中汲取营养;持续打造大模型,需要开发框架带来怎样的根技术支持。

时代的召唤:大模型推动AI之变

预训练大模型发展到今天,已经经历了三年多的时间。期间最具“出圈”效应的大模型,可能就要属2020年OpenAI发布的NLP大模型GPT-3。

GPT-3首次实现了千亿级数据参数,除了传统的NLP能力之外,还可以算术、编程、写小说、写论文摘要,一时之间成为舆论热点。GPT-3的出现,让各界看到了大模型的潜力, 也让中国开发自己的大模型成为了“时代的召唤”。

从产业价值上看,预训练大模型带来了一系列可能性,让产学研各界看到了由弱人工智能走向强人工智能;由重复开发、手工作坊式人工智能,走向工业化、集成化智能的全新路径。可以说,大模型是近两年AI持续变革的核心动力,也是AI走入千行百业、各学科领域的关键支柱。

于是我们可以看到,中国的科技企业、学术科研机构纷纷开始加码大模型,并且在不同路径上进行探索和尝试。比如说,Bert和GPT都是NLP领域的大模型,缺乏对图形图像数据与多模态数据的处理能力。因此,多模态大模型成为了重要的研究方向。集成语音、文本、图像、视频等各个模态信息的处理模式,也更加贴近人类感知,具有更高的社会价值。

对于产学各界来说,数据量大、训练效果好、网络拓扑结构紧凑,同时又容易获取的预训练大模型,都是未来学术研究、AI开发、产业升级的基础和关键。大模型将很有可能改变AI的研究范式,成为不同领域的共性基础平台。

中科院自动化所就瞄准这一方向,成功构建了视觉-文本-语音三模态预训练模型——紫东.太初。而在其背后,华为提供的昇思1.5框架的能力,成为了打造大模型的利剑。

驶向多模态:紫东.太初的独特价值

破混沌,开新局,紫东.太初这个极具魄力与东方文化质感的名字属于全球首个三模态大模型(OPT-Omni-Perception pre Trainer)。它能够实现图文音语义的统一表达,将视觉、文本、语音三种模态统一起来,实现以文搜图,以图生音等跨模特理解与生成能力,这标志着预训练模型工作获得突破性进展。

目前阶段,产学研界最多的大模型就是NLP大模型,其次是CV大模型。而多模态大模型作为新生事物,基本也考虑的是两个模态之间的协同转化。比如图像与文本、视频与文本,并且能力更多是集中在生成或理解中的一项,很少能够兼顾。

紫东.太初为了解决这些问题,提出了视觉-文本-语音三模态预训练模型。通过将视觉、文本、语音不同模态数据各自编码器,映射到统一语义空间,然后通过多头自注意力机制(Multi-head Self-attention)学习模态之间的语义关联以及特征对齐,形成多模态统一知识表示,再利用编码后的多模态特征,最终通过解码器分别生成文本、图像和语音。经过这样的对齐与转化,大模型可以更加关注图-文-音三模态数据之间的关联特性以及跨模态转换问题,对更广泛、更多样的下游任务提供模型基础支撑。最终,多模态大模型不仅可以实现跨模态理解,还能完成跨模态生成,极大程度提升了学习框架的灵活性,有效降低了多模态数据的收集与清洗成本。

由于三模态大模型非常接近人类的信息处理方式,其对信息数据有非常好的协同掌握能力,因此可以非常广泛地应用于产学各领域,孵化出更多新应用。紫东.太初目前已经具备全球领先的图文音跨模态理解与生成能力,可轻松完成智能问答、图片生成、视频理解与等任务,这些能力将在工业质检、影视创作、互联网推荐、智能驾驶等领域广泛应用。

而面向产业上游看,我们会发现紫东.太初的打造,得益于昇腾AI的产业底座。尤其是昇思对大模型的原生支持,让大模型具备了快速开发、精准训练的“开发之根”。

根强则AI强:昇思支持大模型时代到来

在MindSpore 全新升级的1.5版本中,我们不仅见到了全新的中文名——昇思,更重要的是见到了昇思新版本对科学研究、AI基础开发的全新适配能力,展现了昇腾AI产业对新锐产学动向的洞察和满足。

在科研工作中,AI开发经常是一件成本巨大、容错率极低的工作。算力、数据、基础模型和开发套件都会成为科研工作中的AI开发难题。面对这些问题,昇思1.5不仅极大提升了对大模型的适配能力,还强化升级了科学计算引擎,全面加强了对学术界、工业界的AI开发支持。

在大模型支持方面,昇思1.5版本实现了原生支持大模型,能够在业界率先支持全自动并行AI处理。在大模型训练中,可以同时使用数据并行、算子级模型并行、Pipeline 模型并行、优化器模型并行、异构并行、重计算、高效内存复用多维度、全种类的分布式并行策略;并且原创集群拓扑感知的多维度自动混合并行,实现超大模型自动切分,显著提升集群加速能力;新的 DNN分布式并行编程范式,可以实现低代码算法切换,大幅节省开发时间。

面对结构复杂、训练开销巨大、训练时间漫长的多模态大模型,新的昇思特性可以极大提升训练加速能力,同时减少系统性能优化代价,降低代码开发工作力,从而综合性地减少调试与训练周期。

在这样的框架能力升级中,会有更多创新性强、训练数据规模大的预训练大模型在昇思的支撑下发展起来。昇思自然也就名副其实成为了大模型的“根技术”。

目前,基于昇思训练的大模型除了已经发布的全球首个中文预训练大模型鹏程.盘古、全球首个三模型预训练大模型紫东.太初,还有即将发布的智能遥感大模型、语音大模型等等,可以说昇思框架对大模型支持的能力是业界首屈一指的。

6aa0ef0f6c7a40188761646619ef7091~tplv-tt-shrink:640:0.image

与此同时,昇思1.5还新增了对外开放机制等诸多新特性,尤其注重在科研创新和应用领域的支持。通过多尺度混合计算和高阶混合微分两大关键创新,将原有的 AI 计算引擎升级为 AI 与科学计算的统一引擎,实现融合的统一加速。在此基础上,未来昇思将面向 8 大科学计算场景推出 MindScience 系列套件。科学计算套件包含业界领先的数据集、基础模型、预置高精度模型和前后处理工具,可以加速科学行业应用开发。

昇思将持续加强对科研领域AI开发的支持,尤其是为大模型这种“国之重器”的训练底座。同时,昇腾社区和昇思MindSpore社区也会加强对大模型开源开放的支持。目前,昇思社区下载量已经突破60万,社区贡献者超过3500人。昇思正在与产学研各界一同推进开源开放,让大模型真正成为科学之基、产业之本。

预训练大模型正在推动一场AI新变革。而在关注这场变革之前,我们更应该关注根技术、根平台的打造与建设。

坚实的产业基础之上,才能产学各界万花盛放。AI大模型之变,应该有强壮的根。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4817

    浏览量

    98889
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303277
  • 模型
    +关注

    关注

    1

    文章

    3882

    浏览量

    52380
  • 大数据
    +关注

    关注

    64

    文章

    9116

    浏览量

    144210
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    直播预告|玄铁 x Canonical:从本地推理到 AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    AI 算力需求从云端蔓延至终端,RISC-V 如何以一以贯的开放架构,打通从“本地推理”到“AI 工厂”的全场景链路,实现智算时代下的算力破局。 核 心 看 点 硬核算力基座|玄铁
    发表于 05-15 12:15

    AI Ceph 分布式存储教程资料大模型学习资料2026

    。如何构建高性能、高吞吐、高可扩展的 AI 分布式存储系统,已成为解锁大模型基建能力的核心科技命题。这不仅关乎数据存得下、读得快,更直接决定了 GPU 集群的利用率与模型训练的最终效率。 一、 突破 I/O
    发表于 05-01 17:35

    黑马-Java+AI新版V16零基础就业班百度云网盘下载+Java+AI全栈开发工程师

    AI 能力有两条典型路径。初级做法是独立部署 AI 模型服务(Python 推理端),Java 业务层通过 HTTP/RPC 调用获取结果。这种方式开发快、解耦好,但延迟与稳定性受网
    发表于 05-01 11:29

    [完结15章]Java转 AI高薪领域必备-从0到1打通生产级AI Agent开发

    开发者无可替代的底座优势。 二、 拥抱新范式:从同步阻塞到流式与反应式架构 传统的Java Web开发多基于HTTP的同步请求-响应模型,但在与AI
    发表于 04-30 13:46

    AI模型微调企业项目实战课

    自主可控大模型:企业微调实战课,筑牢未来 AI 底座 在人工智能席卷全球商业版图的今天,企业对大模型(LLM)的态度已经从“新奇观望”转变为“全面拥抱”。然而,随着应用层面的不断深入,一个严峻
    发表于 04-16 18:48

    九天菜菜大模型agent智能体开发实战2026一月班

    自主 AI 新范式:大模型 Agent 开发实战火爆开课 在科技浪潮汹涌澎湃的当下,人工智能领域正经历着一场深刻变革,大模型 Agent 开发
    发表于 04-15 16:04

    Token烧了几十亿,代码还是一团乱!AI原生开发该怎么管理?

    你与大模型聊天干活的记录,或许可用于做一次新的“MBTI”性格测试。当驾驭工程的不少事儿都能交给 AI 工具去做,我们只需要“观测”与“控制”,迎接“人人都是技术管理者”的时代。以前,写代码的都是
    发表于 04-14 19:50

    模型 ai coding 比较

    序 我主要用途是 ai coding,从各种渠道获取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    发表于 02-19 13:43

    AI端侧部署开发(SC171开发套件V2-FAS)

    AI端侧部署开发(SC171开发套件V2-FAS) 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 Fibo AI Stack
    发表于 02-11 11:44

    AI端侧部署开发(SC171开发套件V3)2026版

    AI端侧部署开发(SC171开发套件V3)2026版 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 Fibo AI Stack
    发表于 01-15 10:31

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    Cognizant加速AI模型企业级开发

    -Cognizant推出AI Training Data Services,助力企业级AI模型加速开发 Cognizant是数据与AI
    的头像 发表于 07-31 17:25 875次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI模型。其核心优势在于强大的推理引擎能力,融合了自然语言处理(
    发表于 07-16 15:29

    鸿微发布鸿元AI模型智能体2.0

    近日,“通信黄埔 数字台州”产业交流大会在浙江省台州市黄岩区隆重举行。鸿微董事长曹荣博士携鸿元AI模型智能体 2.0重磅亮相,并作《AI
    的头像 发表于 07-10 17:29 1659次阅读