电子发烧友网报道(文/李弯弯)大模型,又称为预训练模型、基础模型等,大模型通常是在大规模无标注数据上进行训练,学习出一种特征和规则。近期火爆的ChatGPT,便是基于GPT大模型的一个自然语言处理工具。
从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看,AI大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。
AI大模型的发展历程
AI大模型的发展,还要从2017年Vaswani等提出Transformer架构说起,Transformer架构的提出奠定了当前大模型领域主流的算法架构基础。
2018年,谷歌提出了大规模预训练语言模型BERT,该模型是基于Transformer的双向深层预训练模型,其参数首次超过3亿规模;同年,OpenAI提出了生成式预训练Transformer模型GPT,大大地推动了自然语言处理领域的发展。此后,基于BERT的改进模型、ELNet、RoBERTa、T5等大量新式预训练语言模型不断涌现,预训练技术在自然语言处理领域蓬勃发展。
2019年,OpenAI继续推出15亿参数的GPT-2,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。紧接着,英伟达推出了83亿参数的Megatron-LM,谷歌推出了110亿参数的T5,微软推出了170亿参数的图灵Turing-NLG。
2020年,OpenAI推出了超大规模语言训练模型GPT-3,参数达到1750亿,在两年左右的时间实现了模型规模从亿级到上千亿级的突破,并能够实现作诗、聊天、生成代码等功能。此后,微软和英伟达在2020年10月联手发布了5300亿参数的MegatronTuring自然语言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高达1.6万亿的参数量成为史上首个万亿级语言模型;到2022年一大批大模型涌现,比如Stability AI发布的文字到图像的创新模型Diffusion,以及OpenAI推出的ChatGPT。
在国内,大模型研究发展迅速。2021年,商汤发布了书生(INTERN)大模型,拥有100亿的参数量;2021年4月,华为云联合循环智能发布盘古NLP超大规模预训练语言模型,参数规模达1000亿,联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿。
同年4月,阿里达摩院发布270亿参数的中文预训练语言模型PLUG,联合清华大学发布参数规模达到 1000亿的中文多模态预训练模型M6;7月,百度推出ERNIE 3.0知识增强大模型,参数规模达到百亿;10月,浪潮信息发布约2500亿的超大规模预训练模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,参数规模达2600亿。
2022 年,基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”八卦炉(BAGUALU)完成建立,其模型参数规模突破了174万亿个。可以看到,目前大模型参数规模最高已经达到百万亿级别。
大模型研究的重要意义
当前人工智能正处在可以用到好用的落地阶段,但目前仍处于商业落地早期,主要面临着场景需求碎片化、人力研发和应用计算成本高、长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景效果差距大等行业痛点。
大模型具备大规模和预训练的特点,一方面有良好的通用性、泛化性,能够解决传统AI应用中门槛高、部署难的问题,另一方面可以作为技术底座,支撑智能化产品及应用落地。
过去很多年,虽然各大科技公司不断推出较大规模的模型,然而直到去年生成式AI逐渐走向商业化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎来发展的转折点。美国国家工程院外籍院士、北京智源人工智能研究院理事张宏江此前表示,ChatGPT和AIGC,技术爆火背后,代表着人工智能(AI)大模型进入一个新的技术范式,也是第三波AI浪潮经过十几年发展之后一个非常重要的拐点。
张宏江认为,它其实代表着从以前各自研发专用小模型到研发超大规模通用智能模型的一个范式转变。这个转变的重要意义在于:通过这种比较先进的算法架构,尽可能多的数据,汇集大量算力,集约化的训练达模式,从而供大量用户使用。
大模型的发展很可能会改变信息产业的格局,改变以前作坊式AI开发模式,把AI应用带入基于互联网、云计算的大规模智能云阶段。
小结
虽然过去十几年人工智能技术发展迅速,然而在近几年却遇到了一些技术瓶颈和商业化难题。而大模型的发展和普及,尤其是通过大模型+微调的新技术开发范式,人工智能将能够更好的在各种场景中实现应用,当然大模型的训练和推理对算力等也提出了很高的要求,因此大模型的研究最终能够如何推进人工智能产业的发展,还需要产业链各环节的共同努力。
从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看,AI大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。
AI大模型的发展历程
AI大模型的发展,还要从2017年Vaswani等提出Transformer架构说起,Transformer架构的提出奠定了当前大模型领域主流的算法架构基础。
2018年,谷歌提出了大规模预训练语言模型BERT,该模型是基于Transformer的双向深层预训练模型,其参数首次超过3亿规模;同年,OpenAI提出了生成式预训练Transformer模型GPT,大大地推动了自然语言处理领域的发展。此后,基于BERT的改进模型、ELNet、RoBERTa、T5等大量新式预训练语言模型不断涌现,预训练技术在自然语言处理领域蓬勃发展。
2019年,OpenAI继续推出15亿参数的GPT-2,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。紧接着,英伟达推出了83亿参数的Megatron-LM,谷歌推出了110亿参数的T5,微软推出了170亿参数的图灵Turing-NLG。
2020年,OpenAI推出了超大规模语言训练模型GPT-3,参数达到1750亿,在两年左右的时间实现了模型规模从亿级到上千亿级的突破,并能够实现作诗、聊天、生成代码等功能。此后,微软和英伟达在2020年10月联手发布了5300亿参数的MegatronTuring自然语言生成模型(MT-NLG)。
2021年1月,谷歌推出的Switch Transformer模型以高达1.6万亿的参数量成为史上首个万亿级语言模型;到2022年一大批大模型涌现,比如Stability AI发布的文字到图像的创新模型Diffusion,以及OpenAI推出的ChatGPT。
在国内,大模型研究发展迅速。2021年,商汤发布了书生(INTERN)大模型,拥有100亿的参数量;2021年4月,华为云联合循环智能发布盘古NLP超大规模预训练语言模型,参数规模达1000亿,联合北京大学发布盘古α超大规模预训练模型,参数规模达2000亿。
同年4月,阿里达摩院发布270亿参数的中文预训练语言模型PLUG,联合清华大学发布参数规模达到 1000亿的中文多模态预训练模型M6;7月,百度推出ERNIE 3.0知识增强大模型,参数规模达到百亿;10月,浪潮信息发布约2500亿的超大规模预训练模型“源 1.0”;12月,百度推出ERNIE 3.0 Titan模型,参数规模达2600亿。
2022 年,基于清华大学、阿里达摩院等研究成果以及超算基础实现的“脑级人工智能模型”八卦炉(BAGUALU)完成建立,其模型参数规模突破了174万亿个。可以看到,目前大模型参数规模最高已经达到百万亿级别。
大模型研究的重要意义
当前人工智能正处在可以用到好用的落地阶段,但目前仍处于商业落地早期,主要面临着场景需求碎片化、人力研发和应用计算成本高、长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景效果差距大等行业痛点。
大模型具备大规模和预训练的特点,一方面有良好的通用性、泛化性,能够解决传统AI应用中门槛高、部署难的问题,另一方面可以作为技术底座,支撑智能化产品及应用落地。
过去很多年,虽然各大科技公司不断推出较大规模的模型,然而直到去年生成式AI逐渐走向商业化,以及去年底今年初OpenAI推出的ChatGPT爆火,AI大模型才真正迎来发展的转折点。美国国家工程院外籍院士、北京智源人工智能研究院理事张宏江此前表示,ChatGPT和AIGC,技术爆火背后,代表着人工智能(AI)大模型进入一个新的技术范式,也是第三波AI浪潮经过十几年发展之后一个非常重要的拐点。
张宏江认为,它其实代表着从以前各自研发专用小模型到研发超大规模通用智能模型的一个范式转变。这个转变的重要意义在于:通过这种比较先进的算法架构,尽可能多的数据,汇集大量算力,集约化的训练达模式,从而供大量用户使用。
大模型的发展很可能会改变信息产业的格局,改变以前作坊式AI开发模式,把AI应用带入基于互联网、云计算的大规模智能云阶段。
小结
虽然过去十几年人工智能技术发展迅速,然而在近几年却遇到了一些技术瓶颈和商业化难题。而大模型的发展和普及,尤其是通过大模型+微调的新技术开发范式,人工智能将能够更好的在各种场景中实现应用,当然大模型的训练和推理对算力等也提出了很高的要求,因此大模型的研究最终能够如何推进人工智能产业的发展,还需要产业链各环节的共同努力。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI
+关注
关注
89文章
38073浏览量
296299 -
ChatGPT
+关注
关注
30文章
1596浏览量
10064
发布评论请先 登录
相关推荐
热点推荐
xMEMS完成2100万美元D轮融资,加速突破性piezoMEMS技术在AI消费设备中的商业化进程
、CDIB-TEN Capital、Harbinger Venture Capital、SIG Asia Investments(海纳国际集团SIG的附属公司)及其他战略投资者跟投。 新资金将用于加速xMEMS基于piezoMEMS的扬声器和微型散热芯片的量产与全球商业化
企创科技与天罡智算合作再升级,独家运营模型市场赋能AI应用高效商业化
重要升级。在既有品牌战略合作基础上,企创科技正式成为天罡智算平台"AI模型市场"的独家运营商,此标志着双方合作从品牌层面深化至业务运营核心,共同为人工智能企业打造从市场推广到商业转化的完整闭环服务。 一、强强联合,构建
从续航焦虑到安全飞行:增程式技术如何推动eVTOL商业化落地
在低空经济加速发展的背景下,电动垂直起降飞行器(eVTOL)的商业化进程面临核心挑战——续航能力和动力可靠性。纯电推进系统受限于当前电池能量密度,难以满足中远程飞行需求,而增程式发电系统
比肩HBM,SOCAMM内存模组即将商业化
参数规模达数百亿甚至万亿级别,带来巨大内存需求,但HBM内存价格高昂,只应用在高端算力卡上。SOCAMM则有望应用于AI服务器、高性能计算、
经纬恒润和白犀牛达成战略合作,加速自动驾驶商业化进程
近日,经纬恒润与全球领先的L4级别自动驾驶公司白犀牛达成战略合作。双方将围绕车规级智能硬件研发、高可靠性无人车产品开发展开深度合作,共同推动末端物流无人车的规模化商业落地。此次合作,双方将充分发挥
首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手
基石。
Neuron Studio打造全流程一站式开发体验,为AI应用开发按下加速键
AI 应用的开发瓶颈,从来都不是“点的问题”,而是“链的问题”:开发工具碎片化,调优过程靠手动,单
发表于 04-13 19:52
PCIe 7.0最终版草案发布,传输速率128 GT/s,PCIe 6.0加速商业化
PCIe 7.0最终版草案发布,传输速率128 GT/s,PCIe 6.0加速商业化 电子发烧友网综合报道,近日,PCI-SIG 组织公布了 PCI Express 7.0 规范的0.9 版草案
发表于 03-29 00:07
•1044次阅读
FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......
突破40%;数据中心加速卡市场复合增长率达34%......
2. 万亿级市场的四大赛道1) 智能驾驶新基建:单辆L4自动驾驶车搭载12-16片FPGA;动态可重构技术实现毫秒级算法切换
发表于 03-03 11:21
Gupshup加速企业AI应用进程
Gupshup-Gupshup推出预构建、行业训练有素的多模态AI代理,加速企业AI应用进程 印度尼西亚雅加达2025年2月14日 /美通社/ -- 全球领先的对话式
DeepSeek大模型受行业热捧,加速AI应用迭代
趋势反映出DeepSeek大模型在AI领域的强大影响力。通过接入DeepSeek,这些机构能够获取更先进的AI技术支持,从而提升其产品的智能化水平和竞争力。 机构表示,随着
DeepSeek大模型携手广和通,加速AI普惠化进程
近期,国产大模型DeepSeek凭借其开放性、低训练成本以及端侧部署的显著优势,迅速崭露头角,成为增速最为迅猛的AI应用之一。这一突破性进展,为AI技术的普惠化应用开辟了新路径。 值得
谷歌表示计划在五年内推出商业化量子计算应用程序
谷歌量子计算负责人近日接受路透社采访时称谷歌计划在五年内推出商业化的量子计算应用程序,这一表态挑战了英伟达对于量子计算商业化进程的预判。 谷歌量子人工智能部门创始人兼负责人哈特穆特・内
汽车制造商抢滩人形机器人领域,技术协同与商业化探索
近年来,随着人工智能技术的飞速发展,特别是大型语言模型的广泛应用,人形机器人迎来了前所未有的发展机遇。这一趋势不仅为机器人的自然语言交互和自动化决策能力带来了显著提升,更为其商业化应用铺平了道路。在此背景下,国内汽车制造商纷纷涉
政策与技术并行,共推Robotaxi商业化进程?
高级别自动驾驶的发展离不开政策与技术的双重驱动。政府对“车路云一体化”建设的支持推动了基础设施的完善,同时高级别自动驾驶的监管体系逐步完善,为自动驾驶商业化
NVIDIA推出加速物理AI开发的Cosmos世界基础模型
经数百万小时的驾驶和机器人视频数据训练的先进模型,可用于普及物理 AI 开发,并以开放模型许可形式提供。

大模型参数达百万亿级别,AI商业化进程加速!
评论