0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

度晓晓1秒1篇高考作文,都是因为预训练大模型

Carol Li 来源:电子发烧友网 作者:李弯弯 2022-06-10 00:02 次阅读

电子发烧友网报道(文/李弯弯)6月7日,百度推出的数字人度晓晓作答了全国新高考Ⅰ卷题为《本手、妙手、俗手》议论文,40秒就根据题目创作了40多篇文章,平均1秒生成1篇,随机抽取其中一篇,其分数赶超约75%高考考生。


而这得益于文心大模型最新发布的融合任务相关知识的千亿大模型ERNIE 3.0 Zeus,该模型在学习海量数据和知识的基础上,进一步学习百余种不同形式的任务知识,增强了模型的效果,在各类NLP任务上表现出了更强的零样本和小样本学习能力。

基于文心大模型的智能创作

大模型是人工智能大基础设施的重要组成,“文心大模型”是百度近几年在花大力气投入研发的技术基础设施。自2019年开始,百度深耕预训练模型研发,并在该年3月率先发布中国首个正式开放的预训练模型ERNIE1.0。

去年12月,百度联合鹏城实验室发布了鹏城-百度·文心大模型,这是全球首个知识增强千亿大模型,也目前全球最大中文单体模型,参数规模达到2600亿。

在今年5月20日的WAVE SUMMIT 2022深度学习开发者峰会上,文心大模型一次性发布10个新的大模型,涵盖基础大模型、任务大模型和行业大模型三级体系,其中就包括融合任务相关知识的千亿NLP大模型ERNIE 3.0 Zeus。

千亿规模参数的NLP基础大模型ERNIE 3.0 Zeus在学习海量数据和知识的基础上,进一步学习百余种不同形式的任务知识,增强模型效果;融合层次化提示的预训练,更好地建模不同任务的共性与特性;将不同任务组织成统一的自然语言形式,统一建模增强模型的泛化能力,其相较于其他NLP大模型,在各类NLP任务上表现出了更强的零样本和小样本学习能力。

近年来,百度AI技术加速落地,新兴的AIGC更是引人注目。AIGC是继 UGC、PGC之后新型利用AI技术自动生成内容的生产方式。百度研究院预测,2022年AIGC技术将借助大模型的跨模态综合技术能力,可以激发创意,提升内容多样性,降低制作成本,实现大规模应用。

本次度晓晓写高考作文,就是基于飞桨文心大模型实现的AIGC创作,文心大模型具备“知识增强”的核心特点,能从大规模知识和海量数据中进行融合学习,学习效率更高、效果更好,具有通用性好、泛化性强的特点。

除了智能写作,在文心大模型的支持下,AI已经具备很强的理解和生成能力,能够实现创意作品的自动生成,包括AI作画、AI写歌、AI剪辑等,未来,基于大模型的AIGC将会开放赋能到更多的内容生产领域。除了在智能创作上外,文心大模型也已经在工业、能源、教育、金融、通信、媒体等诸多行业得到应用。

预训练大模型使AI通用性增强

大模型是AI领域最重要的前沿技术方向,自2018年OpenAI推出1.1亿参数的GPT以后,谷歌、微软、Facebook等相继推出自己的预训练模型,2020年OpenAI再次推出1750亿参数的GPT-3,更是引发科研机构和企业在大模型研究的竞赛,大模型的参数规模逐渐增加。

2021年大模型层出不穷,1月,谷歌发布首个万亿级模型Switch Transformer;3月,北京智源研究院发布悟道1.0,6月发布悟道2.0,参数规模超过百亿;4月,华为云发布盘古大模型,这是业界首个千亿参数中文语言预训练模型;9月,浪潮发布参数量达2457亿的巨量模型“源1.0”;11月,英伟达与微软联合发布5300亿参数的“MT-NLG”;同在11月,阿里达摩院宣布其多模态大模型M6最新参数从万亿跃迁至10万亿,超过谷歌、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。

预训练大模型其实是机器学习的一种方式,类比人的学习来看,人的学习可以分成通识教育和专业教育两段,预训练大模型相当于解决机器学习的通识教育。此前,机器学习主要通过标注数据,告诉算法哪个数据是正负样本等进行学习。由于人工智能落地场景很多,每个场景都要采数据、标数据,因此在标注的数量和质量上存在很大的瓶颈。

为解决以上问题,自然语言处理领域迎来了一个新的突破:自监督学习,指的是不用人为标注数据,机器可以用一个方法把知识和规律学出来。比如,在模型训练中,如果我们把“中国的首都是北京”这句话中的“北京”盖住,让模型去猜中国的首都是哪里,模型可能会猜一个城市,再把盖的地方翻开,告诉模型是对了还是错了,模型也就得到了反馈。

通过设计类似的学习方式,让模型可以在海量的数据当中进行自监督学习。这个机制的好处就是,它可以把天然存在的大量数据利用起来,打破一定要精标数据才能学习的瓶颈,大模型的出现,实际上是为了大幅度降低了行业应用的门槛。

还有一个特别容易理解的解释,预训练大模型是在一个原始任务上预先训练一个初始模型,然后在目标任务上使用该模型,针对目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的目的。在本质上,这是一种迁移学习的方法,在自己的目标任务上使用别人训练好的模型。

整体而言,预训练大模型的兴起,使得人工智能的通用性进一步增强,大模型具有效果好、泛化性强、研发流程标准化程度高等特点,正在成为人工智能技术及应用的新基座。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能
    +关注

    关注

    8

    文章

    1675

    浏览量

    116907
  • 百度
    +关注

    关注

    9

    文章

    2144

    浏览量

    88855
  • 人工智能
    +关注

    关注

    1773

    文章

    43356

    浏览量

    230126
收藏 人收藏

    评论

    相关推荐

    AI撰写高考作文,好比让数学家制作预制菜

    的并非是某位具体的人,而是各家的AI大模型。   由于高考作文本身具备一定的套路和模板,对于各家的AI语言大模型来说,这是一个能够更好的展示自身的实力,也是各家AI技术的重要亮相机会。   AI :一个没有感情的答题机器  
    的头像 发表于 06-09 00:15 1259次阅读

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    TOP1的桂冠,可想大家对本书的认可和支持! 这本书为什么如此受欢迎?它究竟讲了什么?下面就给大家详细~~ 本书主要内容 本书围绕大语言模型构建的四个主要阶段——训练、有监督微调、
    发表于 03-11 15:16

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 198次阅读

    如何优化深度学习模型?

    因为大部分人使用的模型都是训练模型,使用的权重都是在大型数据集上
    发表于 01-29 14:25 127次阅读
    如何优化深度学习<b class='flag-5'>模型</b>?

    锡膏不上锡是因为活性不足吗?

    众所周知,有时候锡膏不上锡是因为活性不足,还有人会说活性越多越好。有时候锡膏不挂锡是因为活性不足吗。这样的话,你会觉得锡膏的活性越高越好吗?下一步由深圳锡膏厂家为大家分析一下:大家都知道锡膏中有许多
    的头像 发表于 01-04 15:46 197次阅读
    锡膏不上锡<b class='flag-5'>是因为</b>活性不足吗?

    stlink无法识别是因为什么?

    stlink无法识别是因为什么
    发表于 10-31 06:40

    【KV260视觉入门套件试用体验】Vitis AI 通过迁移学习训练自定义模型

    :这种方法是在训练模型的基础上,修改最后一层或几层,并且对整个网络进行微调训练。这种方法适用于新数据集和原数据集相似较高,且新数据集规模
    发表于 10-16 15:03

    关于领域大模型-训练Trick&amp;落地的一点思考

    现有大模型在预训练过程中都会加入书籍、论文等数据,那么在领域预训练时这两种数据其实也是必不可少的,主要是因为这些数据的数据质量较高、领域强相关、知识覆盖率(密度)大,可以让
    的头像 发表于 08-09 11:43 1155次阅读
    关于领域大<b class='flag-5'>模型</b>-<b class='flag-5'>训练</b>Trick&amp;落地的一点思考

    训练好的ai模型导入cubemx不成功怎么解决?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 08-04 09:16

    HLS-1Hin人工智能训练系统

    Habana Labs System 1H(HLS-1H)为数据中心带来了新水平的Al计算性能和电源效率,以及大规模的可扩展性。 HLS-1Hin包含四个Gaudi HL-205 Mezzanine
    发表于 08-04 06:06

    如何使用TensorFlow将神经网络模型部署到移动或嵌入式设备上

    。 使用TensorFlow对经过训练的神经网络模型进行优化,步骤如下: 1.确定图中输入和输出节点的名称以及输入数据的维度。 2.使用TensorFlow的transform_graph工具生成优化的32位
    发表于 08-02 06:43

    State of GPT:大神Andrej揭秘OpenAI大模型原理和训练过程

    你可以看到,Llama 的参数数量大概是 650 亿。现在,尽管与 GPT3 的 1750 亿个参数相比,Llama 只有 65 个 B 参数,但 Llama 是一个明显更强大的模型,直观地说,这是因为
    的头像 发表于 05-30 14:34 650次阅读
    State of GPT:大神Andrej揭秘OpenAI大<b class='flag-5'>模型</b>原理和<b class='flag-5'>训练</b>过程

    什么是预训练AI模型

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。
    的头像 发表于 05-25 17:10 608次阅读

    如何使用eIQ门户训练人脸检测模型

    我正在尝试使用 eIQ 门户训练人脸检测模型。我正在尝试从 tensorflow 数据集 (tfds) 导入数据集,特别是 coco/2017 数据集。但是,我只想导入 wider_face。但是,当我尝试这样做时,会出现导入程序错误,如下图所示。任何帮助都可以。
    发表于 04-06 08:45

    什么是预训练 AI 模型

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,也可以根据不同行业的应用需求进行自定义。 如
    的头像 发表于 04-04 01:45 1042次阅读