0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

后发而先至的腾讯混元大模型,到底有哪些技术亮点?

鲜枣课堂 来源:鲜枣课堂 2023-09-12 17:25 次阅读

2023年的夏天已经结束了,但是,围绕AIGC大模型的关注热度,却丝毫没有衰退的意思。

在过去的大半年里,我们亲眼见证了大模型浪潮的崛起,甚至可以说是疯狂。截止7月,国内的大模型数量,已经超过130个。

这些大模型的创造者,既有国有及民营企业,也有大学、科研院所等研究机构。从某种意义上来说,发布大模型,已经成为宣示自身实力的一种方式。

不知道大家有没有注意到,国内互联网大厂百度和阿里,都早早推出了自家的大模型。而身为BAT“三巨头”之一的腾讯,却一直很低调。

几天前,9月7日,在2023腾讯全球数字生态大会上,腾讯自家的通用大语言模型——腾讯混元大模型终于亮相了。

为什么腾讯的大模型“不着急”?是他们不重视这场科技浪潮吗?还是说,他们的AI技术不足,在竞争中落后于人?

很显然,这些说法都不对。

ChatGPT是AIGC大模型浪潮的导火线,但是,它并不是大模型的最早开端。

业界对大模型的研究,其实早几年就已经开始了。当时,AIGC并没有这么高的热度。2022年底,ChatGPT横空出世,展现出惊人的自然语言能力,才彻底激发了整个社会对大模型的关注。

正如前面所说,很多企业之所以不惜一切代价搞大模型,完全是为了追逐“风口”。

腾讯集团副总裁蒋杰在采访中介绍:“在腾讯内部,混元已经内测很久了,不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年,腾讯推出了千亿规模的NLP大模型。2022年,腾讯推出万亿参数的 NLP 稀疏大模型。换言之,他们的大模型研究,是国内领先的。

ChatGPT火了之后,腾讯更加理性地思考了自己的大模型战略,提出了四大灵魂拷问:

1、自己为什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么样?

4、搞出大模型之后,到底怎么用?

在经过审慎思考和激烈讨论之后,他们终于理清了自己的答案,按照自己的节奏,稳步向前推进。

腾讯混元大模型,就是在这样的背景下诞生的。

接下来,我们不妨仔细看看,腾讯混元大模型,究竟是如何解答这四个灵魂之问的。

█问题1:为什么要搞大模型?

今年3月,腾讯总裁兼投资委员会主席刘炽平,在财报电话会议上曾经表示:“AI将成为公司未来业务增长的放大器。生成式AI和基础模型技术可以补充优化腾讯的业务。…… (大模型)将在未来对每个业务线都起到正向补充作用。同时,这也有助于推出新业务。”

他还表示,“我们希望沿着正确的路线踏实前进,不急于求成,先打好基础,再追求新进展,我们的第一款产品将会是多次迭代之后的产品,整个过程将是长期的。”

他的表态,其实已经说明了腾讯对大模型的战略基调——紧密结合自身业务线,稳步推进,长期迭代。

在发布会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生也提到:“大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

也就是说,腾讯不会为了搞大模型而搞大模型。既然要搞,就是冲着实用性去的。

基于这个目标搞出来的混元大模型,是“从实践中来,到实践中去”的实用级大模型。它关注的不是推出速度和评测跑分,而是如何真正与实际场景结合,满足用户的真实需求。

█问题2:大模型,到底该怎么搞?

大模型是一场技术博弈。既然决定要做,就必须做出差异化的竞争优势,找准技术路线。

腾讯混元大模型,最大的特点,就是——全链路自研。

行业里现有的很多大模型,都是开源大模型。东西拿来就用,依葫芦画瓢,当然推出速度会快。

蒋杰表示,腾讯是一个海量高并发的业务,开源的架构并不适应腾讯,一定要走出一套基于自主体系的研发之路。唯有自研,才能完全掌握技术内核,将大模型更好地融入到自身的技术栈中。所以,他们走上了更加具有挑战性的自研之路。

腾讯混元大模型从第一个token开始从零训练,掌握了从模型算法机器学习框架,再到AI基础设施的全链路自研技术。

算法方面,腾讯在预训练上从零启动训练,优化预训练算法及策略,精调及强化学习,改进注意力机制,并开发了思维链新算法。

机器学习框架方面,腾讯采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。

基础设施方面,采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。

算力集群所基于的网络底座——星脉,具备业界最高的3.2T通信带宽,可以为AI大模型带来10倍通信性能提升。通过自研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通以太网的60%提升到90%以上,极大提高整体集群的算力利用率。

根据验证,腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。

█问题3:大模型,要搞成什么样?

全链路自研,投入虽然大,但回报也是显著的。

腾讯混元大模型,拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

相比于业界已有的大模型,腾讯混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大语言模型的幻觉比例。

使用过大模型的读者都知道,大模型很容易出现“一本正经胡说八道”的问题。也就是说,AI模型生成了不属于现实世界的内容。这就是“幻觉”。“幻觉”是大语言模型每一个厂家都应该面临的重要问题,无论技术做到什么程度,在当前的模型架构下,都无法回避“幻觉”。

针对“幻觉”问题,当前业界普遍的解决方式是采用外挂插件,即给大模型“外挂”一个知识库,使其在推理时进行检索,基于检索结果再进行输出,提高正确率。

这个方式,在遇到复杂任务时,效果有限。

腾讯混元大模型所采取的方式,是在预训练阶段,就通过“探真”算法,进行事实修正。它摆脱了对外挂的依赖,有效降低了复杂任务中的幻觉。

根据测试,经过预训练算法及策略的整体优化后,混元大模型相比其他主流开源大模型,幻觉比例降低了30%-50%。

48a4265c-514a-11ee-a25d-92fbcf53809c.png

更多的理性,更少的“胡说八道”

其次,混元大模型的“陷阱”识别能力大幅提升,可以更好地抗拒“诱导”。

人们在使用大模型时,经常会对它进行“调戏”。也就是说,问一些刁钻问题,给大模型设置“陷阱”,得到令人啼笑皆非的答案。

腾讯通过强化学习的方法,让混元大模型学会识别“陷阱”,对“调戏”说不,提升应用的安全性和智能感。根据数据显示,面对安全诱导类问题,混元大模型的拒答率提升了20%。

48d0ab5a-514a-11ee-a25d-92fbcf53809c.png

拒绝“挖坑”

除了上面提到的可靠性改进之外,混元也大幅提升了成熟性。

混元大模型覆盖了短文本和千字级别长文本生成能力。

当前市面上大模型在超长任务处理上很难实现。腾讯通过位置编码优化,提升长文的处理效果和性能,结合指令跟随优化,让产出内容更符合字数要求,从而提升超长文本的生成和续写能力。

在逻辑思考能力上,混元大模型持结合实际场景推理决策。

在大模型训练中,一些团队会让大模型通过“死记硬背”的方式学会中小学的数学题。但是在现实生活中,靠“背题”是不够的,还需要让大模型具备理解上下文的能力。腾讯推出思维链新策略,有效强化模型对问题拆解和分步思考的倾向。

以上这些特性,使得混元大模型在使用体验上和传统大模型有明显区别。它的智能化程度更好,表现更加稳定,更像是一个真正的专家和助手。

在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评了66个能力项。在“模型开发(共测试29个能力项)”和“模型能力(共测试37个能力项)”这两个重要领域的综合评价中,均获得了当前的最高分。

█问题4:混元大模型,到底怎么用?

前面我提到,混元大模型是“从实践中来,到实践中去”的实用级大模型。为了充分发挥混元的实用价值,腾讯率先将自己的众多互联网业务与混元进行结合、落地。

目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

腾讯机器学习平台部副总经理王迪提到,腾讯混元大模型和各个产品的结合,并不是一种强制绑定的关系,而是更关注产品在用户体验上的优化,关注哪些地方可以通过AI提效。

例如,基于混元的腾讯会议AI小助手,可以快速实现会中问答、会议摘要、会议待办项等多种事项。

再例如,基于混元的腾讯文档智能助手功能(内测中),不仅支持数十种文本创作场景,还能生成上百种专业文书规范,以及用自然语言生成数百种Excel公式等。

王迪表示,在将大模型的能力和业务场景结合的过程中,需要做大量的工作,比如怎么把混元大模型的基础指令理解能力、文字总结能力与会议APP里AI的能力和会议内容生成能力结合。如果只是单纯将大模型直接放进去,短期不一定真的能够对业务带来很大的提升。一定是针对业务场景进行专门的优化和提效,才能达到更好的效果。

在混元大模型的研究过程中,其实就已经从腾讯丰富的应用场景中进行了技术积累。场景锻炼了模型,模型反过来服务场景,形成了良性循环。

蒋杰表示,腾讯混元大模型团队关注的首先是做好技术本身,回归本质,做好技术的突破和路径规划。在内部,会把混元所有的能力开放给腾讯所有的业务。

内部业务场景的实践,是为外部服务开放做准备。在发布会上,蒋杰郑重宣布:腾讯混元大模型已正式通过腾讯云对外开放,助力全行业。

混元大模型将作为腾讯云MaaS服务的底座,用户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

█结语

腾讯对四大灵魂之问的探索,最终为混元大模型的问世奠定了基础。

正所谓“方向对了,努力才有意义”。腾讯在喧嚣躁动中坚持理性思考,在找准目标后,果断投入,进行艰苦自研。最终,他们拿出了能经受考验的产品,也走出了自己的独特道路。

他们的做法无疑是正确的,也带给整个行业以启示。在百模大战逐渐升级的今天,很多公司都将面对自己的灵魂拷问。

大浪淘沙沙去尽,沙尽之时见真金。唯有那些给出正确答案的大模型,才能笑到最后,成为真正的赢家。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 腾讯
    +关注

    关注

    7

    文章

    1620

    浏览量

    49157
  • ChatGPT
    +关注

    关注

    27

    文章

    1408

    浏览量

    4745
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1115

原文标题:后发而先至的腾讯混元大模型,到底有哪些技术亮点?

文章出处:【微信号:鲜枣课堂,微信公众号:鲜枣课堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NUC123的USB外设到底有没有DMA功能?

    下载最新的TRM 1.07: 在最先前的描述以及USB的寄存器章节都有DMA相关的内容。但是DMA那一章节里的框图没有USB外设。同时关于USB外设DMA的用法也没具体说明。所以USB外设到底有没DMA功能,若是该怎么用?
    发表于 01-16 08:26

    AD7280AWBSTZ和AD7280ABSTZ之间到底有什么区别?

    替代吗?在网上找到的两个芯片的相关数据都是一样的,AD7280AWBSTZ和AD7280ABSTZ之间到底有什么区别?
    发表于 01-08 06:36

    COB与SMD到底有什么不同?

    COB与SMD到底有什么不同?  COB和SMD是两种常见的电子元器件封装技术。它们在电子行业中被广泛应用,尤其在LED照明领域。虽然它们都用于将芯片连接到电路板上,但它们在封装技术和应用方面有一些
    的头像 发表于 12-29 10:34 877次阅读

    到底有哪些原因会导致电枢绝缘阻值为零?

    对电机多大影响,现在这样用能安全使用多长时间,为什么电枢会是零呢,到底有哪些原因会导致电枢绝缘阻值为零?
    发表于 12-14 08:30

    dB到底有多少种不同的含义呢?

    此同时,我们在很多有噪声监控的十字路口也可以看到这样的指示牌:目前路口噪音60dB。那么dB到底有多少种不同的含义呢? 首先要说到dB的起源,所谓dB,指的就是Deci-Bel,也就是1/10个“Bell
    发表于 11-27 08:26

    请问MSP430到底有几个时钟呀?

    请问MSP430到底有几个时钟呀
    发表于 11-03 06:36

    COB与SMD到底有什么不同

    如今在应用领域,COB和SMD两种技术正在“平分春色”,但在微小间距LED领域,COB正在成为各大厂商都在争相研发的行业主流技术。那么COB与SMD到底有什么不同呢?
    的头像 发表于 11-02 09:37 1472次阅读
    COB与SMD<b class='flag-5'>到底有</b>什么不同

    服务机器人的核心技术到底有哪些

    机器人的基本架构通常包括中央处理器 (CPU)、电源/电池管理单元、电池充电器、无线通信 (COM) 模块、人机界面 (HMI)、传感器及驱动模块(有刷和无刷电机)。那么,服务机器人的核心技术到底有哪些呢?
    发表于 10-26 10:23 306次阅读
    服务机器人的核心<b class='flag-5'>技术</b><b class='flag-5'>到底有</b>哪些

    ARM和DSP到底有什么区别?

    现在在学ARM,想知道ARM和DSP到底有什么区别?为什么有些地方用DSP有些用ARM
    发表于 10-19 07:20

    YOLOv3的darknet模型转为caffe模型再转为fp32bmodel,模型输出和原始模型输出存在偏差是怎么回事?

    YOLOv3的darknet模型转为caffe模型再转为fp32bmodel,模型输出和原始模型
    发表于 09-19 06:26

    腾讯混元大模型将面向公众开放

    腾讯混元大模型是由腾讯自主研发的实用级大模型,参数规模超过千亿,预训练语料达到了2万亿tokens,具备出色的中文创作能力、复杂语境下的逻辑推理能力以及可靠的执行任务能力。
    的头像 发表于 09-18 16:31 829次阅读

    腾讯对外开放混元大模型

    混元大模型腾讯全链路自研的通用大语言模型,具备强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力。
    的头像 发表于 09-18 15:12 792次阅读
    <b class='flag-5'>腾讯</b>对外开放混元大<b class='flag-5'>模型</b>

    腾讯的大模型价值观:实用主义

    最直接的节奏体感是腾讯的“不着急”——在厂商纷纷抢占今年三、四月份的第一波大模型时间卡位时,马化腾直言“腾讯不急于做半成品”。所以直到6月,大众才第一次正式看到腾讯的行业大
    的头像 发表于 09-11 17:09 863次阅读
    <b class='flag-5'>腾讯</b>的大<b class='flag-5'>模型</b>价值观:实用主义

    腾讯发布混元大语言模型

    腾讯发布混元大语言模型 腾讯全球数字生态大会上腾讯正式发布了混元大语言模型,参数规模超千亿,预训练语料超2万亿tokens。 作为
    的头像 发表于 09-07 10:23 851次阅读

    NUC123的USB外设到底有没有DMA功能?

    下载最新的TRM 1.07: 在最先前的描述以及USB的寄存器章节都有DMA相关的内容。但是DMA那一章节里的框图没有USB外设。同时关于USB外设DMA的用法也没具体说明。所以USB外设到底有没DMA功能,若是该怎么用?
    发表于 08-24 06:18