近日,腾讯科技(深圳)有限公司在大语言模型训练领域取得了新的技术突破,并成功申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。
据天眼查App显示,该专利摘要详细介绍了腾讯在大语言模型训练过程中的创新方法。具体而言,腾讯引入了第一摘要文本和第二摘要文本,为模型训练提供了更为丰富的学习信息。这两个摘要文本所包含的信息量不同,且第一摘要文本中既包含正确语句也包含错误语句。
在训练过程中,腾讯通过对比学习同一样本文本的两个不同摘要文本,并区分学习第一摘要文本中的正确语句和错误语句,从而避免了由于摘要文本单一而导致的模型过拟合和生成不准确等问题。这种创新性的训练方法不仅有助于提升模型的泛化性能,还能显著提高模型的准确性。
腾讯的这一新专利无疑为其在大语言模型训练领域树立了新的技术标杆。通过不断优化和升级训练技术,腾讯有望为用户提供更加智能、准确的大语言模型服务。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
腾讯
+关注
关注
7文章
1682浏览量
50778 -
语言模型
+关注
关注
0文章
570浏览量
11265
发布评论请先 登录
相关推荐
热点推荐
在Ubuntu20.04系统中训练神经网络模型的一些经验
本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
发表于 10-22 07:03
中软国际在能源化工行业大模型项目取得重大突破
近日,中软国际签约某大型石油企业大模型开发项目。作为中国能源化工行业首个备案的大模型,此次签约标志着中软国际在能源化工行业人工智能领域取得了
用PaddleNLP为GPT-2模型制作FineWeb二进制预训练数据集
作者:算力魔方创始人/英特尔创新大使刘力 《用PaddleNLP在4060单卡上实践大模型预训练技术》发布后收到读者热烈反响,很多读者要求进一步讲解更多的技术细节。本文主要针对大语言
小白学大模型:训练大语言模型的深度指南
在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究中,科学家们为了深入了解如何高效地
腾讯元宝AI产品更新,正式接入DeepSeek R1模型
近日,腾讯元宝AI产品在应用商店迎来了重要更新,正式接入了DeepSeek R1模型,并宣布该模型已联网且以满血状态上线。这一更新标志着腾讯
腾讯公布大语言模型训练新专利
近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯
天数智芯与无问芯穹合作突破千卡集群训练优化
近日,天数智芯与无问芯穹宣布达成深度合作,并在千卡集群训练优化领域取得了重大技术突破。这一合作基于天数智芯的天垓150卓越计算能力和无问芯穹自主研发的大
【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读
今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术,它指的是在已经预训练好的大型深度学
发表于 01-14 16:51
胡瀚接棒腾讯多模态大模型研发
腾讯的杰出科学家和混元大模型技术团队的核心成员,曾在推动腾讯在人工智能领域的发展中发挥了重要作用。然而,去年11月,有消息称刘威已从
【「大模型启示录」阅读体验】+开启智能时代的新钥匙
那些拥有数十亿甚至数千亿参数的大规模模型成为了现实可能。Transformer 等机制模型架构的横空出世,彻底改变了模型训练的效率和性能。
我有时在想国外为何能够
发表于 12-24 13:10
GPU是如何训练AI大模型的
在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何

腾讯在大语言模型训练领域取得新突破
评论