近日,腾讯科技(深圳)有限公司在大语言模型训练领域取得了新的技术突破,并成功申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。
据天眼查App显示,该专利摘要详细介绍了腾讯在大语言模型训练过程中的创新方法。具体而言,腾讯引入了第一摘要文本和第二摘要文本,为模型训练提供了更为丰富的学习信息。这两个摘要文本所包含的信息量不同,且第一摘要文本中既包含正确语句也包含错误语句。
在训练过程中,腾讯通过对比学习同一样本文本的两个不同摘要文本,并区分学习第一摘要文本中的正确语句和错误语句,从而避免了由于摘要文本单一而导致的模型过拟合和生成不准确等问题。这种创新性的训练方法不仅有助于提升模型的泛化性能,还能显著提高模型的准确性。
腾讯的这一新专利无疑为其在大语言模型训练领域树立了新的技术标杆。通过不断优化和升级训练技术,腾讯有望为用户提供更加智能、准确的大语言模型服务。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
腾讯
+关注
关注
7文章
1687浏览量
51002 -
语言模型
+关注
关注
0文章
575浏览量
11343
发布评论请先 登录
相关推荐
热点推荐
腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元
2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合25
琻捷电子在固态电池安全监测领域取得关键突破
近日,琻捷电子科技(江苏)股份有限公司(以下简称“SENASIC”)在固态电池安全监测领域取得关键突破:SENASIC的硫化氢H2S气体监测传感器,已完成国内头部电池企业出货。
FLIR热成像技术助力英国顶尖学府在电卡效应研究领域取得重大突破
在科技日新月异的今天,高效能、可持续的冷却技术成为电子设备与制冷行业关注的焦点。英国贝尔法斯特女王大学( Queen’s University Belfast)的研究团队,凭借Flir先进的热成像技术,在电卡效应研究领域
立讯精密在高速互连领域取得里程碑式突破
近日,立讯精密自主研发的HDMI 2.2连接器及配套测试治具,正式通过HDMI Forum首批官方认证。公司成为全球首家同时获得产品端与测试端双认证的供应商,标志着在高速互连领域取得里程碑式突
在Ubuntu20.04系统中训练神经网络模型的一些经验
本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
发表于 10-22 07:03
借助NVIDIA Cosmos模型提升机器人训练效率
随着物理 AI 系统的不断发展,对丰富标记数据集的需求正在急速增长,已经超出了在现实世界中通过人工采集所能满足的范围。世界基础模型(WFMs)是经过训练的生成式 AI 模型,能够根据现
摩尔线程发布大模型训练仿真工具SimuMax v1.0
近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键功能,进一步增强了
3万字长文!深度解析大语言模型LLM原理
我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得
对 DeepSeek 的性能突破形成直观的认识。同时,介绍 DeepSeek 的 模型家族 ,涵盖通用语言模型、多模态模型、代码生成与理解等
发表于 07-17 11:59
中软国际在能源化工行业大模型项目取得重大突破
近日,中软国际签约某大型石油企业大模型开发项目。作为中国能源化工行业首个备案的大模型,此次签约标志着中软国际在能源化工行业人工智能领域取得了
【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘
对 DeepSeek 的性能突破形成直观的认识。同时,介绍 DeepSeek 的 模型家族 ,涵盖通用语言模型、多模态模型、代码生成与理解等
发表于 06-09 14:38
腾讯在大语言模型训练领域取得新突破
评论