0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯公布大语言模型训练新专利

科技绿洲 来源:网络整理 作者:网络整理 2025-02-10 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型训练领域取得了新的突破。

据专利摘要显示,该方法通过在大语言模型的训练过程中引入第一摘要文本和第二摘要文本,为模型提供了更为丰富的学习信息。这两个摘要文本在信息量上存在差异,且第一摘要文本中既包含正确语句也包含错误语句。这一设计使得模型在训练过程中,能够通过对比学习两个不同摘要文本的内容,同时区分并学习第一摘要文本中的正确语句和错误语句。

这一创新性的训练方法,有效避免了由于摘要文本单一而导致的模型过拟合和生成不准确等问题。通过引入更多样化的学习信息,模型能够更好地泛化到新的数据上,从而提高其泛化性能。同时,对正确语句和错误语句的区分学习,也进一步提升了模型的准确性。

腾讯此次公布的新专利,不仅展示了其在人工智能领域的深厚技术积累,也为大语言模型的训练提供了新的思路和方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267745
  • 腾讯
    +关注

    关注

    7

    文章

    1689

    浏览量

    51043
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11370
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    零基础手写大模型资料2026

    Transformer核心结构的大模型,揭示大模型从理论到落地的技术本质。 一、数学基础:大模型的三大基石 1. 矩阵运算:神经网络的语言模型
    发表于 05-01 17:44

    沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型。沐曦股份旗下曦云 C 系列 GPU已完成Day 0适配,为率先支持该模型的国产算力。
    的头像 发表于 04-28 15:51 1717次阅读
    沐曦股份曦云C系列GPU产品Day 0适配<b class='flag-5'>腾讯</b>混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    燧原科技L600适配腾讯混元Hy3 preview语言模型

    2026年4月23日,腾讯混元 Hy3 preview 语言模型发布并开源,燧原 L600已同步完成对 Hy3 preview极速全面适配。
    的头像 发表于 04-28 15:13 309次阅读
    燧原科技L600适配<b class='flag-5'>腾讯</b>混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    壁仞科技壁砺166系列GPU产品率先支持腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元Hy3 preview语言模型发布并开源。依托全栈自研技术优势,壁仞科技基于vLLM主流开源框架实现Hy3 preview模型的Day0适配及推理验证。Hy3 pr
    的头像 发表于 04-28 14:01 1871次阅读
    壁仞科技壁砺166系列GPU产品率先支持<b class='flag-5'>腾讯</b>混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元

    2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合25
    的头像 发表于 04-24 09:07 1004次阅读

    Edge Impulse 唤醒词模型训练 | 技术集结

    今天,将手把手带领学习如何训练一个语音关键词模型部署到嵌入式硬件上,采用Edgi-Talk平台适配EdgeImpulse,当然原理在其他的ARM嵌入式平台也是通用的。让我们看看如何让
    的头像 发表于 04-20 10:05 1756次阅读
    Edge Impulse 唤醒词<b class='flag-5'>模型</b><b class='flag-5'>训练</b> | 技术集结

    AI模型训练与部署实战 | 线下免费培训

    你是否想系统了解AI落地全链路,但缺少一个完整的实战项目练手?模型部署环节繁多,缺乏一套清晰的实战路径?4月18日、4月25日、5月16日RT-Thread将分别在苏州、成都、南京举办“AI模型训练
    的头像 发表于 04-07 13:08 775次阅读
    AI<b class='flag-5'>模型</b><b class='flag-5'>训练</b>与部署实战 | 线下免费培训

    训练到推理:大模型算力需求的新拐点已至

    在大模型产业发展的早期阶段,行业焦点主要集中在大模型训练所需的算力投入。一个万亿参数大模型训练可能需要数千张GPU芯片连续运行数月,成本高
    的头像 发表于 02-05 16:07 1116次阅读
    从<b class='flag-5'>训练</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐点已至

    什么是大模型,智能体...?大模型100问,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是训练一个手写数字识
    发表于 10-22 07:03

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3663次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源大语言模型。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该模型的第零日(Day 0)部署与性能优化。值得一
    的头像 发表于 08-07 14:42 1630次阅读
    硬件与应用同频共振,英特尔Day 0适配<b class='flag-5'>腾讯</b>开源混元大<b class='flag-5'>模型</b>

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    沐曦MXMACA软件平台在大模型训练方面的优化效果

    在如今的人工智能浪潮中,大规模语言模型(上百亿乃至千亿参数)正迅速改变着我们的工作和生活。然而,训练这些庞大的模型往往面临“算力不足、显存不够用、通信太慢”等诸多挑战。
    的头像 发表于 07-03 14:09 2511次阅读
    沐曦MXMACA软件平台在大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>方面的优化效果

    make sence成的XML文件能上传到自助训练模型上吗?

    make sence成的XML文件能上传到自助训练模型上吗
    发表于 06-23 07:38