0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯发布开源MoE大语言模型Hunyuan-Large

科技绿洲 来源:网络整理 作者:网络整理 2024-11-06 10:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts,专家混合)大语言模型——Hunyuan-Large。这款模型不仅在参数量上刷新了业界纪录,更在效果上展现出了卓越的性能,标志着腾讯在自然语言处理领域迈出了重要的一步。

据了解,Hunyuan-Large的总参数量高达389B(即3890亿),这一数字远超当前许多主流的大语言模型。而其激活参数也达到了惊人的52B(即520亿),这意味着模型在处理复杂任务时能够展现出更强的学习能力和泛化性能。

除了参数量上的优势,Hunyuan-Large在训练数据上也下足了功夫。据悉,该模型训练时所使用的token数量达到了7T(即7万亿),这确保了模型能够充分学习到语言的多样性和复杂性。同时,Hunyuan-Large还支持最大上下文长度为256K的文本输入,这一特性使得模型在处理长文本或对话场景时能够更准确地捕捉上下文信息,从而生成更加连贯和自然的回复。

腾讯此次推出的Hunyuan-Large大语言模型,不仅展示了其在人工智能领域的深厚技术积累,也为整个自然语言处理领域的发展注入了新的活力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49755

    浏览量

    261657
  • 腾讯
    +关注

    关注

    7

    文章

    1682

    浏览量

    50773
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11256
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13924
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    为助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1031次阅读

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwe
    的头像 发表于 09-06 15:21 934次阅读
    大规模专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3099次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    开源 DeepSeek R1 模型的创新架构包含多头潜在注意力机制 (MLA) 和大型稀疏混合专家模型 (MoE),其显著提升了大语言
    的头像 发表于 08-12 15:19 3831次阅读
    如何在NVIDIA Blackwell GPU上优化DeepSeek R1吞吐量

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源语言模型。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该
    的头像 发表于 08-07 14:42 1124次阅读
    硬件与应用同频共振,英特尔Day 0适配<b class='flag-5'>腾讯</b><b class='flag-5'>开源</b>混元大<b class='flag-5'>模型</b>

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放
    的头像 发表于 08-06 14:25 887次阅读

    华为宣布开源盘古7B稠密和72B混合专家模型

    电子发烧友网综合报道 2025年6月30日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型及基于昇腾的模型
    的头像 发表于 07-06 05:51 7102次阅读

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该
    的头像 发表于 07-04 14:10 696次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇腾的模型
    的头像 发表于 06-30 11:19 1123次阅读

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源
    的头像 发表于 05-08 11:45 2604次阅读
    NVIDIA使用Qwen3系列<b class='flag-5'>模型</b>的最佳实践

    DeepSeek扔的第二枚开源王炸是什么

    。 DeepSeek在其开源周活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。   在25日,也就是DeepSeek开源周的第二天,DeepSeek发布
    的头像 发表于 02-26 11:05 1296次阅读
    DeepSeek扔的第二枚<b class='flag-5'>开源</b>王炸是什么

    腾讯公布大语言模型训练新专利

    近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言
    的头像 发表于 02-10 09:37 723次阅读

    解析DeepSeek MoE并行计算优化策略

    本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的开源与快速部署预示着国产AI网络自主自控将大
    的头像 发表于 02-07 09:20 2717次阅读
    解析DeepSeek <b class='flag-5'>MoE</b>并行计算优化策略

    字节跳动发布豆包大模型1.5 Pro

    3.5 Sonnet等模型。 该模型采用大规模稀疏MoE架构,使用较小的激活参数进行预训练,却能等效7倍激活参数的Dense模型性能,远超业内Mo
    的头像 发表于 01-23 10:24 1133次阅读

    腾讯混元大模型开源成绩斐然,GitHub Star数近1.4万

    内外部技术的开源共享,旨在促进技术创新与生态发展。 据悉,腾讯混元大模型已经在多个模态上实现了开源,包括语言
    的头像 发表于 12-26 10:30 1065次阅读