0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达开源Nemotron-4 340B系列模型,助力大型语言模型训练

CHANBAEK 来源:网络整理 2024-06-17 14:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,英伟达宣布开源了一款名为Nemotron-4 340B的大型模型,这一壮举为开发者们打开了通往高性能大型语言模型(LLM)训练的新天地。该系列模型不仅包含高达3400亿参数,而且通过其独特的架构,为医疗保健、金融、制造、零售等多个行业的商业应用提供了强大的支持。

Nemotron-4 340B系列模型由三个主要组件构成:Base基础模型、Instruct指令模型和Reward奖励模型。这些模型协同工作,使得开发人员能够生成高质量的合成数据,进而训练出更加精准、高效的大型语言模型。英伟达在训练过程中使用了惊人的9万亿个token(文本单位),确保了模型的广泛覆盖和深度理解。

值得一提的是,Nemotron-4 340B-Base在常识推理任务中展现出了非凡的实力。在ARC-c、MMLU和BBH等一系列基准测试中,该模型的表现足以与业界知名的Llama-3 70B、Mixtral 8x22B和Qwen-2 72B等模型相媲美。这一成绩不仅证明了Nemotron-4 340B的先进性和可靠性,更为英伟达在人工智能领域的技术实力赢得了广泛赞誉。

随着Nemotron-4 340B系列模型的开源,英伟达为开发者们提供了一个强大的工具,使得他们能够更加便捷地训练出适用于各种商业场景的大型语言模型。这一举措无疑将加速人工智能技术的普及和应用,推动各行业的数字化转型进程。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4340

    浏览量

    46435
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99603
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1394
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿模型发展

    在内的领先创新者皆是创始成员,助力塑造新一代 AI 系统。 ● 联盟成员将协作开发一款基于 NVIDIA DGX™ Cloud 训练的开放模型,并将生成的模型
    的头像 发表于 03-17 11:14 288次阅读
    NVIDIA 成立由全球领先 AI 实验室组成的 <b class='flag-5'>Nemotron</b> Coalition,推动开放前沿<b class='flag-5'>模型</b>发展

    大晓机器人开源实时生成世界模型Kairos 3.0-4B

    近日,大晓机器人重磅开源开悟世界模型3.0(Kairos 3.0)-4B 系列具身原生世界模型。作为业内首个实现 “多模态理解 — 生成 —
    的头像 发表于 03-14 16:54 1999次阅读
    大晓机器人<b class='flag-5'>开源</b>实时生成世界<b class='flag-5'>模型</b>Kairos 3.0-<b class='flag-5'>4B</b>

    NVIDIA 推出 Nemotron 3 系列开放模型

    新闻摘要: ● Nemotron 3 系列开放模型包含 Nano、Super 和 Ultra 三种规模,具有极高的效率和领先的精度,适用于代理式 AI 应用开发。 ● Nemotron
    的头像 发表于 12-16 09:27 809次阅读
    NVIDIA 推出 <b class='flag-5'>Nemotron</b> 3 <b class='flag-5'>系列</b>开放<b class='flag-5'>模型</b>

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRI
    的头像 发表于 12-13 09:50 1528次阅读

    NVIDIA ACE现已支持开源Qwen3-8B语言模型

    助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B语言模型(SLM),可实现 PC 游戏中的
    的头像 发表于 10-29 16:59 1402次阅读

    NVIDIA Nemotron模型如何推动AI发展

    Nemotron 开源技术能够帮助开发者与企业构建强大的通用和专用智能系统。
    的头像 发表于 10-13 11:12 1183次阅读

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2001次阅读
    NVIDIA <b class='flag-5'>Nemotron</b> Nano 2推理<b class='flag-5'>模型</b>发布

    英伟打响“小模型”第一枪

    电子发烧友网综合报道 , 近日,Nvidia 推出了一款新的小型语言模型 Nemotron-Nano-9B-v2,该模型在多项基准测试中表现优异,且用户可灵活控制其推理功能的开关。 该
    发表于 08-24 01:18 1442次阅读

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一个直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 651次阅读
    利用自压缩实现<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>高效缩减

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用飞桨深度学习框架进行高效
    的头像 发表于 07-02 16:53 1472次阅读

    兆芯率先展开文心系列模型深度技术合作

    对文心系列模型的快速适配、无缝衔接。   文心大模型   文心4.5系列开源模型共10款,均使
    的头像 发表于 07-01 10:49 1072次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。 盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台。 基于昇腾的超大规模MoE
    的头像 发表于 06-30 11:19 1434次阅读

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 1376次阅读

    ServiceNow携手NVIDIA构建150亿参数超级助手

    Apriel Nemotron 15B 开源语言模型 (LLM) 使用 NVIDIA NeMo、NVIDIA Llama
    的头像 发表于 05-12 15:37 1050次阅读

    NVIDIA使用Qwen3系列模型的最佳实践

    阿里巴巴近期发布了其开源的混合推理大语言模型 (LLM) 通义千问 Qwen3,此次 Qwen3 开源模型
    的头像 发表于 05-08 11:45 3212次阅读
    NVIDIA使用Qwen3<b class='flag-5'>系列</b><b class='flag-5'>模型</b>的最佳实践