0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

日本团队发布在富岳超算上训练的Fugaku-LLM大模型

微云疏影 来源:综合整理 作者:综合整理 2024-05-11 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

5月11日讯,多方企业与机构联手的日本研究小组昨日公布了Fugaku-LLM大型模型。该模型最大特点在于在Arm架构超算“富岳”上完成了训练。

自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。

至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(同时也是游戏巨头Cygames的母公司)及HPC-AI领域创新企业Kotoba Technologies加入项目。

研究团队在昨日的新闻发布会上表示,他们成功利用富岳超算的强大性能,使矩阵乘法运算速度提升6倍,通信速度提高3倍,从而证明大型纯CPU超算同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。

该模型采用13824个富岳超算节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。

研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;在人文社科类别的测试中更获得了9.18的高分。

现如今,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可在遵循许可协议的基础上,将该模型应用于学术和商业领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11326

    浏览量

    225836
  • 模型
    +关注

    关注

    1

    文章

    3811

    浏览量

    52257
  • 语言模型
    +关注

    关注

    0

    文章

    573

    浏览量

    11341
  • 大模型
    +关注

    关注

    2

    文章

    3753

    浏览量

    5268
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    天数智芯深度参编的节点技术体系白皮书正式发布

    率先发布的该领域权威技术白皮书的编纂工作,也印证了企业高速互联架构领域的技术实力和行业贡献,填补了国内节点技术权威指引的空白,为智算中心、大模型
    的头像 发表于 04-07 17:37 1568次阅读

    Google正式发布LLM评测基准Android Bench

    LLM Android 开发任务中的表现。现在,我们发布了 Android Bench 的首个版本,这是 Google 官方专门针对 Android 开发打造的 LLM 排行榜。
    的头像 发表于 03-14 16:00 1865次阅读
    Google正式<b class='flag-5'>发布</b><b class='flag-5'>LLM</b>评测基准Android Bench

    芯盾时代如何破局LLM供应链漏洞危机

    随着人工智能技术进入 2026 年的爆发期,大语言模型LLM)已不再是实验室里的原型,而是支撑企业核心业务的“数字引擎”。然而,LLM的强大高度依赖于全球化的AI生态。从海量的互联网训练
    的头像 发表于 02-04 16:53 1400次阅读

    什么是大模型,智能体...?大模型100问,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言模型
    的头像 发表于 02-02 16:36 1117次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    芯盾时代揭秘训练数据投毒攻击

    人工智能的“大航海时代”,大语言模型LLM)被视为通往AGI(通用人工智能)的“方舟”。当人们赞叹于LLM的博学与全能,不断给它投喂海量数据,通过工程优化实现
    的头像 发表于 01-23 10:25 694次阅读

    LLM安全新威胁:为什么几百个毒样本就能破坏整个模型

    本文转自:DeepHubIMBA作者:DhanushKumar数据投毒,也叫模型投毒或训练数据后门攻击,本质上是LLM训练、微调或检索阶
    的头像 发表于 10-29 11:06 820次阅读
    <b class='flag-5'>LLM</b>安全新威胁:为什么几百个毒样本就能破坏整个<b class='flag-5'>模型</b>

    Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率

    随着模型规模迈入百亿、千亿甚至万亿参数级别,如何在有限显存中“塞下”训练任务,对研发和运维团队都是巨大挑战。NVIDIA Megatron-Core 作为流行的大模型
    的头像 发表于 10-21 10:55 1374次阅读
    借助NVIDIA Megatron-Core大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>框架提高显存使用效率

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化
    的头像 发表于 09-26 13:37 2012次阅读

    摩尔线程发布模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本显存和性能仿真精度上实现突破性提升,同时引入多项关键功能,进一步增强了
    的头像 发表于 09-11 18:19 3872次阅读
    摩尔线程<b class='flag-5'>发布</b>大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>仿真工具SimuMax v1.0

    大规模专家并行模型TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 1408次阅读
    大规模专家并行<b class='flag-5'>模型</b><b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>的设计

    DeepSeek R1 MTPTensorRT-LLM中的实现与优化

    。我们之前的博客[1] 中介绍了 DeepSeek-R1 模型实现超低推理延迟的关键优化措施。本文将深入探讨 TensorRT-LLM 中的 MTP 实现与优化。
    的头像 发表于 08-30 15:47 4665次阅读
    DeepSeek R1 MTP<b class='flag-5'>在</b>TensorRT-<b class='flag-5'>LLM</b>中的实现与优化

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    Votee AI 利用 NVIDIA 的 GPU 硬件、NeMo Curator 数据处理软件、NeMo Framework 模型训练框架及 Auto Configurator 优化工具,高效构建
    的头像 发表于 08-20 14:21 1009次阅读

    使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践

    针对基于 Diffusion 和 LLM 类别的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能显著提升推理速度。单张 NVIDIA Ada Love
    的头像 发表于 06-12 15:37 2054次阅读
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS应用的最佳实践

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1439次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 <b class='flag-5'>LLM</b>语言<b class='flag-5'>模型</b>