0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

日本超算富岳助力构建大规模语言模型Fugaku-LLM

微云疏影 来源:综合整理 作者:综合整理 2024-05-11 17:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日本多企业联合科研组于昨日宣布推出Fugaku-LLM大模型,此模型基于Arm架构的“富岳”超级计算机进行培训,呈现出显著特性。

Fugaku-LLM模型项目自2023年5月起启动,初始参加方包括富士通、东京工业大学、日本东北大学及日本理化学研究所(简称理研)。至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(Cygames母公司)以及HPC-AI领域创新企业Kotoba Technologies加入。

在昨日公布的新闻稿中,研究团队表示他们成功发掘了富岳超级计算机的潜能,使矩阵乘法运算速度提升六倍,通信速度提高三倍,从而证实大型纯CPU超级计算机同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。该模型利用13824个富岳超级计算机节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。

研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;同时,在人文社科类别的测试中获得9.18的高分。

目前,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可以在遵循许可协议的前提下,将该模型应用于学术和商业领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11218

    浏览量

    222954
  • 超级计算机
    +关注

    关注

    2

    文章

    479

    浏览量

    43153
  • 大模型
    +关注

    关注

    2

    文章

    3442

    浏览量

    4968
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一
    的头像 发表于 10-21 11:04 756次阅读

    TensorRT-LLM大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 694次阅读
    TensorRT-<b class='flag-5'>LLM</b>的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 923次阅读
    <b class='flag-5'>大规模</b>专家并行<b class='flag-5'>模型</b>在TensorRT-<b class='flag-5'>LLM</b>的设计

    米尔RK3576部署端侧多模态多轮对话,6TOPS力驱动30亿参数LLM

    通过硬件力优化与软件栈协同,将视觉编码、语言推理、对话管理三大核心能力封装为可落地的工程方案,而本文将聚焦其多轮对话的部署全流程,拆解从模型加载到交互推理的每一个关键环节。 RK3576 多轮对
    发表于 09-05 17:25

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3086次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>LLM</b>原理

    中国智能规模增长将40%

    表示预计在2025年,中国智能规模增长将超过40%。 据中国信息通信研究院副院长 魏亮表示:目前,中国力平台实现了100多个力服务商入驻,完成1000余家行业用户注册,接入主流
    的头像 发表于 08-25 19:28 807次阅读

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    了精准的方言及小语种大语言模型 (LLM)。此举成功解决了数据稀缺、语言复杂及计算效率等挑战,为全球数以百万计、缺乏数字化资源的语言使用者提
    的头像 发表于 08-20 14:21 650次阅读

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 926次阅读

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任
    的头像 发表于 04-30 18:34 1062次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 <b class='flag-5'>LLM</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的力突破

    近年来,随着千亿级参数模型的崛起,AI训练对力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶颈。而RAKsmart为超大规模模型训练提供
    的头像 发表于 04-24 09:27 613次阅读

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型LLM)的推理能力成了最热门的话题之一,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨LLM
    的头像 发表于 04-03 12:09 1243次阅读
    详解 <b class='flag-5'>LLM</b> 推理<b class='flag-5'>模型</b>的现状

    新品 | Module LLM Kit,离线大语言模型推理模块套装

    推理与数据交互需求。ModuleLLM是一款集成化的离线大语言模型(LLM)推理模块,专为需要高效、智能交互的终端设备设计。Module13.2LLMMate模块
    的头像 发表于 03-28 18:49 894次阅读
    新品 | Module <b class='flag-5'>LLM</b> Kit,离线大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理模块套装

    无法在OVMS上运行来自Meta的大型语言模型LLM),为什么?

    无法在 OVMS 上运行来自 Meta 的大型语言模型LLM),例如 LLaMa2。 从 OVMS GitHub* 存储库运行 llama_chat Python* Demo 时遇到错误。
    发表于 03-05 08:07

    新品| LLM630 Compute Kit,AI 大语言模型推理开发平台

    处理器,集成了3.2TOPs@INT8力的高能效NPU,提供强大的AI推理能力,能够高效执行复杂的视觉(CV)及大语言模型(LLM)任务,满足各类智能应用场景的需求
    的头像 发表于 01-17 18:48 1203次阅读
    新品| <b class='flag-5'>LLM</b>630 Compute Kit,AI 大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理开发平台

    小白学大模型构建LLM的关键步骤

    随着大规模语言模型LLM)在性能、成本和应用前景上的快速发展,越来越多的团队开始探索如何自主训练LLM
    的头像 发表于 01-09 12:12 1554次阅读
    小白学大<b class='flag-5'>模型</b>:<b class='flag-5'>构建</b><b class='flag-5'>LLM</b>的关键步骤