0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

日本超算富岳助力构建大规模语言模型Fugaku-LLM

微云疏影 来源:综合整理 作者:综合整理 2024-05-11 17:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

日本多企业联合科研组于昨日宣布推出Fugaku-LLM大模型,此模型基于Arm架构的“富岳”超级计算机进行培训,呈现出显著特性。

Fugaku-LLM模型项目自2023年5月起启动,初始参加方包括富士通、东京工业大学、日本东北大学及日本理化学研究所(简称理研)。至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(Cygames母公司)以及HPC-AI领域创新企业Kotoba Technologies加入。

在昨日公布的新闻稿中,研究团队表示他们成功发掘了富岳超级计算机的潜能,使矩阵乘法运算速度提升六倍,通信速度提高三倍,从而证实大型纯CPU超级计算机同样适用于大模型训练。

Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。该模型利用13824个富岳超级计算机节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。

研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。

在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;同时,在人文社科类别的测试中获得9.18的高分。

目前,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可以在遵循许可协议的前提下,将该模型应用于学术和商业领域。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11370

    浏览量

    226391
  • 超级计算机
    +关注

    关注

    2

    文章

    485

    浏览量

    43523
  • 大模型
    +关注

    关注

    2

    文章

    3862

    浏览量

    5295
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程与中国移动研究院等,联合发布128卡高密节点参考设计,定义超大规模底座新标准

    随着全球智集群规模跨入“万卡时代”并向“十万卡”巅峰演进,传统单机八卡服务器在应对万亿参数模型时,因集群通信开销过大导致力线性增长受阻
    发表于 03-17 08:40 892次阅读

    中科曙光scaleX万卡集群筑牢超大规模硬核底座

    3月5日,2026年《政府工作报告》为力产业划下重点:深化拓展“人工智能+”,实施超大规模集群、电协同等新型基础设施工程,并加强全国一体化
    的头像 发表于 03-10 14:35 928次阅读

    先进稀疏计算技术助力AI大模型力破局提效

    每天,数亿用户与大语言模型LLM)对话时,一场悄无声息的能源消耗正在全球数据中心上演。行业数据显示,OpenAI运营ChatGPT的日成本高达70万美元,其中电费是主要支出。放眼全球,所有大
    的头像 发表于 02-27 10:53 772次阅读
    先进稀疏计算技术<b class='flag-5'>助力</b>AI大<b class='flag-5'>模型</b><b class='flag-5'>算</b>力破局提效

    中科曙光3套scaleX万卡集群落地国家互联网郑州核心节点

    2月5日,由中科曙光提供的3套万卡集群系统在国家互联网郑州核心节点同时上线试运行,成为全国首个实现3万卡部署、且实际投入运营的最大国产AI力池,全面覆盖万亿参数
    的头像 发表于 02-09 10:32 813次阅读

    什么是大模型,智能体...?大模型100问,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    中科曙光scaleX万卡集群重塑超大规模力基础设施

    在“人工智能+”行动深入推进的当下,力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超
    的头像 发表于 01-30 15:43 1092次阅读

    NVIDIA TensorRT LLM 1.0推理框架正式上线

    TensorRT LLM 作为 NVIDIA 为大规模 LLM 推理打造的推理框架,核心目标是突破 NVIDIA 平台上的推理性能瓶颈。为实现这一目标,其构建了多维度的核心实现路径:一
    的头像 发表于 10-21 11:04 1554次阅读

    广和通发布端侧情感对话大模型FiboEmo-LLM

    9月,广和通正式发布自主研发的端侧情感对话大模型FiboEmo-LLM。该模型专注于情感计算与自然语言交互融合,致力于为AI玩具、智能陪伴设备等终端场景提供“情感理解-情感响应”一体化
    的头像 发表于 09-26 13:37 2115次阅读

    TensorRT-LLM大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 1501次阅读
    TensorRT-<b class='flag-5'>LLM</b>的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源
    的头像 发表于 09-06 15:21 1555次阅读
    <b class='flag-5'>大规模</b>专家并行<b class='flag-5'>模型</b>在TensorRT-<b class='flag-5'>LLM</b>的设计

    米尔RK3576部署端侧多模态多轮对话,6TOPS力驱动30亿参数LLM

    通过硬件力优化与软件栈协同,将视觉编码、语言推理、对话管理三大核心能力封装为可落地的工程方案,而本文将聚焦其多轮对话的部署全流程,拆解从模型加载到交互推理的每一个关键环节。 RK3576 多轮对
    发表于 09-05 17:25

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3662次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>LLM</b>原理

    中国智能规模增长将40%

    表示预计在2025年,中国智能规模增长将超过40%。 据中国信息通信研究院副院长 魏亮表示:目前,中国力平台实现了100多个力服务商入驻,完成1000余家行业用户注册,接入主流
    的头像 发表于 08-25 19:28 1095次阅读

    Votee AI借助NVIDIA技术加速方言小语种LLM开发

    了精准的方言及小语种大语言模型 (LLM)。此举成功解决了数据稀缺、语言复杂及计算效率等挑战,为全球数以百万计、缺乏数字化资源的语言使用者提
    的头像 发表于 08-20 14:21 1089次阅读

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 1458次阅读