5月11日讯,多方企业与机构联手的日本研究小组昨日公布了Fugaku-LLM大型模型。该模型最大特点在于在Arm架构超算“富岳”上完成了训练。
自2023年5月起,Fugaku-LLM模型的开发工作开始展开,最初参与团队包括富士通、东京工业大学、日本东北大学以及日本理化学研究所(简称理研)。
至同年8月,又有三家合作伙伴——名古屋大学、CyberAgent(同时也是游戏巨头Cygames的母公司)及HPC-AI领域创新企业Kotoba Technologies加入项目。
研究团队在昨日的新闻发布会上表示,他们成功利用富岳超算的强大性能,使矩阵乘法运算速度提升6倍,通信速度提高3倍,从而证明大型纯CPU超算同样适用于大模型训练。
Fugaku-LLM模型参数规模达13B,成为日本国内最大的大型语言模型。
该模型采用13824个富岳超算节点,在3800亿个Token上进行训练,其中60%为日语数据,其余40%涵盖英语、数学、代码等内容。
研究团队表示,Fugaku-LLM模型能够在交流过程中自然运用日语敬语等特殊表达方式。
在测试结果方面,该模型在日语MT-Bench模型基准测试中的平均得分高达5.5,位列基于日本语料资源的开放模型之首;在人文社科类别的测试中更获得了9.18的高分。
现如今,Fugaku-LLM模型已在GitHub和Hugging Face平台公开发布,外部研究人员和工程师可在遵循许可协议的基础上,将该模型应用于学术和商业领域。
-
cpu
+关注
关注
68文章
11326浏览量
225836 -
模型
+关注
关注
1文章
3811浏览量
52257 -
语言模型
+关注
关注
0文章
573浏览量
11341 -
大模型
+关注
关注
2文章
3753浏览量
5268
发布评论请先 登录
天数智芯深度参编的超节点技术体系白皮书正式发布
Google正式发布LLM评测基准Android Bench
芯盾时代如何破局LLM供应链漏洞危机
什么是大模型,智能体...?大模型100问,快速全面了解!
芯盾时代揭秘训练数据投毒攻击
在Ubuntu20.04系统中训练神经网络模型的一些经验
借助NVIDIA Megatron-Core大模型训练框架提高显存使用效率
广和通发布端侧情感对话大模型FiboEmo-LLM
摩尔线程发布大模型训练仿真工具SimuMax v1.0
大规模专家并行模型在TensorRT-LLM的设计
DeepSeek R1 MTP在TensorRT-LLM中的实现与优化
Votee AI借助NVIDIA技术加速方言小语种LLM开发
使用NVIDIA Triton和TensorRT-LLM部署TTS应用的最佳实践
小白学大模型:从零实现 LLM语言模型
日本团队发布在富岳超算上训练的Fugaku-LLM大模型
评论