0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

“伶荔”(Linly) 开源大规模中文语言模型

OSC开源社区 来源:OSC开源社区 2023-05-04 10:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

为了开发高性能中文基础模型,填补中文基础模型百亿到千亿级预训练参数的空白,大数据系统计算技术国家工程实验室团队在人工智能项目伶荔(Linly)框架下,推出了伶荔说系列中文语言大模型,目前包含中文基础模型和对话模型。

其中,中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练,将它在英文上强大语言能力迁移到中文上。更进一步,汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 Linly-ChatFlow 对话模型。

0cbaa256-e89f-11ed-ab56-dac502259ad0.png

根据介绍,相比已有的中文开源模型,伶荔模型具有以下优势:

在 32*A100 GPU 上训练了不同量级和功能的中文模型,对模型充分训练并提供强大的 baseline。据知,33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。

公开所有训练数据、代码、参数细节以及实验结果,确保项目的可复现性,用户可以选择合适的资源直接用于自己的流程中。

项目具有高兼容性和易用性,提供可用于 CUDA 和 CPU 的量化推理框架,并支持 Huggingface 格式。

目前公开可用的模型有:

Linly-Chinese-LLaMA:中文基础模型,基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力,现已开放 7B、13B 和 33B 量级,65B 正在训练中。

Linly-ChatFlow:中文对话模型,在 400 万指令数据集合上对中文基础模型指令精调,现已开放 7B、13B 对话模型。

Linly-ChatFlow-int4 :ChatFlow 4-bit 量化版本,用于在 CPU 上部署模型推理。

进行中的项目:

Linly-Chinese-BLOOM:基于 BLOOM 中文增量训练的中文基础模型,包含 7B 和 175B 模型量级,可用于商业场景。

项目特点

Linly 项目具有以下特点:

1. 大规模中文增量训练,利用翻译数据提速中文模型收敛

在训练数据方面,项目尽可能全面的收集了各类中文语料和指令数据。无监督训练使用了上亿条高质量的公开中文数据,包括新闻、百科、文学、科学文献等类型。和通常的无监督预训练不同,项目在训练初期加入了大量中英文平行语料,帮助模型将英文能力快速迁移到中文上。

在指令精调阶段,项目汇总了开源社区的指令数据资源,包括多轮对话、多语言指令、GPT4/ChatGPT 问答、思维链数据等等,经过筛选后使用 500 万条数据进行指令精调得到 Linly-ChatFlow 模型。训练使用的数据集也在项目里提供。

训练流程如图所示:

0cc77404-e89f-11ed-ab56-dac502259ad0.png

2. 全参数训练,覆盖多个模型量级

目前基于 LLaMA 的中文模型通常使用 LoRA 方法进行训练,LoRA 冻结预训练的模型参数,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数,来实现快速适配。虽然 LoRA 能够提升训练速度且降低设备要求,但性能上限低于全参数训练。为了使模型获得尽可能强的中文语言能力,该项目对所有参数量级都采用全参数训练,开销大约是 LoRA 的 3-5 倍。

伶荔语言模型利用 TencentPretrain 多模态预训练框架,集成 DeepSpeed ZeRO3 以 FP16 流水线并行训练。目前已开放 7B、13B、33B 模型权重,65B 模型正在训练中。模型仍在持续迭代,将定期更新,损失收敛情况如图所示:

0cd69cea-e89f-11ed-ab56-dac502259ad0.png

3. 可支持本地 CPU int4 推理、消费级 GPU 推理

大模型通常具有数百亿参数量,提高了使用门槛。为了让更多用户使用 Linly-ChatFlow 模型,开发团队在项目中集成了高可用模型量化推理方案,支持 int4 量化 CPU 推理可以在手机或者笔记本电脑上使用,int8 量化使用 CUDA 加速可以在消费级 GPU 推理 13B 模型。此外,项目中还集成了微服务部署,用户能够一键将模型部署成服务,方便二次开发。

未来工作

据透露,伶荔说系列模型目前仍处于欠拟合,正在持续训练中,未来 33B 和 65B 的版本或将带来更惊艳的性能。在另一方面,项目团队不仅公开了对话模型,还公开了中文基础模型和相应的训练代码与数据集,向社区提供了一套可复现的对话模型方案,目前也有团队基于其工作实现了金融、医学等领域的垂直领域对话模型。

在之后的工作,项目团队将继续对伶荔说系列模型进行改进,包括尝试人类反馈的强化学习(RLHF)、适用于中文的字词结合 tokenizer、更高效的 GPU int3/int4 量化推理方法等等。伶荔项目还将针对虚拟人、医疗以及智能体场景陆续推出伶荔系列大模型。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222933
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261504
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45566
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255

原文标题:“伶荔”(Linly) 开源大规模中文语言模型

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    为助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1015次阅读

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

    。   借助全新的 NVIDIA Cosmos 世界基础模型,开发者可以生成多样化数据,从而大规模加速物理 AI 模型的训练。   来自斯 坦福大学、苏黎世
    的头像 发表于 09-30 09:52 2783次阅读
    NVIDIA 利用全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>与仿真库加速机器人研发进程

    TensorRT-LLM的大规模专家并行架构设计

    之前文章已介绍引入大规模 EP 的初衷,本篇将继续深入介绍 TensorRT-LLM 的大规模专家并行架构设计与创新实现。
    的头像 发表于 09-23 14:42 691次阅读
    TensorRT-LLM的<b class='flag-5'>大规模</b>专家并行架构设计

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwe
    的头像 发表于 09-06 15:21 915次阅读
    <b class='flag-5'>大规模</b>专家并行<b class='flag-5'>模型</b>在TensorRT-LLM的设计

    【VisionFive 2单板计算机试用体验】3、开源语言模型部署

    1、ollama平台搭建 ollama可以快速地部署开源模型,网址为https://ollama.com, 试用该平台,可以在多平台上部署 Deepseek-R1, Qwen3, Llama
    发表于 07-19 15:45

    华为正式开源盘古7B稠密和72B混合专家模型

    关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。 盘古Pro MoE 72B模型权重、基础推理代码,已正式上线开源平台。 基于昇腾的超大规模MoE
    的头像 发表于 06-30 11:19 1111次阅读

    探索在Arm平台运行的Llama 4 Scout模型

    人工智能 (AI) 正在加速发展,也越来越智能化。当今的开源语言模型不仅功能强大,而且在设计时充分考虑了实际部署的需求,因而具有轻量化和经济高效的特点,可大规模部署到数十亿台设备上。
    的头像 发表于 05-20 09:54 593次阅读

    薄型、多频段、大规模物联网前端模块 skyworksinc

    电子发烧友网为你提供()薄型、多频段、大规模物联网前端模块相关产品参数、数据手册,更有薄型、多频段、大规模物联网前端模块的引脚图、接线图、封装手册、中文资料、英文资料,薄型、多频段、大规模
    发表于 05-15 18:32
    薄型、多频段、<b class='flag-5'>大规模</b>物联网前端模块 skyworksinc

    AI原生架构升级:RAKsmart服务器在超大规模模型训练中的算力突破

    近年来,随着千亿级参数模型的崛起,AI训练对算力的需求呈现指数级增长。传统服务器架构在应对分布式训练、高并发计算和显存优化等场景时逐渐显露瓶颈。而RAKsmart为超大规模模型训练提供了全新的算力解决方案。
    的头像 发表于 04-24 09:27 612次阅读

    5G 大规模物联网系统级封装 skyworksinc

    电子发烧友网为你提供()5G 大规模物联网系统级封装相关产品参数、数据手册,更有5G 大规模物联网系统级封装的引脚图、接线图、封装手册、中文资料、英文资料,5G 大规模物联网系统级封装
    发表于 04-11 15:21
    5G <b class='flag-5'>大规模</b>物联网系统级封装 skyworksinc

    引领少儿 AI 编程教育革新!英教育率先接入 DeepSeek

    2 月 8 日,英教育旗下核心产品 英 AI 应用平台 正式接入全球顶尖 AI 大模型 DeepSeek 。通过整合 DeepSeek 的认知决策能力和英多年积累的教育经验,将为
    的头像 发表于 02-11 13:16 1722次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 573次阅读

    一文说清楚什么是AI大模型

    目前,大模型(特别是在2023年及之后的语境中)通常特指大语言模型(LLM, Large Language Model),但其范围也涵盖其他领域的超大规模深度学习
    的头像 发表于 01-02 09:53 3954次阅读
    一文说清楚什么是AI大<b class='flag-5'>模型</b>

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    那些拥有数十亿甚至数千亿参数的大规模模型成为了现实可能。Transformer 等机制模型架构的横空出世,彻底改变了模型训练的效率和性能。 我有时在想国外为何能够在大
    发表于 12-24 13:10

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执行特定的任务。以下,是对
    的头像 发表于 12-14 10:33 1288次阅读