0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能开源大模型baichuan-7B技术改进

深度学习自然语言处理 来源:深度学习自然语言处理 2023-06-17 14:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

baichuan-7B 主要是参考LLaMA进行的改进,且模型架构与LLaMA一致。而在开源大模型中,LLaMA无疑是其中最闪亮的星,但LLaMA存在如下问题:

LLaMA 原生仅支持 Latin 或 Cyrillic 语系,只使用了少量中文数据集进行训练,因此,对于中文支持不是特别理想。

原版LLaMA模型的词表大小是32K,仅有少量中文词,对于中文的解码效率较低。

baichuan-7B的改进如下:

效果改进:用于提升模型的效果以及解码效率。

分词改进:词表大小为64K(使用2000万条以中英为主的多语言语料训练分词模型,显著提升对于中文的压缩率),而LLaMA词表大小为32K。

数据集改进:使用了大约 1.2T 中英 tokens 进行训练(基于开源的中英文数据和自行抓取的中文互联网数据以及部分高质量知识性数据进行的数据清洗),而 LLaMA 7B 使用 1T 英文 tokens 进行训练。

技术改进:用于提升训练稳定性和吞吐量。

算子优化技术:采用更高效算子,如 Flash-attention,NVIDIA apex 的 RMSNorm 等。

算子切分技术:将部分计算算子进行切分,减小内存峰值。

混合精度技术:降低在不损失模型精度的情况下加速计算过程。

训练容灾技术:训练平台和训练框架联合优化,IaaS + PaaS 实现分钟级的故障定位和任务恢复。

通信优化技术,具体包括:

采用拓扑感知的集合通信算法,避免网络拥塞问题,提高通信效率。

根据卡数自适应设置 bucket size,提高带宽利用率。

根据模型和集群环境,调优通信原语的触发时机,从而将计算和通信重叠。

此外,该模型开源可商用,也算是一个优势吧。

可以看到,现在的大模型,从算法层面改进的空间似乎很小了,更多的是从工程和数据层面上进行改进从而来提升其性能。

最后,希望国产大模型越来越好~~
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 带宽
    +关注

    关注

    3

    文章

    1029

    浏览量

    43025
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45566
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712

原文标题:百川智能开源大模型baichuan-7B剖析

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为宣布开源盘古7B稠密和72B混合专家模型

    关键一步,为全球开发者、企业及研究人员提供了强大的技术支撑。   华为此次开源行动涵盖三大核心板块:盘古Pro MoE 72B模型权重与基础推理代码已率先上线
    的头像 发表于 07-06 05:51 7096次阅读

    中国人工智能开源软件前生今生到底如何?

    为推动人工智能开源软件快速而健康的发展,中国人工智能开源软件发展联盟召集中国电子技术标准化研究院、上海软件中心、北京大学、微众银行、蚂蚁金服、京东等企事业单位,研究梳理人工智能开源软件
    的头像 发表于 07-11 16:27 6298次阅读

    汽车智能开源分享

    电子发烧友网站提供《汽车智能开源分享.zip》资料免费下载
    发表于 12-13 09:56 0次下载
    汽车<b class='flag-5'>智能开源</b>分享

    百川智能获阿里腾讯小米等3亿美元投资

    百川智能推出了4款开源baichuan-7b/13bbaichuan 2-7b/13
    的头像 发表于 10-17 10:15 1214次阅读

    寒武纪的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    近日,寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53BBaichuan2-13B
    的头像 发表于 11-06 20:32 2600次阅读
    寒武纪的思元(MLU)云端<b class='flag-5'>智能</b>加速卡与百川<b class='flag-5'>智能</b>完成大<b class='flag-5'>模型</b>适配,携手创新生成式AI

    百川智能发布超千亿大模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 1406次阅读

    IBM在watsonx上提供开源的Mistral AI模型

    IBM 提供 Mixtral-8x7B 的优化版本,该版本可将延迟时间最多缩短 75% IBM、第三方和开源模型的目录不断增加,为客户提供更多选择和灵活性 是 watsonx 人工智能
    的头像 发表于 03-12 19:10 1735次阅读

    高通推出第三代骁龙7+移动平台

    高通技术公司重磅推出了全新的第三代骁龙®7+移动平台,这一创新成果成功将终端侧生成式AI技术引入至骁龙7系,开启了全新的智能时代。这款移动平
    的头像 发表于 03-22 14:13 3244次阅读

    百川智能发布Baichuan 4大模型及首款AI助手“百小应”

    百川智能近日发布了其新一代基座大模型Baichuan 4,并同步推出了首款AI助手“百小应”。这款AI助手是在Baichuan 4强大能力的基础上,结合先进的搜索
    的头像 发表于 05-23 14:15 1194次阅读

    高通第三代骁龙7s移动平台发布,赋能中端智能手机以卓越AI新体验

    式AI技术,并兼容包括Baichuan-7B及拥有10亿参数的Llama 2在内的大型语言模型(LLM),极大地推动了智能手机智能化进程的新高度。
    的头像 发表于 08-21 15:42 3826次阅读

    百川智能发布Baichuan4-Finance金融大模型

    近日,百川智能正式推出了其全链路领域增强的金融大模型——Baichuan4-Finance。这一创新产品的发布,标志着百川智能在金融智能化领
    的头像 发表于 12-25 10:11 935次阅读

    百川智能发布全场景深度思考模型Baichuan-M1-preview

    1月24日,百川智能正式发布了全场景深度思考模型Baichuan-M1-preview。 Baichuan-M1-preview同时具备语言、视觉和搜索三大领域推理能力的
    的头像 发表于 01-24 14:40 1317次阅读

    百川智能发布全场景深度思考模型Baichuan-M1-preview

    近日,百川智能正式发布了国内首个全场景深度思考模型——Baichuan-M1-preview。这一创新成果标志着我国在人工智能领域取得了重要突破,特别是在语言、视觉和搜索三大领域的推理
    的头像 发表于 02-05 13:51 889次阅读

    华为正式开源盘古7B稠密和72B混合专家模型

    关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。 盘古Pro MoE 72B模型权重、基础推理代码,已
    的头像 发表于 06-30 11:19 1111次阅读

    新一代AtomGit平台暨人工智能开源社区发布

    10月28日,“共建·共智·共享——AtomGit全新升级暨人工智能开源社区发布会”在北京国家会议中心隆重举行。开放原子开源基金会携手CSDN等生态伙伴,推动平台深度融合与能力升级,聚合开源
    的头像 发表于 10-30 09:46 377次阅读