0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能开源大模型baichuan-7B技术改进

深度学习自然语言处理 来源:深度学习自然语言处理 2023-06-17 14:14 次阅读

baichuan-7B 主要是参考LLaMA进行的改进,且模型架构与LLaMA一致。而在开源大模型中,LLaMA无疑是其中最闪亮的星,但LLaMA存在如下问题:

LLaMA 原生仅支持 Latin 或 Cyrillic 语系,只使用了少量中文数据集进行训练,因此,对于中文支持不是特别理想。

原版LLaMA模型的词表大小是32K,仅有少量中文词,对于中文的解码效率较低。

baichuan-7B的改进如下:

效果改进:用于提升模型的效果以及解码效率。

分词改进:词表大小为64K(使用2000万条以中英为主的多语言语料训练分词模型,显著提升对于中文的压缩率),而LLaMA词表大小为32K。

数据集改进:使用了大约 1.2T 中英 tokens 进行训练(基于开源的中英文数据和自行抓取的中文互联网数据以及部分高质量知识性数据进行的数据清洗),而 LLaMA 7B 使用 1T 英文 tokens 进行训练。

技术改进:用于提升训练稳定性和吞吐量。

算子优化技术:采用更高效算子,如 Flash-attention,NVIDIA apex 的 RMSNorm 等。

算子切分技术:将部分计算算子进行切分,减小内存峰值。

混合精度技术:降低在不损失模型精度的情况下加速计算过程。

训练容灾技术:训练平台和训练框架联合优化,IaaS + PaaS 实现分钟级的故障定位和任务恢复。

通信优化技术,具体包括:

采用拓扑感知的集合通信算法,避免网络拥塞问题,提高通信效率。

根据卡数自适应设置 bucket size,提高带宽利用率。

根据模型和集群环境,调优通信原语的触发时机,从而将计算和通信重叠。

此外,该模型开源可商用,也算是一个优势吧。

可以看到,现在的大模型,从算法层面改进的空间似乎很小了,更多的是从工程和数据层面上进行改进从而来提升其性能。

最后,希望国产大模型越来越好~~
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 带宽
    +关注

    关注

    3

    文章

    818

    浏览量

    40126
  • 开源
    +关注

    关注

    3

    文章

    2985

    浏览量

    41718
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47686

原文标题:百川智能开源大模型baichuan-7B剖析

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    [开关插座] 关于双控开关智能化改造(智能开关如何实现双控)

    传统机械双控开关之间也无需增加任何布线,降低了改造难度和成本,满足双控及多控的要求,有利于智能开关的推广和普及。 1.什么是双控开关? 双控开关是一种将两个单刀双掷开关(开关A、开关B)串起来,从而实现
    发表于 02-18 17:38

    wifi智能开关和zigbee智能开关有哪些区别

    才能够使用,其实不然,随着现在WIFI的普及和5G技术的发展,智能家居也慢慢的走进了大众的视野,只需要一个智能插座或者是音箱,就可以实现智能生活。
    发表于 07-09 11:22

    wifi智能开关和zigbee智能开关有哪些区别?

    Wireless Fidelity,又称802.11b标准,也叫做WIFI或是WLAN功能。WIFI智能开关是应用最广泛的无线通信技术,也是目前传输速度最快的的无线技术;不过也存在成本
    发表于 09-06 14:54

    高性能开源伺服器ODRIVE的规格是什么?

    高性能开源伺服器ODRIVE的规格是什么?
    发表于 09-30 06:38

    请问里面的mtmn库能开源吗?

    请问里面的mtmn库能开源吗?
    发表于 03-13 07:49

    中国人工智能开源软件前生今生到底如何?

    为推动人工智能开源软件快速而健康的发展,中国人工智能开源软件发展联盟召集中国电子技术标准化研究院、上海软件中心、北京大学、微众银行、蚂蚁金服、京东等企事业单位,研究梳理人工智能开源软件
    的头像 发表于 07-11 16:27 5421次阅读

    WIFI智能开源电热水器的原理图和源代码免费下载

    本文档的主要内容详细介绍的是WIFI智能开源电热水器的原理图和源代码免费下载。
    发表于 11-01 17:54 46次下载
    WIFI<b class='flag-5'>智能开源</b>电热水器的原理图和源代码免费下载

    什么是智能开关,智能开关的原理是怎样的

    本文我们将浅谈(零火)智能开关和(单火)智能开关的工作原理和优势区别。在探讨这两类产品之前,小编先带大家了解一下"什么是智能开关?"
    的头像 发表于 10-12 16:07 2.7w次阅读
    什么是<b class='flag-5'>智能开</b>关,<b class='flag-5'>智能开</b>关的原理是怎样的

    汽车智能开源分享

    电子发烧友网站提供《汽车智能开源分享.zip》资料免费下载
    发表于 12-13 09:56 0次下载
    汽车<b class='flag-5'>智能开源</b>分享

    GeekPad智慧屏智能开关评测:一个体验感拉满的智能开关!

    GeekPad智慧屏智能开关评测:一个体验感拉满的智能开关!
    的头像 发表于 02-22 09:48 1583次阅读
    GeekPad智慧屏<b class='flag-5'>智能开</b>关评测:一个体验感拉满的<b class='flag-5'>智能开</b>关!

    手势识别功能开源案例

    电子发烧友网站提供《手势识别功能开源案例.zip》资料免费下载
    发表于 07-11 17:05 2次下载
    手势识别功<b class='flag-5'>能开源</b>案例

    百川智能获阿里腾讯小米等3亿美元投资

    百川智能推出了4款开源baichuan-7b/13b、baichuan 2-7b/13b的免费商用产品和baichuan-53b、
    的头像 发表于 10-17 10:15 513次阅读

    百川智能发布超千亿大模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 418次阅读

    高通推出第三代骁龙7+移动平台

    高通技术公司重磅推出了全新的第三代骁龙®7+移动平台,这一创新成果成功将终端侧生成式AI技术引入至骁龙7系,开启了全新的智能时代。这款移动平台不仅兼容众多AI模型,如
    的头像 发表于 03-22 14:13 580次阅读

    【机器视觉】欢创播报 | 百度智能云发布千帆大模型一体机

    谢广军表示,千帆大模型一体机是软硬一体化的企业专属大模型解决方案,提供了开箱即用的大模型工具链。在核心功能方面,千帆大模型一体机预置了百度自研的文心大
    的头像 发表于 04-11 10:49 196次阅读
    【机器视觉】欢创播报 | 百度<b class='flag-5'>智能</b>云发布千帆大<b class='flag-5'>模型</b>一体机