0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百川的大模型KnowHow介绍

深度学习自然语言处理 来源:李rumor 2023-09-18 10:28 次阅读

来自:李rumor

大模型是一个实验工程,涉及数据清洗、底层框架、算法策略等多个工序,每个环节都有很多坑,因此知道如何避坑和技术选型非常重要,可以节省很多算力和时间。

近期百川智能发布了Baichuan2的7B和13B版本,可能不少卷友被刷屏惯了没有仔细看,他们在放出模型的同时也给了一份技术报告,里面干货满满,因此我自来水一波,带大家一起看看百川积累的KnowHow。同时也有一些我没完全懂的地方,希望抛砖引玉,可以一起在评论区讨论。

Pre-train

数据

数据多样性

从不同的来源获取数据,最好建立一个类目体系,可以提升对整体数据分布的把控,方便后续增减。

进行聚类和去重,可以通过LSH局部敏感或者稠密向量作为聚类特征,LSH更快一些,但向量可以更好地编码语义。但这里有个问题是需要卡阈值,去重过猛会影响多样性降低泛化能力。因此百川选择的做法是去除一部分,并对剩余的样本打分,作为预训练时采样的权重。

整体去重的流程如下(这里我没太懂的是为何把Document去重放在最后一步,如果放在前面的环节应该可以显著减少句子和段落的数据量):

51a60930-52f0-11ee-a25d-92fbcf53809c.png

数据质量

采用句子级别的分类器进行过滤,这个是业内常用做法了,但具体用什么数据训练,用什么标准标注没有细说。

对于内容安全,用规则和模型洗掉有害内容,还额外找了一些正向价值观的数据源,提升采样概率。

模型结构

Tokenizer

Tokenizer的难点是平衡压缩比和词表尺寸,比如频繁出现的几个中文是可以用1个token表示的,这样inference时就会很快,但合并的话这几个中文字单独的embedding训练可能就不充分,跟其他字组合时语义表示会不够好。

因此百川使用BPE,选择了比较折中的12万大小,同时披露了以下细节:

对原始数据不做任何归一化

把数字完全拆开,可以更好理解数值数据

为了代码数据,专门增加空格token

覆盖率在0.9999,只有少量fall back(一种避免OOV的方法,在碰到unknown中文时会变成utf8的byte token)

位置编码

由于有外推的需求,最近位置编码有很多新的工作,比较火的当属RoPE和ALiBi,这里百川都用了,因为他们实验发现位置编码并没有显著影响模型表现,同时进行了速度优化:

RoPE + Flash Attention

ALiBi + xFormers

激活函数

采用了表现更好的SwiGLU,由于SwiGLU有三个矩阵,引入了更多参数,因此百川缩小了FFN层的尺寸(4->8/3再处理成128的倍数)。

Normalisations

对Transformer的输入采用LayerNorm,对warm-up更鲁棒

采用了RMSNorm的实现,指计算输入特征的方差,提升计算效率

混合精度

采用BF16,因为其具有更大的范围,可以让训练更稳定,但对于位置编码、优化器等,采用全精度。

提升稳定性

NormHead:对输出的表示进行归一化。首先低频token的模会在训练中变小,进行归一化后可以提升稳定性。另外百川通过对输出表示聚类,发现cosine距离可以将相似语义的聚到一起而L2距离不行,归一化可以消除最终计算logits时点乘中L2的影响。从实验结果可以明显发现loss收敛更好更稳定。

Max-z loss:在训练过程中,百川发现模型的logits都很大,这样就会对解码时的超参数鲁棒性较低,因此增加max-z loss拉低logits的值。

注:对于预训练的优化解读跳过了Infra的部分,不是那么懂。。

Alignment

SFT

数据质量:采用抽检的方式进行质量把控,抽一批数据检查,不合格全部退回。

数据数量:100k(目前开源SFT数据还是挺多的,不知道百川出于什么考虑

Reward Model

Prompt多样性:构造了一个200+细分类目的数据体系,尽可能覆盖用户需求,同时提升每类prompt多样性,从而提升泛化能力

Response多样性:用不同尺寸和阶段的百川模型生成答案,不使用其他开源模型(经验证无法提升RM准确率)

PPO

预先对critic模型进行了warmup

为提升RL稳定性,进行梯度裁剪

安全

由于模型开源,百川在内容安全上非常细致,包括:

聘请10位专业审核人员构建了100+安全类目

用50人的标注团队构建了200K攻击指令

对于攻击指令,生产多样性很大的回答

总结

Baichuan2的效果比第一版提升了很多,在推理任务上效果翻倍,是目前开源模型中过了最多中文语料的模型。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4455

    浏览量

    90756
  • 开源
    +关注

    关注

    3

    文章

    2985

    浏览量

    41718
  • 函数
    +关注

    关注

    3

    文章

    3868

    浏览量

    61309
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1104

原文标题:总结

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    白海科技与百川智能顺势而为、携手共进,助力领域大模型应用快速落地

    (2023年08月08日,中国北京讯)近日,AI基础软件服务商白海科技与国内领先的AGI服务企业百川智能宣布达成战略合作协议。这次合作旨在加速大语言模型在各行各业的应用,并为客户提供智能高效
    的头像 发表于 08-08 14:23 755次阅读

    求详细介绍cost-231 Hata模型和Okumura-Hata模型

    大神们,谁有详细介绍cost-231 Hata模型和Okumura-Hata模型的资料啊,泪奔求共享{:4:}
    发表于 03-22 15:51

    Android热修复技术选型

    在原理各有不同,适用场景各异,到底采用哪种方案,是开发者比较头疼的问题。本文希望通过介绍QQ空间补丁、Tinker以及基于AndFix的阿里百川HotFix技术的原理分析和横向比较,帮助开发者更深
    发表于 04-29 09:47

    并行编程模型有什么优势

    并行编程模型是并行计算,尤其是并行软件的基础,也是并行硬件系统的导向,在面临多核新挑战的情况下,什么样的并行编程模型在未来能成为主流,还很难说。至少到目前,还处于家争鸣的时代,很多模型
    发表于 07-11 08:03

    奥的斯服务器显示spb,新版奥的斯故障代码全.doc 精选资料分享

    新版奥的斯故障代码全.doc天天快乐?OVF402,OVF404,OVF406驱动器故障代码 ??海纳百川332874754?? 2013.5.21.000?POWER?ON:驱动器供电正常
    发表于 09-06 09:00

    软件使用期限管理,超过设定时间软件无法使用,需更新延期文件,修改电脑时间也没用

    本帖最后由 海纳百川117 于 2022-1-26 11:24 编辑 软件使用期限管理,超过设定时间软件无法使用,必需更新延期文件,修改电脑时间也没用配套延期文件生成工具,延期文件附带加密,手动打开会是乱码
    发表于 01-26 09:20

    最近写的一个dbc文件转Excel的小工具,软件加了时间使用限制,欢迎大家破解交流!

    本帖最后由 海纳百川117 于 2022-2-23 16:29 编辑 最近写的一个dbc文件转Excel的小工具,可以将报文信息保存到Excel,软件加了时间使用限制功能,到2022.5.23就不能再使用,使用的是延期文件的方式,欢迎各位破解交流!
    发表于 02-23 16:25

    百川ESD产品简介 2017版

    百川ESD产品简介
    发表于 10-09 16:26 0次下载

    海基新能源再获百川股份资金加持

    海基新能源为百川股份参股公司,此次增资前,百川股份合计持股26.55%。百川股份表示,本次增资有利于扩大海基新能源锂电项目产能规模,满足其未来发展对资金的需求。
    的头像 发表于 12-28 10:11 3459次阅读

    百川智能获阿里腾讯小米等3亿美元投资

    百川智能推出了4款开源baichuan-7b/13b、baichuan 2-7b/13b的免费商用产品和baichuan-53b、baichuan 2-53b的闭源大模型,平均每28天推出一次新的大模型
    的头像 发表于 10-17 10:15 514次阅读

    寒武纪的思元(MLU)云端智能加速卡与百川智能完成大模型适配,携手创新生成式AI

    近日,寒武纪思元(MLU)系列云端智能加速卡与百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面适配,寒武纪思元(MLU)系列产品
    的头像 发表于 11-06 20:32 873次阅读
    寒武纪的思元(MLU)云端智能加速卡与<b class='flag-5'>百川</b>智能完成大<b class='flag-5'>模型</b>适配,携手创新生成式AI

    百川智能发布Baichuan2 Turbo系列API,或将替代行业大模型

    在当天的媒体沟通会上,百川智能创始人、CEO王小川,百川智能联合创始人、联席总裁洪涛,百川智能技术联创陈炜鹏及百川智能商用业务部总经理李剑共同出席,为「甲子光年」等媒体解答了
    的头像 发表于 12-20 16:54 591次阅读

    搜索出生的百川智能大模型RAG爬坑之路总结

    今天对百川的RAG方法进行解读,百川智能具有深厚的搜索背景,来看看他们是怎么爬RAG的坑的吧~
    的头像 发表于 01-05 15:02 843次阅读
    搜索出生的<b class='flag-5'>百川</b>智能大<b class='flag-5'>模型</b>RAG爬坑之路总结

    百川智能发布超千亿大模型Baichuan 3

    百川智能近日发布了超千亿参数的大语言模型Baichuan 3,引发了业界的广泛关注。这款模型在多个权威通用能力评测中表现卓越,展现了其强大的语义理解和生成能力。
    的头像 发表于 01-31 14:58 418次阅读

    百川智能与北京大学将共建通用人工智能联合实验室

    近日,百川智能与北京大学携手合作,共同签署了“北大——百川通用人工智能联合实验室”的共建协议,标志着双方在人工智能领域迈出了坚实的合作步伐。
    的头像 发表于 03-21 11:45 397次阅读