0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聊聊小公司如何做大模型

深度学习自然语言处理 来源:李文举说@知乎 2024-02-21 11:28 次阅读

在小公司做大模型,这个事情是可以的。

笔者在小公司,做了一年多的大模型。先列一下成绩单:

开源了目前业界可能是分类较完整(50类)、数量较大(1100+万)的SFT数据集:匠数科技大模型sft数据集[1]

通过SFT、DPO、RLHF等技术训练了领域写作模型。实测下来,在该领域写作上,强于国内大多数的闭源模型。

如何在小公司做大模型,笔者总结,有如下几点:

1、至少要有基础的硬件条件。

如果双卡3090都没有,那是比较难的。实在没有,可以说服老板,租机器训练。

2、要有选择跟进模型训练、部署的最新进展,选主流、走大道。

技术迭代太快,人力有限的情况下,不可能什么都跟进的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力将vllm搞懂用好,就够了,其他的可以了解,但不用重点关注。

再比如各种训练技术,经过验证好用的也就是那么几个。看起来过于旁门左道的论文,可以先放放,让子弹飞一会儿再说。提一点,DPO确实是小公司对齐训练的福音。

3、要坚持开放交流,多加群。

围绕llm,有很多社群,也有很多活动,可以选择性参加,但是切记切记,不要过分沉溺其中,以为这样就能紧跟时代前沿,掌握最新趋势了。假装学到很多,是很有害滴。记得前段时间不是有个什么架构,号称取代transformer吗?铺天盖地的宣传,笔者当时也听了作者的线上分享。现在呢?自己连个像样的模型都没搞出来。纯纯浪费太多精力。相信时间会证明一切。

4、要针对业务场景解决问题,不要陷入llm崇拜。

这种现象典型的就是不是llm的工作就提不起神,不想做。实话实说,这是病,得治。笔者根据业务问题需求,开源的cutword[2],就是为了替代jieba的新一代分词工具,同时,ner类型和效果都是目前开源中一流的,也收获了大家的认可。

解决问题才是关键。不能有了llm这个锤子,看什么都是钉子。具体问题具体分析的能力很重要。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1103

原文标题:如何在小公司做大模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ASML任命新CEO,带领公司走向未来

    据了解,福奎特将延续文宁克制定的战略方向。十余年前,文宁克接手ASML时,这家荷兰小公司如今已成长为全球顶尖半导体制造商的重要合作伙伴。
    的头像 发表于 04-25 16:34 320次阅读

    运营商大模型,数字中国的一枚“落子”

    中国并不缺大模型,为什么运营商还要做大模型
    的头像 发表于 01-23 09:11 1929次阅读
    运营商大<b class='flag-5'>模型</b>,数字中国的一枚“落子”

    聊聊嵌入式软件分层

    今天以控制LED闪烁为例,聊聊嵌入式软件分层
    的头像 发表于 12-28 09:22 257次阅读

    无刷电机技术演进与高速风筒行业现状【其利天下高速风筒PCBA方案】

    在市场层面,仿佛大品牌的逐步介入将推动高速风筒行业朝着更高水平发展。对于小公司而言,保持创新并构建良好的产品生态是关键。观察这个行业的动态,我相信未来将迎来更多的技术革新和市场变革,而小公司有望在这场高手如云的竞技中脱颖而出。
    的头像 发表于 12-27 21:40 636次阅读
    无刷电机技术演进与高速风筒行业现状【其利天下高速风筒PCBA方案】

    适合小公司的自动化部署脚本

    在小小的公司里面,挖呀挖呀挖。快挖不动了,一件事重复个5次,还在人肉手工,身体和心理就开始不舒服了,并且违背了个人的座右铭:“偷懒”是人类进步的第一推动力。
    的头像 发表于 12-19 09:52 165次阅读
    适合<b class='flag-5'>小公司</b>的自动化部署脚本

    聊聊Redis的使用案例

    今天我们来聊聊 Redis 的使用案例。
    的头像 发表于 12-13 14:13 267次阅读

    如何使用adi电容数字转化器做大屏触摸驱动?

    请问各位大神,如何使用adi电容数字转化器做大屏触摸驱动,86寸液晶屏幕;投射式电容触摸sensor!
    发表于 12-07 06:54

    如何做好电脑配置单

    电子发烧友网站提供《如何做好电脑配置单.doc》资料免费下载
    发表于 11-15 09:18 1次下载
    <b class='flag-5'>如何做</b>好电脑配置单

    HTTPS是如何做安全认证的

    想必大家对 HTTPS 都有一定的了解吧。今天将给大家聊聊 HTTPS 是如何做安全认证的。HTTPS 是 HTTP 的一个扩展,允许计算机网络中的两个实体之间进行安全通信。HTTPS 使用TLS
    的头像 发表于 10-09 15:54 635次阅读

    一站式PCBA包工包料服务具有哪些明显的优势呢?

    在一些初创型企业、方案公司、或者是小公司来讲,选择PCBA加工(通俗来讲就是PCBA包工包料)是比较常见的。
    发表于 08-03 09:48 314次阅读

    为什么NCP1654不能做大功率而L4981可以?

    为什么NCP1654不能做大功率的而L4981可以做大功率的
    发表于 07-31 15:07

    聊聊 220V交流 过零检测

    聊聊过零检测,以及如何实现过零检测 ...... by 矜辰所致
    的头像 发表于 06-06 11:20 3247次阅读
    <b class='flag-5'>聊聊</b> 220V交流 过零检测

    基于Transformer做大模型预训练基本的并行范式

    在之前的内容中,我们已经介绍过流水线并行、数据并行(DP,DDP和ZeRO)。 今天我们将要介绍最重要,也是目前基于Transformer做大模型预训练最基本的并行范式:来自NVIDIA的张量模型
    的头像 发表于 05-31 14:38 1710次阅读
    基于Transformer<b class='flag-5'>做大</b><b class='flag-5'>模型</b>预训练基本的并行范式

    聊聊Netty那些事儿之从内核角度看IO模型

    从今天开始我们来聊聊Netty的那些事儿,我们都知道Netty是一个高性能异步事件驱动的网络框架。
    的头像 发表于 05-23 10:27 1094次阅读
    <b class='flag-5'>聊聊</b>Netty那些事儿之从内核角度看IO<b class='flag-5'>模型</b>