0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聊聊小公司如何做大模型

深度学习自然语言处理 来源:李文举说@知乎 2024-02-21 11:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在小公司做大模型,这个事情是可以的。

笔者在小公司,做了一年多的大模型。先列一下成绩单:

开源了目前业界可能是分类较完整(50类)、数量较大(1100+万)的SFT数据集:匠数科技大模型sft数据集[1]

通过SFT、DPO、RLHF等技术训练了领域写作模型。实测下来,在该领域写作上,强于国内大多数的闭源模型。

如何在小公司做大模型,笔者总结,有如下几点:

1、至少要有基础的硬件条件。

如果双卡3090都没有,那是比较难的。实在没有,可以说服老板,租机器训练。

2、要有选择跟进模型训练、部署的最新进展,选主流、走大道。

技术迭代太快,人力有限的情况下,不可能什么都跟进的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力将vllm搞懂用好,就够了,其他的可以了解,但不用重点关注。

再比如各种训练技术,经过验证好用的也就是那么几个。看起来过于旁门左道的论文,可以先放放,让子弹飞一会儿再说。提一点,DPO确实是小公司对齐训练的福音。

3、要坚持开放交流,多加群。

围绕llm,有很多社群,也有很多活动,可以选择性参加,但是切记切记,不要过分沉溺其中,以为这样就能紧跟时代前沿,掌握最新趋势了。假装学到很多,是很有害滴。记得前段时间不是有个什么架构,号称取代transformer吗?铺天盖地的宣传,笔者当时也听了作者的线上分享。现在呢?自己连个像样的模型都没搞出来。纯纯浪费太多精力。相信时间会证明一切。

4、要针对业务场景解决问题,不要陷入llm崇拜。

这种现象典型的就是不是llm的工作就提不起神,不想做。实话实说,这是病,得治。笔者根据业务问题需求,开源的cutword[2],就是为了替代jieba的新一代分词工具,同时,ner类型和效果都是目前开源中一流的,也收获了大家的认可。

解决问题才是关键。不能有了llm这个锤子,看什么都是钉子。具体问题具体分析的能力很重要。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大模型
    +关注

    关注

    2

    文章

    3439

    浏览量

    4960

原文标题:如何在小公司做大模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    聊聊FPGA中的TDC原理

    今天我们不谈高大上的物理学,只聊聊如何在 FPGA 中,用一串加法器和 D 触发器,“数清楚时间”——这就是时间数字转换器(TDC)的魅力。
    的头像 发表于 09-02 15:15 897次阅读
    <b class='flag-5'>聊聊</b>FPGA中的TDC原理

    详解SPICE器件模型的分类

    今天我们来聊聊工程师在仿真时比较关注的问题。众多的器件模型,我在仿真的时候到底应该怎么选择一个器件的模型?我使用的这个器件模型的精确度够吗?我自己能否做一个器件
    的头像 发表于 08-28 13:42 942次阅读
    详解SPICE器件<b class='flag-5'>模型</b>的分类

    Gagne公司免费3D CAD工程波纹管模型下载

    新的在线工具使工程师能够以原始CAD格式配置、下载和定制波纹管,从而节省时间并提高设计精度。 精密波纹管制造领域的领先企业Gagne公司推出了新的在线配置器,帮助工程师设计、定制和下载
    发表于 08-13 14:44

    请问IR900路由器如何做端口映射?

    IR900 路由器如何做端口映射?
    发表于 08-06 08:29

    寻开发伙伴 一起搞细胞电阻仪,有兴趣的朋友来聊聊

    寻开发伙伴 一起搞细胞电阻仪,有兴趣的朋友来聊聊
    发表于 07-10 15:51

    FA模型卡片和Stage模型卡片切换

    卡片切换 卡片切换主要包含如下三部分: 卡片页面布局:FA模型卡片和Stage模型卡片的布局都采用类web范式开发可以直接复用。 卡片配置文件:FA模型的卡片配置在config.json中
    发表于 06-06 08:10

    FA模型和Stage模型API切换概述

    API切换概述 FA模型和Stage模型由于线程模型和进程模型的差异,部分接口仅在FA模型下才能使用,针对这部分接口在SDK的接口中有FA
    发表于 06-06 06:29

    从FA模型切换到Stage模型时:module的切换说明

    module的切换 从FA模型切换到Stage模型时,开发者需要将config.json文件module标签下的配置迁移到module.json5配置文件module标签下,具体差异
    发表于 06-05 08:16

    FA模型访问Stage模型DataShareExtensionAbility说明

    FA模型访问Stage模型DataShareExtensionAbility 概述 无论FA模型还是Stage模型,数据读写功能都包含客户端和服务端两部分。 FA
    发表于 06-04 07:53

    KaihongOS操作系统FA模型与Stage模型介绍

    FA模型与Stage模型介绍 KaihongOS操作系统中,FA模型(Feature Ability)和Stage模型是两种不同的应用模型
    发表于 04-24 07:27

    中国2家AI公司连发新模型赶超OpenAI

    )本身就是国内两家备受关注的人工智能大模型创业公司;一些国外网友在贴吧留言表示中国AI追赶速度越来越快。 在技术社区Hacker News,有一位开发者感叹“中国初创公司已展现出赶超美国人工智能
    的头像 发表于 01-23 17:00 1167次阅读

    【「大模型启示录」阅读体验】对大模型更深入的认知

    阅读《大模型启示录》这本书,我得说,它彻底颠覆了我对大模型的理解。作为一个经常用KIMI和豆包这类AI工具来完成作业、整理资料的大学生,我原以为大模型就是这些工具背后的技术。但这本书让我意识到
    发表于 12-20 15:46

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    在客服领域是大模型落地场景中最多的,也是最容易实现的。本身客服领域的特点就是问答形式,大模型接入难度低。今天跟随《大模型启示录 》这本书,学习大模型在客服领域的改变。选择大
    发表于 12-17 16:53

    SAR ADC如何做好布线布局?

    SAR ADC如何做好布线布局?
    发表于 12-17 08:27

    蓝牙AOA定位系统如何做到高精准度?

    蓝牙AOA定位系统是一种高精度的室内定位技术,其高精准度是通过一系列高科技的技术和方法实现的。以下是给大家分析的几点关于如何做到高精准度的几个关键点:
    的头像 发表于 12-13 11:42 935次阅读