0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新火种AI|2024乍到,会成为小模型的当打之年吗?

新火种 来源:新火种 作者:新火种 2024-01-10 22:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群


作者:小岩

编辑:美美

乘着ChatGPT爆火的东风,2023年成为了当之无愧的“大模型爆发之年”。跟随ChatGPT的脚步,诸多大厂和知名企业推出了自己的AI大模型。也正因此,大模型赛道的竞争变得异常激烈,烧钱的势头也变得异常凶猛。

不过,这样的趋势很可能在2024年产生变化。每个事物的发展都要经历“产生,发展,高潮,低谷”的阶段,已经在2023年大放异彩,涌现无数高光时刻的大模型很可能在2024年渐渐冷却,褪掉光环,而小模型,则有可能成为今年的破局之道。

“大模型虽然亮眼,但企业对这些技术的采用几乎没有实质性的增长”。

众所周知,在高新技术和烧钱测试的加持下,大模型产品的表现变得十分突出,整个赛道也卷的出奇。但可惜的是,这些花大力气砸出来的优秀大模型产品很难成功变现。

根据印度IT巨头Infosys的最新发现,只有6 %的欧洲公司通过生成式AI用例创造了商业价值。麦肯锡也在2023年的一份报告中得出结论,“尽管生成式AI的使用可能会刺激其他人工智能工具的采用,但我们认为,企业对这些技术的采用几乎没有实质性的增长。”

而资本市场对于大模型AI的态度也不乐观。从融资规模来看,生成式AI的投资浪潮是一次“短暂繁荣”,尽管头部以及率先抢占先机的AI公司获得了不少资本的青睐,但后续的AI公司如果想要收获资金,并不容易。根据Crunchbase数据显示,2023 年,人工智能独角兽公司的融资大幅下降,仅为 2021 年市场高峰时的25 %左右;全球最活跃的9大 VC 在AI独角兽公司的投资也是大幅下降。

究其原因,这并不难理解。潮水退去,方知谁在裸泳。投资者都是趋利避害的,自然想看到自己投资的AI公司产出尽可能多的利润。在这种情况下,针对AI的投资泡沫会越来越少,据此,AI公司试错的成本将大大提高。

大模型发展即将受阻,小模型能否顺势而为,迎来自己的井喷元年?

在这种情况下,AI模型需要朝着效率更高,成本更低的方向去发展。从这个角度去说,小模型很可能比大模型更实用,更方便。

Snorkel AI曾做过一个试验,分别用GPT-3微调和自己搭建的小模型来训练一个法律领域的垂直模型。GPT-3的微调和搭建成本是7418美元,10000推理的花费是173美元,而自己搭建的小模型成本仅为1915美元,10000次推理也只是花费了0.26美元。从正确率来看,GPT-3微调的垂直模型正确率为71.4 %,小模型则为71.3 %。

值得一提的是,GPT-3的参数量很大,是小模型的1400倍。我们当然不能因为GPT-3微调的正确率与小模型的正确率相似就妄下结论,认为“参数量没用”。不过,这或许就是“杀鸡焉用牛刀”的道理,就像《华尔街日报》提到的那句玩笑,用GPT-4总结电子邮件就像“让兰博基尼送披萨”。毕竟,在很多场景下,用户需要的并没有那么多。

目前,国内的AI领域也在面临相同的状况。

如今,国内已经发布的所谓“大模型”超过200个,“百模大战”进行的如火如荼。而处于头部的几个大模型都曾宣称自己的参数规模超千亿级别,有的甚至达到了万亿的规模。

但规模只要够大,就一定够好吗?未必。百度的李彦宏曾经说过,“100多个大模型浪费社会资源……尤其在中国算力还受限制情况下,企业应该去探索各行各业的应用结合,全新的 APP产品可能性等。”

事实上,与李彦宏持有相同观点的人并不在少数。相较于要把AI模型的规模不断做大这件事,大家更应该关注如何将模型更好的应用到实处。不是大模型做不起,而是小模型更具性价比。

做小模型的本质,其实是在做离用户更近的模型。

更重要的是,从某种层面来说,更好操作,更低成本的小模型或许更能匹配C端用户的核心诉求。

大模型看似高大上,但却存在成本高,个性化不足的问题。如果大模型可以变小,甚至直接走进移动端,将模型塞进手机,智能汽车,机器人等设备,那么一定会大大提高C端用户的黏着度。特别是从创业角度来看,搭建离用户更近的模型自然也更有生存空间,因为他们离用户更近。

事实上,很多企业已经将这样的策略提上了日程。有媒体报道,早在2022年初,阿里巴巴达摩院,上海浙江大学高等研究院,以及上海人工智能实验室的联合研究团队通过蒸馏压缩和参数共享等技术手段,将3.4亿参数的M6模型压缩到了百万参数,其规模只有以大模型的三十分之一,却保留了大模型90 %以上的性能。当然,2022年的3.4亿,较今天的大模型规模来看不算太大,但这个举动无疑为“大规模瘦身”开了一个好头。

2023年初,关于AI大模型的竞争逐渐激烈,局面逐渐焦灼,最终演变成了一场声势浩大的模型竞赛。如今,潮水褪去,在耗费了大量金钱,人力,时间成本之后,愈来愈多的AI公司悟出了一个道理:如何“变大”并不是关键,关键在于要如何“既大又好”,更重要的是,当大模型进入应用环节,如何该做到“以小驭大。

如同区块链行业一样,野蛮生长之后势必会迎来监管的压力,AI也将面临同样的状况。如今,随着AI影响力的增强,相关的问题也开始凸显譬如Midjourney + Elevenlabs 生成的假新闻就引起过极大的影响。

此外,AI大模型的推进将消耗掉大量的资源。有新闻报道,到2027年,全球的AI需求可能会消耗掉66亿立方米的水资源,几乎相当于美国华盛顿州全年的取水量。AI对环境和能源可能造成的影响会对AI行业造成一定的经济压力和政治压力。到了那时,如何用更少的数据,更少的能源训练出更好用的模型,就成为了未来的重中之重。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41420

    浏览量

    302757
  • 人工智能
    +关注

    关注

    1821

    文章

    50385

    浏览量

    267109
  • ChatGPT
    +关注

    关注

    31

    文章

    1603

    浏览量

    10404
  • 大模型
    +关注

    关注

    2

    文章

    3811

    浏览量

    5282
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AI模型小龙虾-OpenClaw-0基础从入门实战

    “长尾、轻量、多变”的部门级业务流场景时,具有无可比拟的适用效率和性价比。 总结 “AI模型小龙虾 OpenClaw”之所以能成为零基础人群的首选,根本原因在于它精准卡位了非技术岗提效、私有
    发表于 05-06 16:04

    AI Ceph 分布式存储教程资料大模型学习资料2026

    。如何构建高性能、高吞吐、高可扩展的 AI 分布式存储系统,已成为解锁大模型基建能力的核心科技命题。这不仅关乎数据存得下、读得快,更直接决定了 GPU 集群的利用率与模型训练的最终效率
    发表于 05-01 17:35

    HM博学谷狂野AI模型第四期

    在生成式 AI 浪潮席卷全球的今天,大语言模型(LLM)已成为技术圈的显学。然而,绝大多数开发者仍停留在“调用者”的层面——通过 API 发送 Prompt,接收文本回复。这种“黑盒”式的应用开发
    发表于 05-01 17:30

    黑马-Java+AI新版V16零基础就业班百度云网盘下载+Java+AI全栈开发工程师

    ,要么主动将 AI 能力深度融入 Java 技术体系,成为具备“传统架构 + 智能增强”双重竞争力的融合型工程师。Java+AI 融合开发并非简单的 SDK 调用,而是一套从架构模式、数据流设计
    发表于 05-01 11:29

    [完结15章]Java转 AI高薪领域必备-从01通生产级AI Agent开发

    开发者无可替代的底座优势。 二、 拥抱新范式:从同步阻塞到流式与反应式架构 传统的Java Web开发多基于HTTP的同步请求-响应模型,但在与AI模型交互时,这种模型
    发表于 04-30 13:46

    Java转 AI高薪领域必备 从01通生产级AI Agent开发 教程资料

    砍向这些高替代率、低附加值的基础开发岗位。继续在CRUD里死磕,就如同在一条通胀率远超收益率的赛道上狂奔,投入的每一分精力都在经历边际收益递减。 二、 AI Agent的商业破局:从“代码执行者”
    发表于 04-29 17:08

    AI模型微调企业项目实战课

    业、守规矩、可完全掌控的专属 AI 底座,已经成为头部企业的隐性共识。 二、 核心破局:微调——用极低成本撬动专业能力 很多企业对“自主训练大模型”存在误解,认为这需要像顶级科技巨头那样,耗费千万算力
    发表于 04-16 18:48

    NVIDIA Jetson模型赋能AI在边缘端落地

    开源生成式 AI 模型不再局限于数据中心,而是开始深入现实世界的各种机器中。从 Orin Thor,NVIDIA Jetson 系列正在成为
    的头像 发表于 03-16 16:27 685次阅读
    NVIDIA Jetson<b class='flag-5'>模型</b>赋能<b class='flag-5'>AI</b>在边缘端落地

    基于ETAS嵌入式AI工具链将机器学习模型部署量产ECU

    AI在汽车行业的应用日益深化,如何将机器学习领域的先进模型(如虚拟传感器)集成ECU软件中,已成为业界面临的核心挑战。
    的头像 发表于 12-24 10:55 6426次阅读
    基于ETAS嵌入式<b class='flag-5'>AI</b>工具链将机器学习<b class='flag-5'>模型</b>部署<b class='flag-5'>到</b>量产ECU

    AI模型的配置AI模型该怎么做?

    STM32可以跑AI,这个AI模型怎么搞,知识盲区
    发表于 10-14 07:14

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片AGI芯片

    、现阶段更智能、更接近AGI的6中算法与模型 1、MoE模型 MoE模型作为Transfomer模型的后继者,代表着AI技术的一项重大创新和
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    在人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,
    发表于 07-04 11:10

    如何赋能医疗AI模型应用?

    “百模大战”。不仅如此,这些通用AI模型还逐渐渗透各个垂直行业中,其中生命科学和医疗健康行业成为了拓展速度较快的一个领域。从2023年2月至10月初,国内市场上
    的头像 发表于 05-07 09:36 821次阅读
    如何赋能医疗<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>应用?