0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国内大模型争霸赛,你最看好哪家?

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-19 16:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

OpenAI Vs Google

e597a338-f620-11ed-90ce-dac502259ad0.png

目前大模型 top2 应该就是 OpenAI 的 GPT-4,以及谷歌的PALM-2。这两家公司早已布局,而且技术实力雄厚。国内大模型和 GPT-4 相比,还是有比较大的差距。

但是国内的势头目前不错,百家齐鸣,还没有一家有绝对的优势。

让人头晕的排名

e5a19d3e-f620-11ed-90ce-dac502259ad0.png

之前有媒体给出了目前国内Top-5的大模型公司,分别是:百度的文心一言、阿里的通义千问、腾讯的混元、华为的盘古以及360的智脑。

而最近,中文通用大模型基准(SuperCLUE)评测公布了最新结果,GPT-4 遥遥领先,而国内成绩最好的是科大讯飞的星火认知大模型。这里面文心一言居然排在了最后一名,甚至比ChatGLM-6B的得分还低,实在难以置信。

e5aa4c36-f620-11ed-90ce-dac502259ad0.png

但是我又仔细看了一下这个评测。妈呀,评测集是SuperCLUE,而非SuperGLUE。

众所周知,在国际NLP领域,有大名鼎鼎的数据集 GLUE 和 SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了 NLP 领域的发展。

这次这份 SuperCLUE 评测的发起方为 Chinese GLUE 组织 (简称 CLUE),CLUE 是仿照 GLUE由国内民间组织的评测,权威度和影响力与 GLUE 相比差很远,其微信账号主体属性为个人。但这也迷惑了不少圈内人,GLUE和 CLUE 分不清楚,堪称李逵和李鬼。

还有一点存疑,评测榜单发布当天5月9日,其官网显示信息,中文基准测评成员顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员。而5月10日,官网已删除此条顾问的信息。

而001号创始会员徐亮,是会长,相当于这个榜单的实际负责人。昵称 brightmart,中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。

徐亮还有另一个身份,在5月9日官网中显示,他是杭州实在智能算法专家,也就是元语智能的创始人,曾在2月份发布自称“国内首个功能对话大模型ChatYuan”,不仅无法测试,发布几天即被监管叫停。4月,又被报道套壳推出开源组件。有分析人士认为,不排除创业公司有融资压力,蹭热度吸引投资人关注。

该 SpuerClue 榜单发起方,001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后,担心行业质疑其公平、公正,相关信息还被删除。这就有点不言而喻了。

仅用100道评测题目就出来了一份“权威报告”

最后来说下这个榜单本身,业内人士一眼就可以看出来,评测的很不合理,首先,没有公布评估数据,以及具体的评估方式。同时从它的公开表述,可推断总共题目就 100 道题目。这个题目量少到难以置信。专业人士可能有参与过,像国际权威 SuperGlue 榜单,题目一般都得有 2 万多道,离权威可是差了几万倍。况且,它的评测得分榜首都是人类,那这个评分的基准到底是什么?是否有很多主观性因素在里面?是否某些大模型提前在这个数据集上已经训练过?

任务设计太武断,所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事。以往,CLUE 中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证。

要么别比,要比就来点正规的比赛。自己出题自己考,说不准还抢跑,自己还是评委,那这是欺不负了解真相的吃瓜群众。投机取巧,终皆散去。苦练内功,才是王道。

国内大模型排名(仅供参考)

抛开这些,从模型规模、模型效果、市场占有率等多个角度,百度的文心一言、华为的盘古、阿里的通义千问、腾讯的混元排在前四,应该是比较合理的,至于后面的排名,就不大能保证了。不过下面的排名也可以参考一下:

e5b3b104-f620-11ed-90ce-dac502259ad0.png

下面是一份完整的名单:

e5b8a9b6-f620-11ed-90ce-dac502259ad0.png

e5c31432-f620-11ed-90ce-dac502259ad0.png

按发布时间排序:

e5c914ea-f620-11ed-90ce-dac502259ad0.png

百度:文心一言

作为国内最早发布的大模型,百度的文心一言在今年3月16号就发布了,随后经过了多个版本的迭代。目前已经有上千家企业接入。文心一言支持图片、语音等多模态。

3月16日,百度在全球大厂中率先发布对标 ChatGPT 的大模型产品文心一言。据了解,文心一言内测一个多月,就完成了4次大的技术升级,大模型推理性能提升近10倍。

李彦宏在5月4日百度内部活动中表示,百度之所以能够在Google、Meta、Amazon等大厂之前率先发布生成式大模型产品,是因为百度在芯片、框架、模型、应用等四个层面做到全栈布局、层层领先。

360:360智脑

百度是国内搜索市场排名第一公司,而排名第二就是360。

大模型依靠的算力、数据、算法、场景,这两家公司都具备,这也是搜索公司的优势,有业务和数据支撑大模型研发和落地。

5月16日,360集团和智谱AI宣布达成战略合作,双方共同研发的千亿级大模型“360GLM”已具备新一代认知智能通用模型水准。

而在今天的世界智能大会上,周鸿祎展示了“360智脑”的多轮对话和“360鸿图”的AI生图两个能力。

e5d272d8-f620-11ed-90ce-dac502259ad0.png

就像谷歌和微软,一个拥有谷歌搜索,一个拥有必应。国内的百度和360,一个拥有百度搜索,一个拥有360搜索。

搜索公司应该是这场大模型争霸赛最后的赢家。(只是个人看法)

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3810

    浏览量

    52253
  • GPT
    GPT
    +关注

    关注

    0

    文章

    371

    浏览量

    16956
  • OpenAI
    +关注

    关注

    9

    文章

    1248

    浏览量

    10263

原文标题:国内大模型争霸赛,你最看好哪家?这是你心目中的大模型排名吗?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国内哪家 SLIC 芯片支持定制?思电子脱颖而出

    在当今科技飞速发展的时代,芯片作为各类电子设备的核心部件,其重要性不言而喻。对于特定行业和应用场景而言,定制化的SLIC(用户线路接口)芯片需求愈发凸显,那么国内究竟哪家SLIC芯片支持定制呢?今天
    的头像 发表于 01-20 14:49 1446次阅读
    <b class='flag-5'>国内</b><b class='flag-5'>哪家</b> SLIC 芯片支持定制?<b class='flag-5'>赛</b>思电子脱颖而出

    国内恒温晶振厂家哪家好?

    在科技飞速发展的今天,恒温晶振作为一种高精度、高稳定性的频率控制元件,在国内众多行业都有着广泛的应用。那么,国内的恒温晶振厂家究竟哪家更好呢?这是一个值得深入探讨的问题。一、技术实力是关键要评判一家
    的头像 发表于 01-08 15:42 495次阅读
    <b class='flag-5'>国内</b>恒温晶振厂家<b class='flag-5'>哪家</b>好?

    百度文心大模型5.0 Preview荣登LMArena文本榜国内第一

    12月23日,LMArena大模型竞技场发布最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名国内第一该模型在创意写作、高难度指
    的头像 发表于 12-23 15:02 658次阅读

    openDACS 2025 开源EDA与芯片题七:基于大模型的生成式原理图设计

    领域,对促进产业高质量发展具有重要意义。本项包含7道题,下面是题七 基于大模型的生成式原理图设计的介绍。 2. 命题单位及题Chai
    发表于 11-13 11:49

    百度文心大模型5.0-Preview文本能力国内第一

    11月8日凌晨,LMArena大模型竞技场最新排名显示,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中国第一该模型在创意写作、复杂长问题理解、指令遵循等方面表现突出,超过多款
    的头像 发表于 11-11 17:15 1630次阅读

    知识分享 | 使用MXAM进行AUTOSAR模型的静态分析:Embedded Coder与TargetLink模型

    知识分享在知识分享栏目中,我们会定期与读者分享来自MES模思的基于模型的软件开发相关Know-How干货,关注公众号,随时掌握基于模型的软件设计的技术知识。使用MXAM进行AUTOSAR模型
    的头像 发表于 08-27 10:04 866次阅读
    知识分享 | 使用MXAM进行AUTOSAR<b class='flag-5'>模型</b>的静态分析:Embedded Coder与TargetLink<b class='flag-5'>模型</b>

    可编程SLIC语音芯片哪家好?

    呢?思电子科技无疑是其中的佼佼者。思电子科技作为国内知名的数模混合芯片厂商,在可编程SLIC语音芯片领域展现出了强大的实力。其推出的ASX630系列芯片,堪称
    的头像 发表于 06-12 13:55 877次阅读
    可编程SLIC语音芯片<b class='flag-5'>哪家</b>好?

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI多模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有模型中,获得当前最高评级——4+级,并成为国内首家
    的头像 发表于 06-11 11:57 1550次阅读

    手表芯片多强争霸赛开启!小米玄戒T1入局,格局生变?

    电子发烧友网报道(文/莫婷婷)当前,国内可穿戴设备主控芯片市场呈现出“一超多强、梯度竞争”的竞争态势,就在5月,小米重磅推出智能手表玄戒T1,在通信性能、功耗控制和功能扩展方面展现了新的突破,标志着
    的头像 发表于 05-29 01:05 1.1w次阅读
    手表芯片多强<b class='flag-5'>争霸赛</b>开启!小米玄戒T1入局,格局生变?

    当我问DeepSeek国内压力传感器哪家强,它这样回答

    特意问DeepSeek国内压力传感器发展现状,以及国内压力传感器到底哪家强,DeepSeek这样回复我——压力传感器在工业自动化、汽车电子和医疗设备领域有着广泛应
    的头像 发表于 05-28 14:48 1683次阅读
    当我问DeepSeek<b class='flag-5'>国内</b>压力传感器<b class='flag-5'>哪家</b>强,它这样回答

    时钟系统推荐,时钟系统哪家好?思时钟系统助力中国气象科学研究院构建智慧气象网络

    时钟系统推荐,时钟系统哪家好?思时钟系统助力中国气象科学研究院构建智慧气象网络
    的头像 发表于 05-20 09:32 994次阅读
    时钟系统推荐,时钟系统<b class='flag-5'>哪家</b>好?<b class='flag-5'>赛</b>思时钟系统助力中国气象科学研究院构建智慧气象网络

    LED全息屏与LED晶膜屏:透明显示新潮流的“双雄争霸

    LED全息屏与LED晶膜屏:透明显示新潮流的“双雄争霸
    的头像 发表于 05-17 17:31 1156次阅读
    LED全息屏与LED晶膜屏:透明显示新潮流的“双雄<b class='flag-5'>争霸</b>”

    西威端侧大模型重塑智能座舱体验

    智能汽车产业发展正从规模扩张向质量跃升转变,其中大模型驱动的智能化升级将成为产业突破的核心引擎。在日前召开的2025上海车展国际汽车关键技术论坛上,德西威技术中心人工智能实验室专家张书赫博士以《端侧智能·重塑体验》为题,分享了对大模型
    的头像 发表于 05-15 09:13 1908次阅读

    西威与面壁智能发布端侧大模型语音交互方案

    日前,全球领先的移动出行科技公司德西威与端侧大模型技术领军企业面壁智能共同发布业界首个基于高通座舱平台(SA8255P,简称8255)的端侧大模型语音交互方案,这是双方自2024年12月签署战略合作协议以来发布的首个合作成果。
    的头像 发表于 05-14 17:40 1429次阅读

    当 RDK X3 遇上仓储机器人,智链团队让效率原地起飞

    仓储界现在是"卷王"争霸赛!2023年全国消费狂飙47万亿,网购更是坐火箭般涨了11%,但老派仓储还在用"人海战术",设备像戴着近视眼镜,看啥都不清不楚。别急
    的头像 发表于 04-21 01:18 979次阅读
    当 RDK X3 遇上仓储机器人,智链团队让效率原地起飞