0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国内8种大模型体验测评报告(2023)

智能计算芯世界 来源:智能计算芯世界 2023-08-21 15:48 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能大模型体验报告2.0》报告指出当前国产大模型产品已具有显著进步,讯飞星火、百度文心一言、商汤商量和智谱AI-ChatGLM均表现抢眼,但与接受过高等教育的人类相比,在智商、情商等方面仍存在一定程度差距。

报告选取360智脑、百度文心一言、澜舟 Mchat、商汤商量、讯飞星火、阿里通义千问、昆仑天工、智谱 ChatGLM 共 8 种大模型产品进行评测,根据基础能力、智商能力、情商能力、工具提取四个维度计算总分。

报告显示,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,讯飞星火在工作提效方面优势明显,百度文心一言基础能力仍处领军水准,商汤商量则在情商方面表现优秀,智谱AI-ChatGLM整体表现优秀。

针对各维度能力测评,该报告还给出了相应的案例展示和分析。

在基础能力方面,人类与AI之间的差距并不显著。课题组分别从语言能力(35%)、AI向善(10%)、跨模态(20%)和多轮对话(35%)四大指标进行测评。测评显示,科技企业大模型中,百度文心一言表现最为抢眼,商汤商量、智谱AI-ChatGLM、360智脑表现优良。

在智商评估方面,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对科技企业大模型进行考量。结果显示,讯飞星火、智谱AI-ChatGLM表现突出,百度文心一言、昆仑万维天工表现优良。

在情商方面,AI与人类之间的差距最为明显。人类在情绪理解和处理方面通常具有更强的优势,和更灵活的处理能力。通过对处理日常事项(35%)、一语双关(30%)、人际关系(35%)问题进行分析发现,科技企业大模型中,商汤商量表现亮眼,百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。

在工作效率提升方面,课题组重点在工具提效(50%)和生成创新(50%)方面进行考量。结果显示,讯飞星火表现最为抢眼,百度文心一言、商汤商量、智谱AI-ChatGLM表现优良。不过,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。

在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。在本次体验测评基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情况、产业优秀案例等维度上的探索与研究。


8c6e799a-3fb7-11ee-ac96-dac502259ad0.jpg

8c96aa82-3fb7-11ee-ac96-dac502259ad0.jpg

8cb26e98-3fb7-11ee-ac96-dac502259ad0.jpg

8cc9a55e-3fb7-11ee-ac96-dac502259ad0.jpg

8cee04e4-3fb7-11ee-ac96-dac502259ad0.jpg

8d38e482-3fb7-11ee-ac96-dac502259ad0.jpg

8d5ead5c-3fb7-11ee-ac96-dac502259ad0.jpg

8da5e230-3fb7-11ee-ac96-dac502259ad0.jpg

8dce081e-3fb7-11ee-ac96-dac502259ad0.jpg

8de89c24-3fb7-11ee-ac96-dac502259ad0.jpg

8e007768-3fb7-11ee-ac96-dac502259ad0.jpg

8e2299f6-3fb7-11ee-ac96-dac502259ad0.jpg

8e5c568c-3fb7-11ee-ac96-dac502259ad0.jpg

8e7e38d8-3fb7-11ee-ac96-dac502259ad0.jpg

8eae686e-3fb7-11ee-ac96-dac502259ad0.jpg

8ee20034-3fb7-11ee-ac96-dac502259ad0.jpg

8f073304-3fb7-11ee-ac96-dac502259ad0.jpg

8f266f8a-3fb7-11ee-ac96-dac502259ad0.jpg

8f4c71bc-3fb7-11ee-ac96-dac502259ad0.jpg

8f8e1482-3fb7-11ee-ac96-dac502259ad0.jpg

8fb0075e-3fb7-11ee-ac96-dac502259ad0.jpg

8fe6b218-3fb7-11ee-ac96-dac502259ad0.jpg

901e1cc6-3fb7-11ee-ac96-dac502259ad0.jpg

90417d24-3fb7-11ee-ac96-dac502259ad0.jpg

9072bea2-3fb7-11ee-ac96-dac502259ad0.jpg

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41107

    浏览量

    302585
  • 人工智能
    +关注

    关注

    1820

    文章

    50324

    浏览量

    266933
  • 大模型
    +关注

    关注

    2

    文章

    3771

    浏览量

    5271

原文标题:国内8种大模型体验测评报告(2023)

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小鹏汽车正式发布世界模型X-World技术报告

    近日,小鹏汽车正式发布世界模型X-World技术报告,从数据、模型、训练、验证及应用等多层面详解X-World的构建与使用。
    的头像 发表于 04-02 10:27 2426次阅读
    小鹏汽车正式发布世界<b class='flag-5'>模型</b>X-World技术<b class='flag-5'>报告</b>

    模型 ai coding 比较

    :DeepSeek 10/10(100%通过),Kimi 2/10(20%通过) 2. Debug修复能力(权重35%) 测试目标 :模型排查和修复代码问题的能力 测评数据集:DebugBench 真实
    发表于 02-19 13:43

    商汤科技日日新V6.5荣获2025年多模态大模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文多模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6.5 Pro)以75.35的总分位列
    的头像 发表于 01-06 14:44 931次阅读
    商汤科技日日新V6.5荣获2025年多模态大<b class='flag-5'>模型</b>全国第一

    云知声荣登MedAIBench优秀国产医疗大模型榜单

    12月20日,国家人工智能应用中试基地(医疗)·浙江正式发布《MedAIBench测评榜(优秀国产医疗大模型)》。在这一具备行业权威性与临床导向性的严格测评中,云知声自主研发的山海·知医大模型
    的头像 发表于 12-29 14:36 931次阅读

    百度文心大模型5.0 Preview荣登LMArena文本榜国内第一

    12月23日,LMArena大模型竞技场发布最新排名,文心新模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名国内第一该模型在创意写作、高难度指
    的头像 发表于 12-23 15:02 669次阅读

    触觉智能RK3506星闪开发板测评报告(下)

    本文基于触觉智能RK3506开发板,上集主要从性能、功耗进行测评,本集将从开发板的外设设计、EMC等可靠性性能进行测评
    的头像 发表于 12-11 17:00 1492次阅读
    触觉智能RK3506星闪开发板<b class='flag-5'>测评</b><b class='flag-5'>报告</b>(下)

    百度文心大模型5.0-Preview文本能力国内第一

    11月8日凌晨,LMArena大模型竞技场最新排名显示,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中国第一该模型在创意写作、复杂长问题理解、指
    的头像 发表于 11-11 17:15 1653次阅读

    【开源FPGA硬件】硬件黑客集结:开源FPGA开发板测评活动全网火热招募中......

    测评官选拔:2025.11.3 发货日期:2025.11.4-11.5 试用时间:截止至2025.11.28(1个月) 优秀测评报告评选时间:2025.11.30前 活动流程 申请:扫描二维码即可报名
    发表于 10-29 11:37

    使用ROCm™优化并部署YOLOv8模型

    作者:AVNET 李鑫杰 一,YOLOv8介绍? YOLOv8 由 Ultralytics 于 2023 年 1 月 10 日发布,在准确性和速度方面提供了前沿的性能。YOLOv8
    的头像 发表于 09-24 18:32 994次阅读
    使用ROCm™优化并部署YOLOv<b class='flag-5'>8</b><b class='flag-5'>模型</b>

    【作品合集】群芯闪耀Milk-V Duo S 开发板测评

    群芯闪耀Milk-V Duo S开发板测评作品合集 产品介绍: Milk-V Duo S 是 Duo 的升级型号,配备升级版 SG2000 主控制器、更大的 512MB 内存和更丰富的输入/输出功能
    发表于 09-16 11:03

    JoyAgent综合测评报告

    如何。 测试地址: https://autobots.jd.com/genie 开源代码: https://github.com/jd-opensource/joyagent-jdgenie 2.测评用例 1.从官网
    的头像 发表于 07-27 12:40 821次阅读
    JoyAgent综合<b class='flag-5'>测评</b><b class='flag-5'>报告</b>

    理想汽车荣获汽车大模型安全证书

    2025中国汽车论坛举行“智舱安言计划——汽车生成式人工智能安全测评”颁证仪式。理想汽车车载大模型荣获由CCIA汽车网络安全工作委员会颁发的《生成内容安全测评证书》,及人工智能生成合成内容标识服务
    的头像 发表于 07-18 16:10 1125次阅读

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    的大模型。 可信AI多模态大模型评估2025年1月启动,由中国信通院人工智能研究所牵头,依据由业界60余家单位共同编制的《多模态大模型技术要求和评估方法》标准开展,是国内最影响力和权威
    的头像 发表于 06-11 11:57 1564次阅读

    中兴通讯星云大模型登顶SuperCLUE推理专项榜单

    近日,中文大模型权威测评基准SuperCLUE发布《中文大模型基准测评2025年5月报告》。报告
    的头像 发表于 06-04 16:44 1582次阅读

    商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一

    卫冕“双冠”! 通用语言能力并列国内榜首、多模态能力全球最强,商汤「日日新V6」近期斩获“双料第一”。 5月28日,权威大模型测评机构SuperCLUE《中文大模型基准
    的头像 发表于 05-30 11:13 1734次阅读
    商汤科技日日新V6大<b class='flag-5'>模型</b>斩获“双料第一” 一项<b class='flag-5'>国内</b>榜首,一个全球第一