0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位

智能制造IMS 来源:智能制造IMS 2023-06-29 16:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。

766eff46-15a2-11ee-962d-dac502259ad0.png

工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。

76c72202-15a2-11ee-962d-dac502259ad0.png

五大院士,八大IEEE Fellow,共十三位顶级专家构成了专家委员会。评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。

百度文心一言在国内“最懂工业”

本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。

评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。

772c8b4c-15a2-11ee-962d-dac502259ad0.png

在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。

7776d9fe-15a2-11ee-962d-dac502259ad0.png

主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。

在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。

大模型发展新热点:丰富特定行业专业知识

虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。

实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。

关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。

当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。

比如在本次评测中位居国内模型第一的百度文心一言,与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。

通过在实际场景的探索应用,科技公司可以积攒更多的行业Know-how,扩展相关领域的数据训练集。这种外部真实反馈有助驱动大模型更加快速的实现迭代升级。

未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 南方电网
    +关注

    关注

    2

    文章

    198

    浏览量

    29953
  • 文心一言
    +关注

    关注

    0

    文章

    134

    浏览量

    2222
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269

原文标题:工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位

文章出处:【微信号:CADCAM_beijing,微信公众号:智能制造IMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度衍生模型PaddleOCR登顶GitHub Star OCR全球第

    3月30日,百度衍生模型PaddleOCRGitHub上的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 435次阅读

    太初元碁:40+AI大模型全覆盖,新版本即发即适配、上线即可用,实现国产“芯”速度

    、Qwen、GLM、Intern-S1、等在内的40+AI大模型的即发即适配,上线即可用,涵盖了DeepSeek、Qwen 、GLM、Seed-OSS、
    的头像 发表于 02-25 09:21 2019次阅读

    百度模型5.0正式版上线

    今天,百度Moment大会现场,模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1473次阅读

    百度模型5.0 Preview荣登LMArena文本榜国内

    12月23日,LMArena大模型竞技场发布最新排名,模型ERNIE-5.0-Preview-1203以1451分登上LMArena文本榜,排名
    的头像 发表于 12-23 15:02 663次阅读

    百度模型5.0-Preview文本能力国内

    11月8日凌晨,LMArena大模型竞技场最新排名显示,全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中国第
    的头像 发表于 11-11 17:15 1641次阅读

    百度模型X1.1正式发布

    今天,WAVE SUMMIT深度学习开发者大会2025上,模型X1.1正式发布,事实性、指令遵循、智能体等能力上均提升显著。
    的头像 发表于 09-10 11:08 2328次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、一言等大语言模型在生成文本、对话交互等领域的惊艳
    的头像 发表于 08-13 09:15 4363次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代深度学习吗?

    中兴努比亚启动接入百度4.5系列开源大模型

    近日,中兴努比亚启动接入4.5系列开源大模型,为星云智能提供新引擎,共同推动人工智能在AI手机的创新应用,加速AI技术落地,进步提升用户AI体验。
    的头像 发表于 07-15 09:35 1170次阅读

    宁畅与与百度模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI 服务器产品矩阵,宁畅帮助企业模型时代键打通算力与应用“任督二脉”,显著缩短模型落地周期。
    的头像 发表于 07-07 16:26 1006次阅读

    黑芝麻智能与模型技术合作升级

    近日,模型正式开源,黑芝麻智能即日起快速启动与模型技术合作。
    的头像 发表于 07-04 17:24 1525次阅读
    黑芝麻智能与<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技术合作升级

    龙芯中科与心系列模型开展深度技术合作

              6月30日,4.5系列模型正式开源。龙芯中科
    的头像 发表于 07-02 16:53 1472次阅读

    兆芯率先展开心系列模型深度技术合作

    6月30日,百度正式开源模型4.5系列等10款模型,并实现预训练权重和推理代码的完全开源,兆芯率先与心系列
    的头像 发表于 07-01 10:49 1074次阅读

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    的大模型。 可信AI多模态大模型评估2025年1月启动,由中国信通人工智能研究所牵头,依据由业界60余家单位共同编制的《多模态大模型技术要求和评估方法》标准开展,是
    的头像 发表于 06-11 11:57 1560次阅读

    百度模型X1 Turbo获得信通当前大模型最高评级证书

    百度520居然还领了个证?是它, 信通当前大模型最高评级证书 ! 5月20日的百度AI Day 上,中国信通公布了大
    的头像 发表于 05-21 18:19 1393次阅读
    百度<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>X1 Turbo获得信通<b class='flag-5'>院</b>当前大<b class='flag-5'>模型</b>最高评级证书

    如何赋能医疗AI大模型应用?

    引言自ChatGPT掀起热潮以来,众多AI大模型如雨后春笋般涌现,其中包括百度科技的一言、科大讯飞的讯飞星火、华为的盘古AI大模型、腾讯
    的头像 发表于 05-07 09:36 795次阅读
    如何赋能医疗AI大<b class='flag-5'>模型</b>应用?