0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位

智能制造IMS 来源:智能制造IMS 2023-06-29 16:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。

766eff46-15a2-11ee-962d-dac502259ad0.png

工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。

76c72202-15a2-11ee-962d-dac502259ad0.png

五大院士,八大IEEE Fellow,共十三位顶级专家构成了专家委员会。评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。

百度文心一言在国内“最懂工业”

本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。

评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。

772c8b4c-15a2-11ee-962d-dac502259ad0.png

在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。

7776d9fe-15a2-11ee-962d-dac502259ad0.png

主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。

在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。

大模型发展新热点:丰富特定行业专业知识

虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。

实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。

关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。

当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。

比如在本次评测中位居国内模型第一的百度文心一言,与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。

通过在实际场景的探索应用,科技公司可以积攒更多的行业Know-how,扩展相关领域的数据训练集。这种外部真实反馈有助驱动大模型更加快速的实现迭代升级。

未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 南方电网
    +关注

    关注

    2

    文章

    195

    浏览量

    29783
  • 文心一言
    +关注

    关注

    0

    文章

    134

    浏览量

    2089
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4961

原文标题:工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位

文章出处:【微信号:CADCAM_beijing,微信公众号:智能制造IMS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度模型5.0-Preview文本能力国内

    11月8日凌晨,LMArena大模型竞技场最新排名显示,全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中国第
    的头像 发表于 11-11 17:15 1090次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、一言等大语言模型在生成文本、对话交互等领域的惊艳
    的头像 发表于 08-13 09:15 3913次阅读
    自动驾驶中Transformer大<b class='flag-5'>模型</b>会取代深度学习吗?

    宁畅与与百度模型展开深度技术合作

    与部署。 凭借覆盖训练、推理、微调全流程的AI 服务器产品矩阵,宁畅帮助企业模型时代键打通算力与应用“任督二脉”,显著缩短模型落地周期。
    的头像 发表于 07-07 16:26 640次阅读

    黑芝麻智能与模型技术合作升级

    近日,模型正式开源,黑芝麻智能即日起快速启动与模型技术合作。
    的头像 发表于 07-04 17:24 1008次阅读
    黑芝麻智能与<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>技术合作升级

    百度模型X1 Turbo获得信通当前大模型最高评级证书

    百度520居然还领了个证?是它, 信通当前大模型最高评级证书 ! 5月20日的百度AI Day 上,中国信通公布了大
    的头像 发表于 05-21 18:19 1103次阅读
    百度<b class='flag-5'>文</b><b class='flag-5'>心</b>大<b class='flag-5'>模型</b>X1 Turbo获得信通<b class='flag-5'>院</b>当前大<b class='flag-5'>模型</b>最高评级证书

    如何赋能医疗AI大模型应用?

    引言自ChatGPT掀起热潮以来,众多AI大模型如雨后春笋般涌现,其中包括百度科技的一言、科大讯飞的讯飞星火、华为的盘古AI大模型、腾讯
    的头像 发表于 05-07 09:36 519次阅读
    如何赋能医疗AI大<b class='flag-5'>模型</b>应用?

    deepseek和文一言两者有什么区别?哪个跟合适您使用呢?

    (DeepSeek)公司开发,该公司专注于开发低成本、高性能的AI模型,致力于通过技术创新推动人工智能技术的普惠化。DeepSeek可能基于独特的技术架构和算法,如混合专家(MoE)架构和多头潜在注意力(MLA)机制。 ◆
    的头像 发表于 02-23 09:37 3796次阅读

    百度下模型正式开源

    随着模型的迭代升级和成本不断下降,一言将于4月1日0时起全面免费,所有PC端和APP端
    的头像 发表于 02-17 13:44 805次阅读

    百度模型4月1日起全面免费开放

    列最新的模型功能。 百度表示,模型的此次升级不仅带来了更加丰富的功能,还致力于提升用户体验。与此同时,百度还透露,
    的头像 发表于 02-14 09:19 680次阅读

    百度宣布一言将全面免费

    随着模型的迭代升级和成本不断下降,一言将于4月1日零时起,全面免费,所有PC端和APP
    的头像 发表于 02-13 10:46 652次阅读

    字节跳动豆包大模型1.5 Pro发布

    近日,字节跳动旗下的豆包大模型迎来了全新的升级——豆包大模型1.5 Pro正式发布。这款全新模型知识、代码、推理、中文等多个测评基准上
    的头像 发表于 01-23 15:24 1102次阅读

    电子发烧友荣获电子工业出版社博视点 “2024 年度卓越合作伙伴”

    近日,凭借过去一年在书籍测评活动等方面的深度合作与卓越表现,电子发烧友荣膺电子工业出版社博视点 “2024 年度卓越合作伙伴” 的殊荣,表
    发表于 01-20 15:46

    说清楚什么是AI大模型

    生成能力强,部分版本支持多模态输入(如图像理解) 一言 百度 针对中文优化,适合国内应用场景 LLa
    的头像 发表于 01-02 09:53 3949次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文</b>说清楚什么是AI大<b class='flag-5'>模型</b>

    基于 Flexus 云服务器 X 实例体验大模型部署体验测评

    前言 当下,各种大模型层出不穷,先有 openai 的 chatgpt,后有百度一言,再就是国内
    的头像 发表于 12-24 12:27 750次阅读
    基于 Flexus 云服务器 X 实例体验大<b class='flag-5'>模型</b>部署体验<b class='flag-5'>测评</b>

    【「大模型启示录」阅读体验】如何在客服领域应用大模型

    客服领域是大模型落地场景中最多的,也是最容易实现的。本身客服领域的特点就是问答形式,大模型接入难度低。今天跟随《大
    发表于 12-17 16:53