0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大语言模型“书生·浦语”多项专业评测拔头筹

商汤科技SenseTime 来源:未知 2023-08-25 13:00 次阅读
最近,AI大模型测评火热,尤其在大语言模型领域,“聪明”的上限不断刷新。

商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”(InternLM)也表现出色,分别在智源FlagEval大语言模型评测8月排行榜中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。 FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。FlagEval大模型评测体系构建了“能力-任务-指标”三维评测框架,可视化呈现评测结果,总计600+评测维度,包括22个主观、客观评测数据集,84433道评测题目。除知名的公开数据集 HellaSwag、MMLU、C-Eval外,FlagEval还集成了包括智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。
SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。 “书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者

“书生·浦语”,是商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学打造的大语言模型,具有千亿参数,在包含1.8万亿token的高质量语料上训练而成。

今年6月,“书生·浦语”联合团队曾选取20余项评测进行检验,包括全球最具影响力的四个综合性考试评测。结果显示,“书生·浦语”在综合性考试中表现突出,在多项中文考试中超越ChatGPT。(详情可参考AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型报道) 7月,“书生·浦语”正式开源70亿参数的轻量级版本InternLM-7B。(https://github.com/InternLM/InternLM)

后续又推出升级版对话模型InternLM-Chat-7Bv1.1,成为首个具有代码解释能力的开源对话模型,能根据需要灵活调用Python解释器等外部工具,解决复杂数学计算等任务的能力显著提升。

此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。

在北京智源人工智能研究院FlagEval大语言模型评测体系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分别在监督微调模型(SFT Model)榜单、基座模型(Base Model)榜单中取得第一和第二名

“InternLM-chat-7B”还刷新中英客观评测记录。 「什么是“基座模型”、“有监督微调模型”?」 基座模型(Base Model)是经过海量数据预训练(Pre-train)得到的,它具备一定的通用能力,比如:GPT-3。 有监督微调模型(SFT Model)则是经过指令微调数据(包含了各种与人类行为及情感相关的指令和任务的数据集)训练后得到的,具备了与人类流畅对话的能力,如:ChatGPT。 普遍的观点认为,基座模型在很大程度上决定了微调模型的能力。 因此,FlagEval大语言模型评测体系针对基座模型的评测主要从“提示学习评测”和“适配评测”两方面进行;针对有监督微调模型的评测则从“复用针对基座模型的客观评测” 进一步增加“引入主观评测”。 此次两个榜单中,“InternLM-chat-7B”和“InternLM-7B”均表现出优异的综合性能,超越备受关注的Llama2-chat-13B/7B和Llama2-13B/7B 特别在SFT Model测试中,InternLM-chat-7B中文能力大幅领先同时,英文能力也与对手保持在相近水平,展现出更强的实用性能 wKgZomToSjaAS-sLAAFBK8bU_fs988.jpgwKgZomToSjaAaVfdAAEPh3f12d8810.jpg  

SuperCLUE评测从基础能力、专业能力、中文特性能力三个不同维度对国内外通用大模型产品进行评价,考察大模型在70余个任务上的综合表现。

“书生·浦语”InternLM-chat-7B在7月公布SuperCLUE评测榜单中表现出色,SuperCLUE-Opt开源大模型榜单拔得头筹 wKgZomToSjaACTy0AAQPBYmSqG8574.png  作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。 相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。

wKgZomToSjaAH4hcAAATzh3tzFA763.gif

相关阅读,戳这里

让大模型“百花齐放”,商汤大装置SenseCore提供一片沃土

《商汤发布多模态多任务通用大模型“书生2.5”》

《商汤联合发布通才AI智能体通关<我的世界>》

wKgZomToSjaAQE8DAAC4LKEIjVg960.jpg


原文标题:大语言模型“书生·浦语”多项专业评测拔头筹

文章出处:【微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 商汤科技
    +关注

    关注

    8

    文章

    417

    浏览量

    35879

原文标题:大语言模型“书生·浦语”多项专业评测拔头筹

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.31】大语言模型:原理与工程实践

    深远影响,尤其在优化业务流程和重塑组织结构方面。然而,在研究和实践过程中,我们遇到了一个主要挑战:市场上缺乏大语言模型在实际应用方面的资料。现有的资料多聚焦于理论研究,而具体的实践方法多被保密,难以获得
    发表于 03-18 15:49

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    2022年11月,ChatGPT的问世展示了大模型的强大潜能,对人工智能领域有重大意义,并对自然语言处理研究产生了深远影响,引发了大模型研究的热潮。 距ChatGPT问世不到一年,截至2023年10
    发表于 03-11 15:16

    模型开源开放评测体系司南正式发布

    近日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类
    的头像 发表于 02-05 11:28 597次阅读

    上海AI实验室发布新一代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 642次阅读

    语言模型事实性幻象的实验性分析

    尽管大语言模型能力不断提升,但一个持续存在的挑战是它们具有产生幻象的倾向。本文构建了幻象评测基准HaluEval 2.0,并基于该评测框架从预训练/有监督微调/提示设计/推理四个方面探
    的头像 发表于 01-19 11:19 233次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>事实性幻象的实验性分析

    书生・浦语 2.0(InternLM2)大语言模型开源

    这个模型在 2.6 万亿 token 的高质量语料基础上进行训练,包含 7B 和 20B 两种参数规格以及基座、对话等版本,以满足不同复杂应用场景的需求。
    发表于 01-19 09:39 140次阅读
    <b class='flag-5'>书生</b>・浦语 2.0(InternLM2)大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>开源

    商汤科技发布新一代大语言模型书生·浦语2.0

    1月17日,商汤科技与上海AI实验室联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.0(InternLM2)。
    的头像 发表于 01-17 15:03 387次阅读
    商汤科技发布新一代大<b class='flag-5'>语言</b><b class='flag-5'>模型</b><b class='flag-5'>书生</b>·浦语2.0

    语言模型使用指南

    在信息爆炸的时代,我们渴望更智能、更高效的语言处理工具。GPT-3.5等大语言模型的崛起为我们提供了前所未有的机会。这不仅是技术的进步,更是人与机器共舞的一幕。本篇文章将带你走进这个奇妙的语言
    的头像 发表于 12-29 14:18 351次阅读

    语言模型概述

    在科技飞速发展的当今时代,人工智能技术成为社会进步的关键推动力之一。在广泛关注的人工智能领域中,大语言模型以其引人注目的特性备受瞩目。 大语言模型的定义及发展历史 大
    的头像 发表于 12-21 17:53 741次阅读

    语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型
    的头像 发表于 12-04 15:51 409次阅读

    第一!vivo自研AI大模型位列C-Eval、CMMLU榜首

    C-Eval榜单是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,涵盖52个不同学科,共有13948道多项选择题,是目前较为权威的中文AI大
    的头像 发表于 10-16 15:51 459次阅读
    第一!vivo自研AI大<b class='flag-5'>模型</b>位列C-Eval、CMMLU榜首

    性能超越开源模型标杆Llama2-70B,书生·浦语大模型InternLM-20B开源发布

    今日,商汤科技与上海人工智能实验室联合香港中文大学和复旦大学正式推出书生·浦语大模型(InternLM) 200亿参数版本InternLM-20B ,并在阿里云魔搭社区 (ModelScope
    的头像 发表于 09-20 16:45 695次阅读
    性能超越开源<b class='flag-5'>模型</b>标杆Llama2-70B,<b class='flag-5'>书生</b>·浦语大<b class='flag-5'>模型</b>InternLM-20B开源发布

    腾讯发布混元大语言模型

    腾讯发布混元大语言模型 腾讯全球数字生态大会上腾讯正式发布了混元大语言模型,参数规模超千亿,预训练语料超2万亿tokens。 作为腾讯自研的通用大
    的头像 发表于 09-07 10:23 852次阅读

    语言模型的发展历程 基于神经网络的语言模型解析

    简单来说,语言模型能够以某种方式生成文本。它的应用十分广泛,例如,可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上,语言
    发表于 07-14 11:45 514次阅读
    <b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程 基于神经网络的<b class='flag-5'>语言</b><b class='flag-5'>模型</b>解析

    悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆

    为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续
    的头像 发表于 06-27 16:37 271次阅读