最近,AI大模型测评火热,尤其在大语言模型领域,“聪明”的上限被不断刷新。
“SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。” “书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者
作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。
相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。
商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”(InternLM)也表现出色,分别在智源FlagEval大语言模型评测8月排行榜和中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。 “FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。FlagEval大模型评测体系构建了“能力-任务-指标”三维评测框架,可视化呈现评测结果,总计600+评测维度,包括22个主观、客观评测数据集,84433道评测题目。除知名的公开数据集 HellaSwag、MMLU、C-Eval外,FlagEval还集成了包括智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。”
“SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。” “书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者
“书生·浦语”,是商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学打造的大语言模型,具有千亿参数,在包含1.8万亿token的高质量语料上训练而成。
今年6月,“书生·浦语”联合团队曾选取20余项评测进行检验,包括全球最具影响力的四个综合性考试评测。结果显示,“书生·浦语”在综合性考试中表现突出,在多项中文考试中超越ChatGPT。(详情可参考「AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型」报道) 7月,“书生·浦语”正式开源70亿参数的轻量级版本InternLM-7B。(https://github.com/InternLM/InternLM)
后续又推出升级版对话模型InternLM-Chat-7Bv1.1,成为首个具有代码解释能力的开源对话模型,能根据需要灵活调用Python解释器等外部工具,解决复杂数学计算等任务的能力显著提升。
此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。
在北京智源人工智能研究院FlagEval大语言模型评测体系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分别在监督微调模型(SFT Model)榜单、基座模型(Base Model)榜单中取得第一和第二名。
“InternLM-chat-7B”还刷新中英客观评测记录。 「什么是“基座模型”、“有监督微调模型”?」 基座模型(Base Model)是经过海量数据预训练(Pre-train)得到的,它具备一定的通用能力,比如:GPT-3。 有监督微调模型(SFT Model)则是经过指令微调数据(包含了各种与人类行为及情感相关的指令和任务的数据集)训练后得到的,具备了与人类流畅对话的能力,如:ChatGPT。 普遍的观点认为,基座模型在很大程度上决定了微调模型的能力。 因此,FlagEval大语言模型评测体系针对基座模型的评测主要从“提示学习评测”和“适配评测”两方面进行;针对有监督微调模型的评测则从“复用针对基座模型的客观评测” 进一步增加“引入主观评测”。 此次两个榜单中,“InternLM-chat-7B”和“InternLM-7B”均表现出优异的综合性能,超越备受关注的Llama2-chat-13B/7B和Llama2-13B/7B。 特别在SFT Model测试中,InternLM-chat-7B中文能力大幅领先同时,英文能力也与对手保持在相近水平,展现出更强的实用性能。

SuperCLUE评测从基础能力、专业能力、中文特性能力三个不同维度对国内外通用大模型产品进行评价,考察大模型在70余个任务上的综合表现。
“书生·浦语”InternLM-chat-7B在7月公布SuperCLUE评测榜单中表现出色,在SuperCLUE-Opt开源大模型榜单拔得头筹。
作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。
相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。

相关阅读,戳这里
《让大模型“百花齐放”,商汤大装置SenseCore提供一片沃土》《商汤发布多模态多任务通用大模型“书生2.5”》
《商汤联合发布通才AI智能体通关<我的世界>》

原文标题:大语言模型“书生·浦语”多项专业评测拔头筹
文章出处:【微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
商汤科技
+关注
关注
8文章
626浏览量
37702
原文标题:大语言模型“书生·浦语”多项专业评测拔头筹
文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
热点推荐
华为昇腾助力书生科学多模态大模型Intern-S2-Preview发布
达到同量级领先水平,在科学发现任务中超越Claude-Haiku-4.5、GPT5.4-Nano等主流闭源模型,进一步拓展了“可深度专业化通用模型”的能力边界。昇腾Atlas 900 A3超节点为Intern-S2-Previe
AI大模型微调企业项目实战课
的“红蓝对抗”评测集。通过自动化评测体系,从准确性、安全性、合规性等多个维度给微调模型打分,确保它在回答专业问题的同时,严格遵守企业设定的安全边界,做到“有所为有所不为”。
四、 结语
发表于 04-16 18:48
什么是大模型,智能体...?大模型100问,快速全面了解!
一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言模型(
阿布扎比TII推出Falcon-H1 Arabic,树立全球阿拉伯语AI模型新标杆
的应用研究机构——正式发布Falcon-H1 Arabic。这是一款基于混合式Mamba-Transformer架构全新打造的大型语言模型,标志着对以往Transformer架构路线的根本性突破。凭借卓越
云知声山海医疗大模型问鼎MedBench4.0三项榜首
12月16日,中文医疗大模型权威评测平台MedBench4.0发布最新评测结果。云知声自主研发的“山海医疗大模型(UniGPT‑Med)”展现出全面领先的技术实力,一举斩获医疗智能体、
刮痧拔罐热敷三合一!纳祥科技智能刮痧拔罐器方案如何实现精准负压控制
加热与负压双模式随着大健康理念的普及,传统刮痧拔罐因操作门槛高、价格贵、效果依赖技师经验等问题难以普及。针对这一现状,纳祥科技为客户打造了一款小型便携的智能刮痧拔罐器方案,方案通过模拟传统刮痧、拔罐
中科曙光助力首个地质大模型“坤枢”上线
近日,首个地质领域专用大语言模型“坤枢”在河南郑州正式上线,该大模型的部署将有助于夯实地质产业数字化基础,在保障国家能源资源信息安全前提下,完成多项地质相关任务。而在该
云知声多项业务营收大涨
依托山海大模型,云知声不断开拓阵地,开发了面向东盟等海外市场和国内方言市场的语音大模型,模型显著提升了在多语种、多方言环境下的语音识别、语义理解和高质量语音生成能力,改善了多语言、语种
3万字长文!深度解析大语言模型LLM原理
我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
书生大模型实战营沐曦魔乐专场MeetUP精彩回顾
近日,由书生大模型社区、沐曦、魔乐社区、算丰和 DaoCloud 道客等联合打造的「书生大模型实战营沐曦魔乐专场 MeetUP 暨颁奖仪式」在上海漕河泾国际孵化中心圆满落幕。
传音斩获WMT 2025国际机器翻译大赛四项冠军
佳绩,分别在阿萨姆语(Assamese)、曼尼普尔语(Manipuri)、卡西语(Khasi)、米佐语(Mizo)四个语种的机器评测中荣获冠军。
欧洲借助NVIDIA Nemotron优化主权大语言模型
NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
大语言模型“书生·浦语”多项专业评测拔头筹
评论