模型表现好,金牌少不了。
刚刚,中文大模型测评基准SuperCLUE发布《中文大模型基准测评2024年10月报告》:
商汤日日新·商量大模型(SenseChat5.5)凭借出色的能力表现,总得分位列国内大模型第一梯队,获得金牌。
本次SuperCLUE10月报告覆盖23个国内模型,聚焦语言大模型的通用能力评估,分为三大维度:除了考察“文科”、“理科”基础能力外,还有考察模型更高阶能力的“Hard”附加任务,总共2900+道题:
【理科任务】分为计算、逻辑推理、代码、工具使用测评集;
【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集;
【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。
商汤SenseChat5.5在多项评测任务中均位列第一梯队,文科中语言理解、安全等维度表现突出,也是理科中逻辑推理、代码学科的“尖子生”。
值得注意的是,在【Hard】的两项任务——精准指令遵循和高阶推理中,商汤SenseChat5.5是唯一两项任务均位于国内第一梯队的大模型,体现了模型优秀的复杂推理智能。
未来,商汤将继续坚持基础大模型的持续研发与投入,不断提升真正高阶推理及“慢思考”能力。
-
商汤科技
+关注
关注
8文章
591浏览量
37327 -
大模型
+关注
关注
2文章
3447浏览量
4974
原文标题:近3000道题,商汤大模型拿了金牌
文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
商汤日日新V6.5多模态大模型登顶全球权威榜单
小米AI眼镜×商汤日日新 商汤“日日新”大模型交互平台「商量」已探索性接入小米AI眼镜
看点:商汤“日日新”拟接入小米AI眼镜 鸿利智汇:部分产品已应用于小米汽车
商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型
商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一

商汤日日新·商量大模型位列国内大模型第一梯队
评论