0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技发布全新升级的「日日新SenseNova 5.0」大模型

商汤科技SenseTime 来源:商汤科技SenseTime 2024-04-25 09:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

国产AI大模型迎来对标全球顶尖版本时刻!

4月23日,商汤科技带来全新升级的「日日新SenseNova 5.0」大模型,具备更强的知识、数学、推理及代码能力,综合性能全面对标 GPT-4 Turbo,并在主流客观评测上达到或超越 GPT-4 Turbo

「日日新 5.0」能力提升主要得益三个方面:

采用混合专家架构(MoE),激活少量参数就能完成推理。且推理时上下文窗口达到 200K 左右。

基于超过10TB tokens训练、覆盖数千亿量级的逻辑型合成思维链数据

商汤AI大装置SenseCore算力设施与算法设计的联合调优

先看看BenchMark成绩:

086da3f8-0250-11ef-a297-92fbcf53809c.png

「日日新 5.0」在大部分核心测试集指标上都对标甚至超过GPT-4 Turbo

在实际使用中,「日日新 5.0」具体表现怎么样?下面,分别从自然语言能力、文生图能力、多模态和数据分析能力几个方面对比一下。

自然语言能力 「日日新 5.0」的自然语言能力得益于对大量中文语料的构建。

创意写作、推理以及总结能力均大幅提升,相同的中文知识注入后,可以获得更好的理解总结及问答,为教育、内容产业等垂直应用场景提供有力辅助。

例如,在创意写作方面,「日日新 5.0」可以打破传统作文的“八股式”写法,将通用知识、新知识融会贯通,实现更开放式的创作。

08925f90-0250-11ef-a297-92fbcf53809c.png

以《红楼梦》里亭子的题名来写一篇关于文化、关于创新的作文:GPT-4写作分别从学习、工作、生活维度讨论传统与创新,套路痕迹较为明显,浅尝辄止,难免不让人觉得枯燥乏味;

「日日新 5.0」写作颇为生动形象,节奏不一,引经据典。从《诗经》《楚词》到《汉赋》,从“兼爱非攻”到“民贵君轻”,革古鼎新,“一花独放不是春,百花齐放春满园”,文化交流是创新生生不息的源泉。从历史宏观到细节的生动刻画,

「日日新 5.0」想象力丰富,似一位才华横溢的“大才子”

数学,不仅涉及到计算能力,其实也会涉及到很多对题目和问题描述的理解能力,反映的是一个更加综合思考、构建逻辑的过程。

当前的AI大模型很容易失败的一点是应对之前没有提问过的数学场景,当背后缺少构造完整思维链时就容易出错。问一些小众不常见的问题实际上是验证其背后真正构建思维链的能力。

08aa3f52-0250-11ef-a297-92fbcf53809c.png

「日日新 5.0」和GPT-4回答趣味推理问题:“妈妈给圆圆冲了一杯咖啡,圆圆喝半杯后,将它加满水,然后她又喝了半杯后,再加满水,最后全部喝完。问圆圆喝了多少咖啡,多少水?”,「日日新 5.0」回答正确

下面也是一个很简单的逻辑题目。

08bf2908-0250-11ef-a297-92fbcf53809c.png

「日日新 5.0」和GPT-4回答逻辑问题对比:“13个小朋友玩老鹰抓小鸡,1人扮演老鹰,12个扮演小鸡,已经抓了5只小鸡,还剩几只?”。GPT-4给出答案是抓了5只还剩8只,而日日新的答案是减掉1只老鹰所以还有7只没有被抓住。这个题目并不是一个简单算术的问题,而是需要对中文环境有充分理解,显然「日日新 5.0」表现更好

文生图能力

「日日新5.0」的文生图能力也有较大提升,下面对比了商汤「日日新•秒画」和目前行业中几个最好的模型,包括:Midjourney、Stable Diffution 3、GPT-4V。

08c41da0-0250-11ef-a297-92fbcf53809c.jpg

人像是评估文生图能力的关键场景之一,「日日新5.0」在人物生成上有非常大的提升。秒画生成的人像可以看出非常好皮肤的纹理,而其他几个大模型在皮肤上都做了磨皮

08e2333a-0250-11ef-a297-92fbcf53809c.jpg

这个对比体现另外一个难点,即怎样把不同字段的理解合成在一起。秒画给出了一个非常未来感的建筑,且对建筑下的倒影、波浪都表现得非常具有美感,实现了比较完整的指令跟随且生成效果好。而其他几个大模型会发现对于文字嵌入到图像中,无论对文字的理解还是放置位置,都有一定缺失

多模态和数据分析能力

本次「日日新5.0」另一大核心指标就是多模态能力,商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试MMBench中综合得分排名首位,在多个知名多模态榜单MathVista, AI2D, ChartQA, TextVQA, DocVQA, MMMU 取得领先成绩。

08f8a598-0250-11ef-a297-92fbcf53809c.jpg  

「日日新5.0」在应用产品层面也实现了更卓越的多模态能力,支持高清长图的解析和理解以及文生图交互式生成,还可以实现复杂的跨文档知识抽取及总结问答展示,还具备丰富的多模态交互能力,下面看几个具体例子。

首先是一个很常见的例子,针对信息长图做核心内容的提炼和分析。有时长图尺寸很大,很多多模态大模型支持不了很大的图像分辨率,而「日日新5.0」提供了非常大的分辨率接口

以商汤绝影SenseAuto的宣传长图为例,放到「日日新5.0」大模型中可以对长图内容进行提问,如“请描述一下这张图片的细节”。模型对长图分析后,能够对长图的标题和内容进行总结

大家有时会把打车软件截图发给等待的朋友,这里面有司机信息、车的信息、车牌信息、时间信息等等一系列文字和图片信息,信息密度非常高。对于大模型的信息提取分析很有挑战。

08ffb216-0250-11ef-a297-92fbcf53809c.png

「日日新5.0」展现出了对于中文理解的优势,特别是对文本的分析和对场景的理解上非常出色,识别出来有手机信号中国移动和中国联通双卡双待,GPT-4没有识别出来的。包括对车牌、司机姓名等细节内容的提取,GPT-4的识别也有错误。

「日日新5.0」对这类多模态信息的获取更加准确

最后,再看看「日日新 5.0」对应的数理能力。

上周,中国首位F1车手周冠宇完成了他在F1中国大奖赛的比赛。用大模型统计下周冠宇和F1赛事的情况。

用商汤“办公小浣熊”处理这个任务,只要导入数据表格,通过自然语言和模糊的人类交互方法,分析统计出2022年、2023年、2024年的周冠宇参赛信息。其中包括引导模型将数据库中拼音的guanyu-zhou与人类搜索的汉字周冠宇实现匹配,打通任务链。还有更复杂的任务,如统计F1总共有多少车手,有哪些获得过总冠军,获奖次数从高到低排列,这涉及更大的数据表格和圈数、领奖数等更多维度的细节信息,最终也都给出了完全正确的答案,还能自动生成雷达图


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16720
  • 商汤科技
    +关注

    关注

    8

    文章

    591

    浏览量

    37331
  • AI大模型
    +关注

    关注

    0

    文章

    395

    浏览量

    942

原文标题:中国首个GPT-4 Turbo级别的大模型登场,6000亿参数,商汤「日日新5.0」发布

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技正式发布并开源全新多模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新Se
    的头像 发表于 12-08 11:19 543次阅读
    <b class='flag-5'>商汤</b>科技正式<b class='flag-5'>发布</b>并开源<b class='flag-5'>全新</b>多模态<b class='flag-5'>模型</b>架构NEO

    商汤日日新V6.5多模态大模型登顶全球权威榜单

    根据权威评测平台OpenCompass多模态大模型学术榜单(Multi-modal Academic Leaderboard)最新数据显示,商汤日日新 V6.5」(SenseNova
    的头像 发表于 09-10 09:55 511次阅读

    商汤日日新模型赋能紫光汉图打造激光多功能一体机

    商汤日日新模型赋能紫光汉图,为一线教师打造全新教学生产力。
    的头像 发表于 08-19 15:51 662次阅读
    <b class='flag-5'>商汤</b><b class='flag-5'>日日新</b>大<b class='flag-5'>模型</b>赋能紫光汉图打造激光多功能一体机

    小米AI眼镜×商汤日日新 商汤日日新”大模型交互平台「商量」已探索性接入小米AI眼镜

    程度:据国内XR Vision报道,小米AI眼镜首销3天销量或已接近5万副,创下了中国AI眼镜最快销售纪录。 作为小米长期生态合作伙伴,商汤日日新”大模型交互平台「商量」已探索性接入小米AI 眼镜,成为用户的 “第二大脑”,帮
    的头像 发表于 08-07 15:35 9343次阅读
    小米AI眼镜×<b class='flag-5'>商汤</b><b class='flag-5'>日日新</b> <b class='flag-5'>商汤</b>“<b class='flag-5'>日日新</b>”大<b class='flag-5'>模型</b>交互平台「商量」已探索性接入小米AI眼镜

    看点:商汤日日新”拟接入小米AI眼镜 鸿利智汇:部分产品已应用于小米汽车

    给大家带来一些业界资讯: 商汤日日新”拟接入小米AI眼镜 据商汤科技透露,作为小米长期生态合作伙伴,商汤日日新”大
    的头像 发表于 08-07 14:47 812次阅读

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI多模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有
    的头像 发表于 06-11 11:57 1169次阅读

    商汤科技日日新V6大模型斩获“双料第一” 一项国内榜首,一个全球第一

    卫冕“双冠”! 通用语言能力并列国内榜首、多模态能力全球最强,商汤日日新V6」近期斩获“双料第一”。 5月28日,权威大模型测评机构SuperCLUE《中文大模型基准测评2025年5
    的头像 发表于 05-30 11:13 1414次阅读
    <b class='flag-5'>商汤</b>科技<b class='flag-5'>日日新</b>V6大<b class='flag-5'>模型</b>斩获“双料第一” 一项国内榜首,一个全球第一

    商汤科技与上海徐汇区文旅局达成合作

    近日,商汤科技与上海徐汇区文旅局达成合作,基于商汤最新AI大模型日日新SenseNova V6,打造智慧文旅新技术与应用成果,可为游客提供拟
    的头像 发表于 04-24 16:23 771次阅读

    商汤科技助力如影数字人超级直播间全新升级

    作为数字人全行业首创,如影数字人超级直播间可实现多模态智能运营,依托“商汤日日新SenseNova”多模态大模型,直播间具备智能选品、直播间复刻、素材提炼等能力,能够大幅提高运营效率。
    的头像 发表于 04-23 16:31 844次阅读

    商汤科技日日新模型SenseNova上线声网云市场

    日前,商汤科技日日新模型SenseNova即将正式上线声网云市场,开发者和企业用户可通过声网的实时互动云服务进行调用,将商汤领先的
    的头像 发表于 04-08 17:24 1321次阅读

    商汤日日新”融合大模型登顶大语言与多模态双榜单

    据弗若斯特沙利文(Frost & Sullivan, 简称“沙利文”)联合头豹研究院发布的《2025年中国大模型年度评测》结果显示:在语言和多模态核心能力测评中,商汤日日新”融合大
    的头像 发表于 03-18 10:35 948次阅读

    商汤科技推出SenseNova-5o,限时免费实时音视频对话服务

    商汤科技近日正式推出了其“日日新”融合大模型的交互版本——SenseNova-5o,并宣布即日起对外提供限时免费的实时音视频对话服务。 SenseN
    的头像 发表于 01-20 15:11 1044次阅读

    商汤日日新”融合大模型荣获双料冠军

    近日,商汤科技正式推出了其创新力作——“日日新”融合大模型。该模型在技术上实现了原生融合模态的突破,使得其深度推理能力和多模态信息处理能力均得到了显著提升。这一成果的
    的头像 发表于 01-13 16:10 848次阅读

    商汤科技推出“日日新”融合大模型

    刚刚,商汤正式推出“日日新”融合大模型,领先实现原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,并在两大权威评测榜单夺得第一,成为“双冠王”。
    的头像 发表于 01-10 15:59 1158次阅读

    商汤日日新多模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova多模态大模型,在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1508次阅读