10月2日至6日,全球AI顶级国际会议ICCV(International Conference on Computer Vision)在法国巴黎举行。本届ICCV投稿总数达8068篇,其中2160篇被接收,录用率为26.8%,略高于上届ICCV 2021录用率25.9%。
将人类偏好引入StableDiffusion的模型训练过程
商汤科技及联合实验室共49篇论文入选,涵盖文生图、3D数字人、自动驾驶、目标检测、视频分割等多个与大模型和生成式AI相关的热点方向。
基于商汤AI大装置SenseCore和“日日新SenseNova”大模型体系。在生成式AI和视觉大模型等领域,商汤提出多项极具价值的技术突破和研究范式创新。“商汤科技联合创始人、首席科学家王晓刚表示:持续深耕AI基础设施建设、坚持做注重产业实践的学术研究、深耕人才阶梯式培养,是商汤多年来在全球学术舞台上不断产出创新成果的基石。商汤将积极拥抱大模型带来的全新研究范式,不断提升研发体系,坚持将基础研究与业务发展紧密融合,为行业贡献更具价值的技术成果。”
多项技术突破和范式创新
大模型及生成式AI成焦点
大模型和生成式AI在全球范围内备受瞩目,也为学术研究提出了诸多具有挑战性的全新课题。生成式AI方向的文生图领域,如何让模型更容易生成与人类偏好相符的图像?在论文《Human Preference Score: Better Aligning Text-to-Image Models with Human Preference》中,商汤研究团队将人类偏好引入Stable Diffusion的模型训练中,证明了人类偏好信息可以提升Stable Diffusion生成的图像质量,尤其在人体、四肢等经典的failure case中更是展示了优异的效果。
将人类偏好引入StableDiffusion的模型训练过程数字人是生成式AI的重要领域,但其制作依然需要一定门槛。商汤研究团队在论文《SHERF: Generalizable Human NeRF from a Single Image》中提出一种基于单张图片的可泛化、可驱动人体神经辐射场方法,仅需一张任意角度的3D人体图片,结合必要的参数,就能实现3D数字人重建和驱动,有望简化3D数字人的创作流程。

基于单张图片的人体神经辐射场重建和驱动
高质量的3D人体数据集是研究众多人体相关的感知模型、重建模型和生成式AI的基础。商汤研究团队在论文《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》中提出一个合成数据集SynBody,其构建了穿着衣物的参数化人体模型,并生成了海量的人体虚拟数据,有助于3D人体感知和重建的模型训练。此外,团队公布了开源代码库XRFeitoria,一个合成数据渲染工具箱,通过提供方便的Python API与CLI工具,极大简化了制作虚拟数据集的流程。
SynBody是基于分层人体模型的大规模合成
数据集,可用于人体感知与建模等任务
在自动驾驶场景的3D目标检测领域,商汤团队还在论文《Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction》中提出一种新的用于多视角3D检测的时序增强训练方式——历史帧物体预测(HoP),不仅在nuScenes测试集上使用ViT-L得到了68.5%NDS和62.4%mAP,超过了排行榜上所有3D物体检测器,还可以即插即用,无缝集成到最先进的 BEV 检测框架中,重塑3D检测时序利用的新范式。
HoP算法框架图
此外,本届ICCV,商汤科技还在目标检测、视频分割、3D感知与重建、半监督学习、NeRF等领域取得诸多技术创新突破。
开源开放
构建大模型时代
产学研协同新生态
产学研协同是实现学术研究成果到行业应用转化的高效路径。商汤不断夯实技术研究的同时,也积极参与和举办各类学术交流和竞赛活动,促进创新成果产出,探索大模型时代产学研协作模式的构建。
同时,商汤长期致力于推动AI基础设施和开源生态的建设,与开发者共创共建,共同推动AI社区的繁荣发展。
商汤早在2018年开源的计算机视觉框架OpenMMLab已在GitHub上收获超过8.7万个星标。
今天,商汤的开源项目已拓展到决策智能、大语言模型、拓展现实、数据平台、高性能训练和推理框架、AI智能体框架等领域,为学术界的科研突破和工业界的产业落地提供全方位的算法与平台支撑。
其中,在大语言模型领域,商汤与上海AI实验室等联合推出的书生·浦语大模型(InternLM)在开源社区和产业界产生广泛影响。
最新的InternLM-20B模型性能先进且应用便捷,以不足三分之一的参数量,达到当前被视为开源模型标杆的Llama2-70B的能力水平。
秉承开源、开放的发展理念,商汤愿与行业伙伴共同迎接大模型的新一轮科技革命,让AI技术释放更广泛的产业价值。

相关阅读,戳这里
《商汤联合团队斩获CVPR最佳论文,推出首个“感知决策一体化”自动驾驶通用大模型》

原文标题:ICCV 2023生成式AI引人瞩目,商汤多项技术突破展现中国“创新力”
文章出处:【微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
商汤科技
+关注
关注
8文章
618浏览量
37673
原文标题:ICCV 2023生成式AI引人瞩目,商汤多项技术突破展现中国“创新力”
文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
热点推荐
商汤科技日日新Seko系列模型与寒武纪成功适配
12月15日,商汤科技基于在生成式AI与多模态交互领域的技术积累,正式发布Seko2.0——行业首个多剧集
澜起科技荣登2025福布斯中国创新力企业50强榜单
近日,福布斯中国正式发布“2025中国创新力企业50强”榜单。在人工智能浪潮下,澜起科技凭借其在数据中心高速互连芯片领域的持续创新与市场领先地位,继
【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战
当今社会,AI已经发展很迅速了,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。
从2017年开始生成式
发表于 09-12 16:07
stm32f407ZGT6生成的bootloader打印的app分区偏移地址正常吗?
stm32f407ZGT6生成的bootloader打印的app分区偏移地址正常吗?bootloader使用iot平台配置自动生成的,日志信息如下图
发表于 08-15 08:24
商汤大装置重磅发布多项标志性成果
在2025世界人工智能大会(WAIC 2025)期间,作为“最懂大模型的AI基础设施”,商汤大装置重磅发布多项标志性成果,持续打造AI基础设施发展新范式,力推动产业生态与应用场景的系统
【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》
到AGI,一起来探索AI芯片
本书从创新视角出发,系统梳理了AI芯片的前沿技术与未来方向,串联起从算法到系统的实现路径,全景式
发表于 07-28 13:54
使用NVIDIA Earth-2生成式AI基础模型革新气候建模
NVIDIA 正通过 cBottle(Climate in a Bottle 的简称)为这项工作带来新的突破,这是全球首个专为以公里尺度分辨率模拟全球气候而设计的生成式 AI 基础模型
从Gartner报告看Atlassian在生成式AI领域的创新路径与实践价值
Atlassian入选Gartner 2025生成式AI技术"新兴领导者"!其核心AI产品Rovo依托Teamwork Graph,支持从团
SAP与亚马逊云科技推出AI联合创新计划,打造生成式AI解决方案,助力客户应对市场波动与供应链复杂性
企业认识到生成式AI具有变革业务的潜力,却苦于无从入手。通过将先进的生成式AI
SAP与亚马逊云科技推出AI联合创新计划,打造生成式AI解决方案, 助力客户应对市场波动与供应链复杂性
认识到生成式AI具有变革业务的潜力,却苦于无从入手。通过将先进的生成式AI
发表于 05-26 11:44
•1219次阅读
ICCV 2023生成式AI引人瞩目,商汤多项技术突破展现中国“创新力”
评论