10月2日至6日，全球AI顶级国际会议ICCV（International Conference on Computer Vision）在法国巴黎举行。本届ICCV投稿总数达8068篇，其中2160篇被接收，录用率为26.8%，略高于上届ICCV 2021录用率25.9%。

商汤科技及联合实验室共49篇论文入选，涵盖文生图、3D数字人、自动驾驶、目标检测、视频分割等多个与大模型和生成式AI相关的热点方向。

基于商汤AI大装置SenseCore和“日日新SenseNova”大模型体系。在生成式AI和视觉大模型等领域，商汤提出多项极具价值的技术突破和研究范式创新。

“商汤科技联合创始人、首席科学家王晓刚表示：持续深耕AI基础设施建设、坚持做注重产业实践的学术研究、深耕人才阶梯式培养，是商汤多年来在全球学术舞台上不断产出创新成果的基石。商汤将积极拥抱大模型带来的全新研究范式，不断提升研发体系，坚持将基础研究与业务发展紧密融合，为行业贡献更具价值的技术成果。”

多项技术突破和范式创新

大模型及生成式AI成焦点

大模型和生成式AI在全球范围内备受瞩目，也为学术研究提出了诸多具有挑战性的全新课题。

生成式AI方向的文生图领域，如何让模型更容易生成与人类偏好相符的图像？在论文《Human Preference Score: Better Aligning Text-to-Image Models with Human Preference》中，商汤研究团队将人类偏好引入Stable Diffusion的模型训练中，证明了人类偏好信息可以提升Stable Diffusion生成的图像质量，尤其在人体、四肢等经典的failure case中更是展示了优异的效果。

将人类偏好引入StableDiffusion的模型训练过程

数字人是生成式AI的重要领域，但其制作依然需要一定门槛。商汤研究团队在论文《SHERF: Generalizable Human NeRF from a Single Image》中提出一种基于单张图片的可泛化、可驱动人体神经辐射场方法，仅需一张任意角度的3D人体图片，结合必要的参数，就能实现3D数字人重建和驱动，有望简化3D数字人的创作流程。

基于单张图片的人体神经辐射场重建和驱动

高质量的3D人体数据集是研究众多人体相关的感知模型、重建模型和生成式AI的基础。商汤研究团队在论文《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》中提出一个合成数据集SynBody，其构建了穿着衣物的参数化人体模型，并生成了海量的人体虚拟数据，有助于3D人体感知和重建的模型训练。此外，团队公布了开源代码库XRFeitoria，一个合成数据渲染工具箱，通过提供方便的Python API与CLI工具，极大简化了制作虚拟数据集的流程。

SynBody是基于分层人体模型的大规模合成

数据集，可用于人体感知与建模等任务

在自动驾驶场景的3D目标检测领域，商汤团队还在论文《Temporal Enhanced Training of Multi-view 3D Object Detector via Historical Object Prediction》中提出一种新的用于多视角3D检测的时序增强训练方式——历史帧物体预测（HoP），不仅在nuScenes测试集上使用ViT-L得到了68.5%NDS和62.4%mAP，超过了排行榜上所有3D物体检测器，还可以即插即用，无缝集成到最先进的 BEV 检测框架中，重塑3D检测时序利用的新范式。

HoP算法框架图