高通在2023年国际计算机视觉与模式识别会议上，展示先进研究成果并将生成式AI引入边缘侧-电子发烧友网

6月18日至22日，IEEE/CVF国际计算机视觉与模式识别会议（CVPR）在温哥华举行，该会议不仅是计算机视觉，也是AI领域最重要的年度活动之一。会议期间，高通展示了已被业界认可的研究论文和技术演示。本文将介绍CVPR 2023上高通的展示亮点。

技术演示

高通在AI、计算机视觉、XR和自动驾驶汽车等领域的研究，已从核心理论创新扩展到下游实际应用，例如：

·运行在手机上的全球最快的

ControlNet演示

几个月前，高通展示了全球首个运行在Android手机上的Stable Diffusion终端侧演示，该演示在CVPR上再次呈现。此外，高通AI研究演示了ControlNet图像生成图像模型，该模型拥有15亿参数，可以完全在手机上运行。ControlNet是一项生成式AI解决方案，被称为语言-视觉模型（LVM）。它能够通过调整输入图像和输入文本描述，更精准地控制生成图像。在这项演示中，只用不到12秒即可在移动终端上生成AI图像，无需访问任何云端，便能提供高效、有趣、可靠且私密的交互式用户体验。这项惊艳的技术演示通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化而实现。在此过程中使用的高通先进AI工具和硬件包括：高通AI模型增效工具包（AIMET）、高通AI软件栈和高通AI引擎。

·支持基于实时视觉大语言模型的 健身教练 高通AI研究利用生成式AI打造出在准确度和真实感方面超越现有解决方案的数字健身教练。健身教练能够提供实时互动，鼓励、纠正并帮助用户实现其健身目标。我们的演示展示了基于视觉的大语言模型如何支持情境式、多模态的实时交互。用户的运动视频流先经过动作识别模型进行处理。根据识别的动作，状态编排器（stateful orchestrator）提供提示并输入给大语言模型。健身教练通过一个语音合成（文本生成语音）的虚拟化身，将大语言模型的答复送回给用户。这项演示的实现主要归功于三项关键创新：为检测精细化健身动作而训练的视觉模型、为生成基于视觉概念的语言而训练的语言模型，以及能够协调两个模态之间流动交互的编排器，便于实时对话式的辅导反馈。凭借上述创新，就能够支持健身教练为用户提供实时的沉浸式动态交互体验。

·全球首个在手机上进行的1080p

神经网络视频编码

终端侧AI的另一项全球首创即在移动终端上的1080p视频编码和解码过程。神经网络编解码器用途十分广泛：可针对特定视频需求进行定制，通过生成式AI的优势对感知质量进行优化，扩展至全新模态，在通用AI硬件上运行。但同时也将带来难以在计算能力有限的终端上应对的诸多挑战。高通设计了全新高效的神经网络视频帧间压缩架构，支持在终端上进行1080p视频编码。在演示中，神经网络视频编解码器能够准确地保留高清视频的丰富视觉结构和复杂动作。

·面向XR的3D重建

高通成功开发了先进的实时3D重建系统，该系统在准确度和高效方面表现出色，能够在任何环境下赋能创建高精度的3D模型。该解决方案在移动终端上运行，从单个图像生成深度图，并将其组合成3D场景。有了准确的实时3D地图，开发者可以解锁大量AR和VR应用。全新设计的互动演示展示了高通的创新实力，用户可向场景中的真实物体（比如墙壁和家具）射击虚拟球，见证基于精确物理计算的逼真反弹效果。该感知技术提升了沉浸式体验，并有望加速元宇宙的广泛普及。

·面向智能摄像头的计算机视觉

基于AI的计算机视觉的进步，推动照片和视频拍摄能力持续演进。高通演示了语义分割、单目深度估测和基于实例分割的虚化效果、背景替换、电影模式，以及锐度、平滑度、清晰度与对比度方面相关的图像质量提升。这些神经网络在搭载骁龙平台的终端上实时运行视频增强特性。

·为增强安全性的驾驶员监测技术

驾驶员监测系统（DMS）演示中展示了如何利用计算机视觉判断危险驾驶状况以提高安全性。驾驶员监测系统通过座舱内主动红外摄像机实时监测驾驶员的特征，如眼睛睁开程度、凝视方向、头部姿势、面部表情和肢体动作等，从而判断驾驶员的驾驶状态。该系统在检测到类似注意力分散和瞌睡等危险驾驶情况时会向司机发出警告，最终帮助挽救生命。驾驶员监测系统和先进驾驶辅助系统（ADAS）能够同时在Snapdragon Ride Flex系统级芯片上同步运行。

·XR虚拟头像

无论逼真或卡通风格，虚拟化身是赋能元宇宙中沉浸式XR体验的基本要素。借助一张或多张2D照片，利用终端侧AI生成个性化网格和相应的纹理。使用头戴式摄像机来观察用户眼睛和嘴巴的移动，实时渲染虚拟头像。由此，可生成更接近于标准现实重建和动画后的虚拟化身，并根据环境进行光照处理。高通的目标是在元宇宙和人机界面中使用的骁龙XR平台上提供数字人。

除了以上技术演示，高通还展示了公司已被业界认可的研究论文。CVPR 2023期间，高通共有八篇论文被主会议收录，主要从充分利用数据和打造更佳架构两大类别出发，对推动计算机视觉前沿发展具有深远影响。

欲了解更多信息，请点击【阅读原文】。

*本文内容来自高通技术公司工程技术副总裁Ning Bi、高通技术公司高级技术总监Fatih Porikli的署名博客。