0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

高通中国 来源:未知 2023-06-27 19:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

6月18日至22日,IEEE/CVF国际计算机视觉与模式识别会议(CVPR)在温哥华举行,该会议不仅是计算机视觉,也是AI领域最重要的年度活动之一。会议期间,高通展示了已被业界认可的研究论文和技术演示。本文将介绍CVPR 2023上高通的展示亮点。

技术演示

高通在AI、计算机视觉、XR和自动驾驶汽车等领域的研究,已从核心理论创新扩展到下游实际应用,例如:

·运行在手机上的全球最快的

ControlNet演示

几个月前,高通展示了全球首个运行在Android手机上的Stable Diffusion终端侧演示,该演示在CVPR上再次呈现。此外,高通AI研究演示了ControlNet图像生成图像模型,该模型拥有15亿参数,可以完全在手机上运行。ControlNet是一项生成式AI解决方案,被称为语言-视觉模型(LVM)。它能够通过调整输入图像和输入文本描述,更精准地控制生成图像。在这项演示中,只用不到12秒即可在移动终端上生成AI图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户体验。这项惊艳的技术演示通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化而实现。在此过程中使用的高通先进AI工具和硬件包括:高通AI模型增效工具包(AIMET)、高通AI软件栈和高通AI引擎。

·支持基于实时视觉大语言模型的 健身教练 高通AI研究利用生成式AI打造出在准确度和真实感方面超越现有解决方案的数字健身教练。健身教练能够提供实时互动,鼓励、纠正并帮助用户实现其健身目标。我们的演示展示了基于视觉的大语言模型如何支持情境式、多模态的实时交互。用户的运动视频流先经过动作识别模型进行处理。根据识别的动作,状态编排器(stateful orchestrator)提供提示并输入给大语言模型。健身教练通过一个语音合成(文本生成语音)的虚拟化身,将大语言模型的答复送回给用户。这项演示的实现主要归功于三项关键创新:为检测精细化健身动作而训练的视觉模型、为生成基于视觉概念的语言而训练的语言模型,以及能够协调两个模态之间流动交互的编排器,便于实时对话式的辅导反馈。凭借上述创新,就能够支持健身教练为用户提供实时的沉浸式动态交互体验。

·全球首个在手机上进行的1080p

神经网络视频编码

终端侧AI的另一项全球首创即在移动终端上的1080p视频编码和解码过程。神经网络编解码器用途十分广泛:可针对特定视频需求进行定制,通过生成式AI的优势对感知质量进行优化,扩展至全新模态,在通用AI硬件上运行。但同时也将带来难以在计算能力有限的终端上应对的诸多挑战。高通设计了全新高效的神经网络视频帧间压缩架构,支持在终端上进行1080p视频编码。在演示中,神经网络视频编解码器能够准确地保留高清视频的丰富视觉结构和复杂动作。

·面向XR的3D重建

高通成功开发了先进的实时3D重建系统,该系统在准确度和高效方面表现出色,能够在任何环境下赋能创建高精度的3D模型。该解决方案在移动终端上运行,从单个图像生成深度图,并将其组合成3D场景。有了准确的实时3D地图,开发者可以解锁大量AR和VR应用。全新设计的互动演示展示了高通的创新实力,用户可向场景中的真实物体(比如墙壁和家具)射击虚拟球,见证基于精确物理计算的逼真反弹效果。该感知技术提升了沉浸式体验,并有望加速元宇宙的广泛普及。

·面向智能摄像头的计算机视觉

基于AI的计算机视觉的进步,推动照片和视频拍摄能力持续演进。高通演示了语义分割、单目深度估测和基于实例分割的虚化效果、背景替换、电影模式,以及锐度、平滑度、清晰度与对比度方面相关的图像质量提升。这些神经网络在搭载骁龙平台的终端上实时运行视频增强特性。

·为增强安全性的驾驶员监测技术

驾驶员监测系统(DMS)演示中展示了如何利用计算机视觉判断危险驾驶状况以提高安全性。驾驶员监测系统通过座舱内主动红外摄像机实时监测驾驶员的特征,如眼睛睁开程度、凝视方向、头部姿势、面部表情和肢体动作等,从而判断驾驶员的驾驶状态。该系统在检测到类似注意力分散和瞌睡等危险驾驶情况时会向司机发出警告,最终帮助挽救生命。驾驶员监测系统和先进驾驶辅助系统(ADAS)能够同时在Snapdragon Ride Flex系统级芯片上同步运行。

·XR虚拟头像

无论逼真或卡通风格,虚拟化身是赋能元宇宙中沉浸式XR体验的基本要素。借助一张或多张2D照片,利用终端侧AI生成个性化网格和相应的纹理。使用头戴式摄像机来观察用户眼睛和嘴巴的移动,实时渲染虚拟头像。由此,可生成更接近于标准现实重建和动画后的虚拟化身,并根据环境进行光照处理。高通的目标是在元宇宙和人机界面中使用的骁龙XR平台上提供数字人。

除了以上技术演示,高通还展示了公司已被业界认可的研究论文。CVPR 2023期间,高通共有八篇论文被主会议收录,主要从充分利用数据和打造更佳架构两大类别出发,对推动计算机视觉前沿发展具有深远影响。

欲了解更多信息,请点击【阅读原文】。

*本文内容来自高通技术公司工程技术副总裁Ning Bi、高通技术公司高级技术总监Fatih Porikli的署名博客。

a9b9112a-14da-11ee-962d-dac502259ad0.gif  


原文标题:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

文章出处:【微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高通
    +关注

    关注

    78

    文章

    7761

    浏览量

    200595
  • 生成式AI
    +关注

    关注

    0

    文章

    538

    浏览量

    1144

原文标题:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

文章出处:【微信号:Qualcomm_China,微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    传音相关研究成果入选计算机视觉顶会CVPR 2026

    (Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI)联合开展的“拍照解题”项目研究取得重要进展,相关成果论文已被计算机
    的头像 发表于 04-03 17:45 3080次阅读
    传音相关<b class='flag-5'>研究成果</b>入选<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>顶会CVPR 2026

    奕行智能论文入选国际计算机体系结构顶级会议 ISCA 2026

    ISCA 2026(International Symposium on Computer Architecture,国际计算机体系结构年会)。 ISCA 创立于 1973 ,是计算机
    的头像 发表于 04-01 15:24 578次阅读
    奕行智能论文入选<b class='flag-5'>国际</b><b class='flag-5'>计算机</b>体系结构顶级<b class='flag-5'>会议</b> ISCA 2026

    安提国际于NVIDIA GTC 2026展示3D视觉与企业生成AI,打造Physical AI落地基石

    【20263月12日,台北】全球边缘AI解决方案领先供应商安提国际(AetinaCorporation),将于NVIDIAGTC2026展示
    的头像 发表于 03-13 11:25 387次阅读
    安提<b class='flag-5'>国际</b>于NVIDIA GTC 2026<b class='flag-5'>展示</b>3D<b class='flag-5'>视觉</b>与企业<b class='flag-5'>生成</b><b class='flag-5'>式</b><b class='flag-5'>AI</b>,打造Physical <b class='flag-5'>AI</b>落地基石

    Nullmax研发团队静态元素检测和拓扑推理新成果入选CVPR 2026

    CVPR 2026(国际计算机视觉模式识别会议)论文录用结果揭晓,Nullmax 研发团队
    的头像 发表于 02-28 10:08 735次阅读

    虹科 owa5X 无线嵌入式计算机 工业级边缘计算终端与车载网关优选

    从工业级边缘计算终端到车载高性能边缘计算网关,从工业级嵌入式计算机边缘智能解决方案,虹科 ow
    的头像 发表于 02-10 17:08 333次阅读
    虹科 owa5X 无线嵌入<b class='flag-5'>式计算机</b> 工业级<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>终端与车载网关优选

    奥比中光3D视觉技术赋能IROS 2025研究成果

    全球机器人领域最具影响力的学术会议IROS 2025于10月19日至25日杭州国际博览中心举行。大会收录的多篇论文的研究成果采用了奥比中光的3D
    的头像 发表于 10-23 16:29 1027次阅读

    AI 边缘计算网关:开启智能新时代的钥匙​—龙兴物联

    顺畅地通向云端,实现设备与云端之间高效的数据传输与交互。通过融合先进边缘计算和人工智能技术,AI 边缘
    发表于 08-09 16:40

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025国际计算机视觉模式识别顶级会议(IEEE/CVF Conference on
    的头像 发表于 07-29 16:54 1477次阅读

    NVIDIA展示机器人领域的研究成果

    今年的机器人科学与系统会议 (RSS) ,NVIDIA 研究中心展示了一系列推动机器人学习的研究成果
    的头像 发表于 07-23 10:43 1760次阅读

    Nullmax端到端自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队端到端自动驾驶方向的最新研究成果《HiP-AD
    的头像 发表于 07-05 15:40 2043次阅读
    Nullmax端到端自动驾驶最新<b class='flag-5'>研究成果</b>入选ICCV 2025

    后摩智能与高校合作研究成果荣获ISCA 2025最佳论文奖

    》,成功荣获第52届计算机体系结构国际研讨会(ISCA)最佳论文奖。作为国内学术机构会议的首次获奖
    的头像 发表于 07-05 11:21 2797次阅读

    理想汽车八篇论文入选ICCV 2025

    ,与CVPR(国际计算机视觉模式识别会议)、ECCV(欧洲计算机
    的头像 发表于 07-03 13:58 1379次阅读

    基于LockAI视觉识别模块:手写数字识别

    手写数字识别是一种经典的模式识别和图像处理问题,旨在通过计算机自动识别用户手写的数字。本文将教会你如何使用基于RV1106的LockAI视觉
    的头像 发表于 06-30 15:44 1346次阅读
    基于LockAI<b class='flag-5'>视觉</b><b class='flag-5'>识别</b>模块:手写数字<b class='flag-5'>识别</b>

    NVIDIA荣获CVPR 2025辅助驾驶国际挑战赛冠军

    NVIDIA 本周美国田纳西州举办的国际计算机视觉模式识别会议(CVPR)
    的头像 发表于 06-16 14:44 1083次阅读

    NVIDIAICRA 2025展示多项最新研究成果

    亚特兰大举行的国际机器人与自动化大会 (ICRA) ,NVIDIA 展示了其在生成
    的头像 发表于 06-06 14:56 1657次阅读