0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

高通中国 来源:未知 2023-06-27 19:15 次阅读
6月18日至22日,IEEE/CVF国际计算机视觉与模式识别会议(CVPR)在温哥华举行,该会议不仅是计算机视觉,也是AI领域最重要的年度活动之一。会议期间,高通展示了已被业界认可的研究论文和技术演示。本文将介绍CVPR 2023上高通的展示亮点。

技术演示

高通在AI、计算机视觉、XR和自动驾驶汽车等领域的研究,已从核心理论创新扩展到下游实际应用,例如:

·运行在手机上的全球最快的

ControlNet演示

几个月前,高通展示了全球首个运行在Android手机上的Stable Diffusion终端侧演示,该演示在CVPR上再次呈现。此外,高通AI研究演示了ControlNet图像生成图像模型,该模型拥有15亿参数,可以完全在手机上运行。ControlNet是一项生成式AI解决方案,被称为语言-视觉模型(LVM)。它能够通过调整输入图像和输入文本描述,更精准地控制生成图像。在这项演示中,只用不到12秒即可在移动终端上生成AI图像,无需访问任何云端,便能提供高效、有趣、可靠且私密的交互式用户体验。这项惊艳的技术演示通过一套跨模型架构、AI软件和神经网络硬件加速器的全栈式AI优化而实现。在此过程中使用的高通先进AI工具和硬件包括:高通AI模型增效工具包(AIMET)、高通AI软件栈和高通AI引擎。

·支持基于实时视觉大语言模型的 健身教练 高通AI研究利用生成式AI打造出在准确度和真实感方面超越现有解决方案的数字健身教练。健身教练能够提供实时互动,鼓励、纠正并帮助用户实现其健身目标。我们的演示展示了基于视觉的大语言模型如何支持情境式、多模态的实时交互。用户的运动视频流先经过动作识别模型进行处理。根据识别的动作,状态编排器(stateful orchestrator)提供提示并输入给大语言模型。健身教练通过一个语音合成(文本生成语音)的虚拟化身,将大语言模型的答复送回给用户。这项演示的实现主要归功于三项关键创新:为检测精细化健身动作而训练的视觉模型、为生成基于视觉概念的语言而训练的语言模型,以及能够协调两个模态之间流动交互的编排器,便于实时对话式的辅导反馈。凭借上述创新,就能够支持健身教练为用户提供实时的沉浸式动态交互体验。

·全球首个在手机上进行的1080p

神经网络视频编码

终端侧AI的另一项全球首创即在移动终端上的1080p视频编码和解码过程。神经网络编解码器用途十分广泛:可针对特定视频需求进行定制,通过生成式AI的优势对感知质量进行优化,扩展至全新模态,在通用AI硬件上运行。但同时也将带来难以在计算能力有限的终端上应对的诸多挑战。高通设计了全新高效的神经网络视频帧间压缩架构,支持在终端上进行1080p视频编码。在演示中,神经网络视频编解码器能够准确地保留高清视频的丰富视觉结构和复杂动作。

·面向XR的3D重建

高通成功开发了先进的实时3D重建系统,该系统在准确度和高效方面表现出色,能够在任何环境下赋能创建高精度的3D模型。该解决方案在移动终端上运行,从单个图像生成深度图,并将其组合成3D场景。有了准确的实时3D地图,开发者可以解锁大量AR和VR应用。全新设计的互动演示展示了高通的创新实力,用户可向场景中的真实物体(比如墙壁和家具)射击虚拟球,见证基于精确物理计算的逼真反弹效果。该感知技术提升了沉浸式体验,并有望加速元宇宙的广泛普及。

·面向智能摄像头的计算机视觉

基于AI的计算机视觉的进步,推动照片和视频拍摄能力持续演进。高通演示了语义分割、单目深度估测和基于实例分割的虚化效果、背景替换、电影模式,以及锐度、平滑度、清晰度与对比度方面相关的图像质量提升。这些神经网络在搭载骁龙平台的终端上实时运行视频增强特性。

·为增强安全性的驾驶员监测技术

驾驶员监测系统(DMS)演示中展示了如何利用计算机视觉判断危险驾驶状况以提高安全性。驾驶员监测系统通过座舱内主动红外摄像机实时监测驾驶员的特征,如眼睛睁开程度、凝视方向、头部姿势、面部表情和肢体动作等,从而判断驾驶员的驾驶状态。该系统在检测到类似注意力分散和瞌睡等危险驾驶情况时会向司机发出警告,最终帮助挽救生命。驾驶员监测系统和先进驾驶辅助系统(ADAS)能够同时在Snapdragon Ride Flex系统级芯片上同步运行。

·XR虚拟头像

无论逼真或卡通风格,虚拟化身是赋能元宇宙中沉浸式XR体验的基本要素。借助一张或多张2D照片,利用终端侧AI生成个性化网格和相应的纹理。使用头戴式摄像机来观察用户眼睛和嘴巴的移动,实时渲染虚拟头像。由此,可生成更接近于标准现实重建和动画后的虚拟化身,并根据环境进行光照处理。高通的目标是在元宇宙和人机界面中使用的骁龙XR平台上提供数字人。

除了以上技术演示,高通还展示了公司已被业界认可的研究论文。CVPR 2023期间,高通共有八篇论文被主会议收录,主要从充分利用数据和打造更佳架构两大类别出发,对推动计算机视觉前沿发展具有深远影响。

欲了解更多信息请点击【阅读原文】。

*本文内容来自高通技术公司工程技术副总裁Ning Bi、高通技术公司高级技术总监Fatih Porikli的署名博客。

a9b9112a-14da-11ee-962d-dac502259ad0.gif  


原文标题:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

文章出处:【微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高通
    +关注

    关注

    76

    文章

    7163

    浏览量

    187886
  • 生成式AI
    +关注

    关注

    0

    文章

    349

    浏览量

    212

原文标题:高通在2023年国际计算机视觉与模式识别会议上,展示先进研究成果并将生成式AI引入边缘侧

文章出处:【微信号:Qualcomm_China,微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算机视觉与图像处理、模式识别、机器学习学科之间的关系

    计算机视觉(computer vision):用计算机来模拟人的视觉机理获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟
    的头像 发表于 01-18 16:41 247次阅读

    AI边缘计算机应用场景广泛!大语言模型与数字人结合方案在边缘侧落地

    电子发烧友网报道(文/李弯弯)AI边缘计算机是一种人工智能和边缘计算技术相结合的计算机设备。它可
    的头像 发表于 01-16 01:11 1558次阅读

    计算机视觉AI如何识别与理解图像

    计算机视觉是人工智能领域的一个重要分支,它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展,人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨
    的头像 发表于 01-12 08:27 643次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>:<b class='flag-5'>AI</b>如何<b class='flag-5'>识别</b>与理解图像

    计算机快速全息生成技术研究

    快速全息生成技术依赖于计算机生成的全息影像 (CGH) 的快速创建。目前,基于光线追踪的计算机生成全息图的快速
    的头像 发表于 12-12 11:15 248次阅读
    <b class='flag-5'>计算机</b>快速全息<b class='flag-5'>生成</b>技术<b class='flag-5'>研究</b>

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    英特尔研究院将在NeurIPS 2023大会上展示一系列富有价值、业界领先的AI创新成果。面向广大开发者、
    的头像 发表于 12-08 19:15 350次阅读

    英特尔研究院将在NeurIPS大会上展示业界领先的AI研究成果

    人员和学界人士,这一AI计算机视觉领域的全球顶会将于12月10日至16日在美国新奥尔良市举办。        在NeurIPS 2023上,英特尔
    的头像 发表于 12-08 09:17 403次阅读

    PRCV 2023大会正式落幕,合合信息分享多模态及图像安全前沿研究成果

    近期,由中国计算机学会(CCF)、中国自动化学会(CAA)、中国图象图形学学会(CSIG)和中国人工智能学会(CAAI)联合主办的2023年中国模式识别计算机
    的头像 发表于 10-30 17:56 467次阅读
    PRCV <b class='flag-5'>2023</b>大会正式落幕,合合信息分享多模态及图像安全前沿<b class='flag-5'>研究成果</b>

    英码科技精彩亮相火爆的IOTE 2023,多面赋能AIoT产业发展!

    地结合业务需求生成算法,并结合国产AI边缘计算算力设备进行移植优化,是解决AI算力产品国产化,并推动AI
    发表于 09-25 10:03

    【RISC-V + OpenCV 计算机视觉】用 VisionFive 2 昉·星光 2 进行物体识别

    RVSpace:【RISC-V + OpenCV 计算机视觉】用 VisionFive 2 昉·星光 2 进行物体识别 bilibili:【【RISC-V + OpenCV 计算机
    发表于 09-08 11:42

    人工智能模式识别技术有哪些

    人工智能模式识别技术有哪些 人工智能(Artificial Intelligence,AI)是指模仿人类智能思维的计算机技术。模式识别是人工智能技术的重要组成部分之一,它是指从大量数据
    的头像 发表于 08-15 16:08 1854次阅读

    模式识别与人工智能

    模式识别与人工智能  模式识别与人工智能是近年来迅速发展的领域,它们涉及计算机科学、心理学、数学、物理学等多个学科,对各行各业的发展都有积极的影响。本文将就模式识别与人工智能的基本概念
    的头像 发表于 08-15 16:07 2804次阅读

    人工智能计算机视觉方向是什么

    “看”并作出决策。 计算机视觉是人工智能领域的一大分支,是以计算机和数字图像处理技术为手段,通过对视觉信息的处理和分析来实现人工智能的各类应用。计算
    的头像 发表于 08-15 16:06 1197次阅读

    机器视觉计算机视觉的区别

    机器视觉计算机视觉的区别 机器视觉计算机视觉是两个相关但不同的概念。虽然许多人使用这两个术语
    的头像 发表于 08-09 16:51 1140次阅读

    计算机视觉是什么 计算机视觉历史及发展趋势

    正像其它学科一样,一个大量人员研究了多年的学科,却很难给出一个严格的定义,模式识别如此,目前火热的人工智能如此,计算机视觉亦如此。与计算机
    发表于 07-20 15:41 0次下载

    计算机视觉相关概念总结

    为了帮助同事和客户了解更多有关计算机视觉AI的更多信息,我们言简意赅介绍一些计算机视觉AI
    的头像 发表于 05-31 10:11 519次阅读