0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习让图像、语音等感知类问题取得突破

倩倩 来源:光明日报 2020-01-02 14:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,清华大学-中国工程院知识智能联合研究中心、中国人工智能学会吴文俊人工智能科学技术奖评选基地联合发布了《2019人工智能发展报告》,遴选了13个人工智能的重点领域,包括深度学习计算机视觉语音识别机器人等热点前沿技术的基础及应用研究、发展动向等。

深度学习让图像、语音等感知类问题取得突破

机器学习是一门多领域交叉学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能。

1950年,阿兰·图灵创造了图灵测试来判定计算机是否智能。图灵测试认为,如果一台机器能够与人类展开对话而不能被辨别出其机器身份,那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。

后来,IBM科学家亚瑟·塞缪尔开发的跳棋程序,驳倒了普罗维登斯提出的机器无法超越人类的论断,像人类一样写代码和学习的模式,他创造了“机器学习”这一术语。

然而,从20世纪60年代中期到70年代末期,机器学习的发展步伐几乎停滞。无论是理论研究还是计算机硬件限制,整个人工智能领域的发展都遇到了很大的瓶颈,神经网络学习机因理论缺陷也未能达到预期效果而转入低潮。直到伟博斯在神经网络反向传播(BP)算法中具体提出了多层感知机模型,机器学习得以重振,并且直到今天BP算法仍然是神经网络架构的关键因素。

神经网络研究人员相继提出了使用BP算法训练的多参数线性规划的理念,成为后来深度学习的基石。在另一个谱系中,昆兰提出了一种非常出名的机器学习算法,具体地说是ID3算法,这种算法至今仍然活跃在机器学习领域中。

机器学习迎来爆发期是神经网络研究领域领军者Hinton在2006年提出了神经网络Deep Learning算法,使神经网络的能力大大提高。Hinton和他的学生 Salakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。

2015年,为纪念人工智能概念提出60周年,LeCun、Bengio和Hinton推出了深度学习的联合综述。深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示,这些方法在许多方面都带来了显著的改善。深度学习的出现,让图像、语音等感知类问题取得了真正意义上的突破,离实际应用已如此之近,将人工智能推进到一个新时代。

计算机视觉催生出人脸识别、智能视频监控等应用

计算机视觉,顾名思义,是分析、研究让计算机智能化地达到类似人类的双眼“看”的一门研究科学,即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。

计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别、决策等功能。

马尔(David Marr)《视觉》一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。

马尔认为,大脑的神经计算和计算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别,如目前兴起的神经形态计算,但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并不影响马尔计算视觉理论的本质属性。

20世纪90年代初,计算机视觉从“萧条”走向“繁荣”,主要得益于以下二方面的因素:一方面,瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议、考古、虚拟现实、视频监控等;另一方面,人们发现,多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

多视几何的代表性人物首数法国INRIA的O.Faugeras,美国 GE研究院的R.Hartely和英国牛津大学的A.Zisserman。2000年Hartely和Zisserman合著的书对这方面的内容给出了比较系统的总结。大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。举一个简单例子,假如要三维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像(4000×3000)、5千幅高分辨率无人机图像(8000×7000),三维重建要匹配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。

基于学习的视觉,则是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究,文献中大体上分为二个阶段:21世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。

近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。

语音识别被应用于工业、通信、医疗等行业

语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。

语音识别的研究工作可以追溯到20世纪50年代。在1952年,AT&T贝尔研究所研究成功了世界上第一个语音识别系统Audry 系统,可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。

计算机的应用推动了语音识别技术的发展,使用了电子计算机进行语音识别,提出了一系列语音识别技术的新理论——动态规划线性预测分析技术,较好地解决了语音信号产生的模型问题。在20世纪70年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。这一时期的语音识别方法基本上是采用传统的模式识别策略。

后来,语音识别研究进一步走向深入。这一时期所取得的重大进展有:隐马尔科夫模型(HMM)技术的成熟和不断完善,并最终成为语音识别的主流方法;以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型;人工神经网络在语音识别中的应用研究兴起。ANN具有较好的区分复杂分类边界的能力,显然它十分有助于模式识别。在这些研究中,大部分采用基于反向传播算法(BP算法)的多层感知网络。

语音识别技术逐渐走向实用化,在建立模型、提取和优化特征参数方面取得了突破性的进展,使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品,从而许多具有代表性的产品问世。比如IBM公司研发的汉语ViaVoice系统,以及Dragon公司研发的DragonDictate系统,都具有说话人自适应能力,能在用户使用过程中不断提高识别率。

21世纪之后,深度学习技术极大地促进了语音识别技术的进步,使其识别精度大大提高,应用得到广泛发展。2009年,Hinton将深度神经网络(DNN)应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升。同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。

目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话,其中包括美国苹果公司的Siri语音助手、智能360语音助手、百度语音助手等。

机器人与有机生命越来越接近

机器人广义上包括一切模拟人类行为或思想以及模拟其他生物的机械(如机器狗、机器猫等)。目前,智能机器人已成为世界各国的研究热点之一,成为衡量一国工业化水平的重要标志。

机器人技术最早应用于工业领域,但随着机器人技术的发展和各行业需求的提升,在计算机技术、网络技术、MEMS技术等新技术发展的推动下,近年来,机器人技术正从传统的工业制造领域向医疗服务、教育娱乐、勘探勘测、生物工程、救灾救援等领域迅速扩展,适应不同领域需求的机器人系统被深入研究和开发。过去几十年,机器人技术的研究与应用,大大推动了人类的工业化和现代化进程,并逐步形成了机器人的产业链,使机器人的应用范围也日趋广泛。

在机器人崭露头角于工业生产的同时,机器人技术研究不断深入。1961年,美国麻省理工学院Lincoln实验室把一个配有接触传感器的遥控操纵器的从动部分与一台计算机联结在一起,这样形成的机器人可以凭触觉决定物体的状态。随后,用电视摄像头作为输入的计算机图像处理、物体辨识的研究工作也陆续取得成果。1968年,美国斯坦福人工智能实验室的J.McCarthy等人研究了新颖的课题——研制带有手、眼、耳的计算机系统。于是,智能机器人的研究形象逐渐丰满起来。

20世纪70年代以来,机器人产业蓬勃兴起,机器人技术发展为专门的学科。工业机器人首先在汽车制造业的流水线生产中开始大规模应用,随后,诸如日本、德国、美国这样的制造业发达国家开始在其他工业生产中也大量采用机器人作业。

后来,机器人朝着越来越智能化的方向发展,这种机器人带有多种传感器,能够将多种传感器得到的信息进行融合,能够有效地适应变化的环境,具有很强的自适应能力、学习能力和自治功能。

智能机器人的发展主要经历了三个阶段,分别是可编程试教、再现型机器人,有感知能力和自适应能力的机器人,智能机器人。其中所涉及到的关键技术有多传感器信息融合、导航与定位、路径规划、机器人视觉智能控制和人机接口技术等。

进入21世纪,随着劳动力成本的不断提高、技术的不断进步,各国陆续进行制造业的转型与升级,出现了机器人替代人的热潮。同时,人工智能发展日新月异,服务机器人也开始走进普通家庭的生活。

世界上许多机器人科技公司都在大力发展机器人技术,机器人的特质与有机生命越来越接近。最近,波士顿动力公司在机器人领域的成就已经成为人们的焦点,其产品机器狗Spot和双足人形机器人Atlas都让人大为惊叹。Spot的功能十分先进,可以前往你告诉它要去的目的地,避开障碍,并在极端情况下保持平衡。Spot还可以背负多达四个硬件模块,为公司提供其他多款机器人完成特定工作所需的任何技能;Atlas已经掌握了倒立、360度翻转、旋转等多项技能,继表演跑酷、后空翻等绝技之后,Atlas又掌握了一项新技能——体操,再次让人们大开眼界。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31682

    浏览量

    224617
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42508
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124779
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RetinaNet深度学习模型突破航空图像目标检测难题

    深度学习模型交出了亮眼的答卷——它One-stage检测器超越了传统Two-stage方法的精度,成为了航空图像分析领域的重要工具。
    的头像 发表于 05-15 09:23 1590次阅读
    RetinaNet<b class='flag-5'>深度</b><b class='flag-5'>学习</b>模型<b class='flag-5'>突破</b>航空<b class='flag-5'>图像</b>目标检测难题

    海康威视推出垂大模型软件产品

    海康威视推出垂大模型软件产品,以海康观澜多模态大模型为底座,融合可见光、热成像、毫米波多维感知技术,结合丰富的行业知识,推动垂大模型与业务场景
    的头像 发表于 04-24 16:27 634次阅读

    深度相机:从技术突破到全场景落地,解锁三维感知新可能

    在智能制造、智能机器人、户外巡检领域快速升级的当今,三维感知技术已成为连接物理世界与数字世界的重要桥梁,而深度相机作为三维感知的重要载体,正逐步打破传统视觉
    的头像 发表于 04-15 15:04 457次阅读
    <b class='flag-5'>深度</b>相机:从技术<b class='flag-5'>突破</b>到全场景落地,解锁三维<b class='flag-5'>感知</b>新可能

    双目深度相机:模拟人眼视觉,解锁三维感知新可能

    在三维感知技术快速迭代的现在,深度相机作为机器获取空间信息的重要“眼睛”,已渗透到工业自动化、机器人导航、AR/VR、智能家居多个领域。其中,双目深度相机凭借其被动式工作、成本可控、
    的头像 发表于 04-13 14:50 445次阅读
    双目<b class='flag-5'>深度</b>相机:模拟人眼视觉,解锁三维<b class='flag-5'>感知</b>新可能

    卷积神经网络如何自动驾驶识别障碍物?

    自动驾驶的发展过程中,感知系统一直承担车辆“眼睛”的角色,其核心任务是计算机理解复杂多变的物理世界。卷积神经网络(CNN)作为一种专门用于处理图像和视频网格状数据结构的
    的头像 发表于 04-11 09:59 1591次阅读
    卷积神经网络如何<b class='flag-5'>让</b>自动驾驶识别障碍物?

    穿孔机顶头检测仪 机器视觉深度学习

    ,能适用恶劣工况,在粉尘、高温、氧化皮恶劣环境中均可正常工作。 测量原理 利用顶头与周围的物质(水、空气、导盘)红外辐射能量的差异,用热成像相机拍摄出清晰的图片,再通过深度学习短时
    发表于 12-22 14:33

    瑞萨电子MCU/MPU产品助力AIoT设计

    人工智能(Artificial Intelligence,AI)是一门机器进行感知、理解、推理和学习的技术,核心的实现方式是机器学习深度
    的头像 发表于 12-02 14:18 3085次阅读
    瑞萨电子MCU/MPU产品助力AIoT设计

    西安光机所智能光谱环境感知研究取得重要突破

    Index 收录,5-Year IF: 11.7),并入选封面论文。论文第一作者为刘嘉诚,通信作者为于涛和胡炳樑,西安光机所是第一完成单位和通信单位。这是西安光机所首次在该期刊发表文章,标志着研究所在智能光谱环境感知领域的研究在国际学术领域取得了新
    的头像 发表于 10-11 09:29 482次阅读
    西安光机所智能光谱环境<b class='flag-5'>感知</b>研究<b class='flag-5'>取得</b>重要<b class='flag-5'>突破</b>

    VoNR语音感知端到端优化方案

    自2022年VoNR正式商用以来,用户数快速增长,截止2024年初,5G语音用户中VoNR占比超过80%,EPS Fallback占比已不足20%。随着VoNR用户数增加,语音用户感知对运营商口碑影响越来越大,VoNR
    的头像 发表于 09-24 10:22 1675次阅读
    VoNR<b class='flag-5'>语音感知</b>端到端优化方案

    深度学习+多维感知!AI技术突破智能戒指边界

    的功能边界,通过AI算法的深度赋能,实现了从被动监测到主动洞察、从基础功能到创新交互的跨越。   多维感知+算法赋能:AI重构健康监测体系 在健康领域,AI技术智能戒指从“数据采集”迈向了“智能分析”。9月4日,追觅发布的全球
    的头像 发表于 09-07 03:23 9252次阅读

    再掀语音交互革命,广和通AI解决方案加速机器人听觉进化

    在机器人世界里,感知是智能化的第一步,是机器人获取环境信息,学习适应并自主决策的前提。听觉作为五感之一,深度融合AI,可帮助机器人实现高效感知、数据获取、
    的头像 发表于 08-26 17:44 1129次阅读

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景
    的头像 发表于 08-20 14:56 1328次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径
    的头像 发表于 08-13 09:15 4467次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    深度学习遇上嵌入式资源困境,特征空间如何破局?

    近年来,随着人工智能(AI)技术的迅猛发展,深度学习(Deep Learning)成为最热门的研究领域之一。在语音识别、图像识别、自然语言处理
    发表于 07-14 14:50 1346次阅读
    当<b class='flag-5'>深度</b><b class='flag-5'>学习</b>遇上嵌入式资源困境,特征空间如何破局?