深度学习让图像、语音等感知类问题取得突破-电子发烧友网

近期，清华大学-中国工程院知识智能联合研究中心、中国人工智能学会吴文俊人工智能科学技术奖评选基地联合发布了《2019人工智能发展报告》，遴选了13个人工智能的重点领域，包括深度学习、计算机视觉、语音识别、机器人等热点前沿技术的基础及应用研究、发展动向等。

深度学习让图像、语音等感知类问题取得突破

机器学习是一门多领域交叉学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能。

1950年，阿兰·图灵创造了图灵测试来判定计算机是否智能。图灵测试认为，如果一台机器能够与人类展开对话而不能被辨别出其机器身份，那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。

后来，IBM科学家亚瑟·塞缪尔开发的跳棋程序，驳倒了普罗维登斯提出的机器无法超越人类的论断，像人类一样写代码和学习的模式，他创造了“机器学习”这一术语。

然而，从20世纪60年代中期到70年代末期，机器学习的发展步伐几乎停滞。无论是理论研究还是计算机硬件限制，整个人工智能领域的发展都遇到了很大的瓶颈，神经网络学习机因理论缺陷也未能达到预期效果而转入低潮。直到伟博斯在神经网络反向传播（BP）算法中具体提出了多层感知机模型，机器学习得以重振，并且直到今天BP算法仍然是神经网络架构的关键因素。

神经网络研究人员相继提出了使用BP算法训练的多参数线性规划的理念，成为后来深度学习的基石。在另一个谱系中，昆兰提出了一种非常出名的机器学习算法，具体地说是ID3算法，这种算法至今仍然活跃在机器学习领域中。

机器学习迎来爆发期是神经网络研究领域领军者Hinton在2006年提出了神经网络Deep Learning算法，使神经网络的能力大大提高。Hinton和他的学生 Salakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。

2015年，为纪念人工智能概念提出60周年，LeCun、Bengio和Hinton推出了深度学习的联合综述。深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示，这些方法在许多方面都带来了显著的改善。深度学习的出现，让图像、语音等感知类问题取得了真正意义上的突破，离实际应用已如此之近，将人工智能推进到一个新时代。

计算机视觉催生出人脸识别、智能视频监控等应用

计算机视觉，顾名思义，是分析、研究让计算机智能化地达到类似人类的双眼“看”的一门研究科学，即对于客观存在的三维立体化的世界的理解以及识别依靠智能化的计算机去实现。

计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别、决策等功能。

马尔（David Marr）《视觉》一书的问世，标志着计算机视觉成为了一门独立学科。计算机视觉40多年的发展中，尽管人们提出了大量的理论和方法，但总体上说，计算机视觉经历了三个主要历程：马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

目前，在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。马尔的计算视觉分为三个层次：计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果，所以马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。

马尔认为，大脑的神经计算和计算机的数值计算没有本质区别，所以马尔没有对“算法实现”进行任何探讨。从现在神经科学的进展看，“神经计算”与数值计算在有些情况下会产生本质区别，如目前兴起的神经形态计算，但总体上说，“数值计算”可以“模拟神经计算”。至少从现在看，“算法的不同实现途径”，并不影响马尔计算视觉理论的本质属性。

20世纪90年代初，计算机视觉从“萧条”走向“繁荣”，主要得益于以下二方面的因素：一方面，瞄准的应用领域从精度和鲁棒性要求太高的“工业应用”转到要求不太高，特别是仅仅需要“视觉效果”的应用领域，如远程视频会议、考古、虚拟现实、视频监控等;另一方面，人们发现，多视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

多视几何的代表性人物首数法国INRIA的O.Faugeras，美国 GE研究院的R.Hartely和英国牛津大学的A.Zisserman。2000年Hartely和Zisserman合著的书对这方面的内容给出了比较系统的总结。大数据需要全自动重建，而全自动重建需要反复优化，而反复优化需要花费大量计算资源。举一个简单例子，假如要三维重建北京中关村地区，为了保证重建的完整性，需要获取大量的地面和无人机图像。假如获取了1万幅地面高分辨率图像（4000×3000）、5千幅高分辨率无人机图像（8000×7000），三维重建要匹配这些图像，从中选取合适的图像集，然后对相机位置信息进行标定并重建出场景的三维结构，如此大的数据量，人工干预是不可能的，所以整个三维重建流程必须全自动进行。

基于学习的视觉，则是指以机器学习为主要技术手段的计算机视觉研究。基于学习的视觉研究，文献中大体上分为二个阶段：21世纪初的以流形学习为代表的子空间法和目前以深度学习为代表的视觉方法。

近年来，巨量数据的不断涌现与计算能力的快速提升，给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题，计算机视觉也因此成为学术界和工业界公认的前瞻性研究领域，部分研究成果已实际应用，催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。

语音识别被应用于工业、通信、医疗等行业

语音识别是让机器识别和理解说话人语音信号内容的新兴学科，目的是将语音信号转变为文本字符或者命令的智能技术，利用计算机理解讲话人的语义内容，使其听懂人类的语音，从而判断说话人的意图，是一种非常自然和有效的人机交流方式。

语音识别的研究工作可以追溯到20世纪50年代。在1952年，AT&T贝尔研究所研究成功了世界上第一个语音识别系统Audry 系统，可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字，并且很大程度上依赖于每个数字中的元音的共振峰的测量。

计算机的应用推动了语音识别技术的发展，使用了电子计算机进行语音识别，提出了一系列语音识别技术的新理论——动态规划线性预测分析技术，较好地解决了语音信号产生的模型问题。在20世纪70年代，语音识别研究取得了重大的具有里程碑意义的成果，伴随着自然语言理解的研究以及微电子技术的发展，语音识别领域取得了突破性进展。这一时期的语音识别方法基本上是采用传统的模式识别策略。

后来，语音识别研究进一步走向深入。这一时期所取得的重大进展有：隐马尔科夫模型（HMM）技术的成熟和不断完善，并最终成为语音识别的主流方法；以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候，除了识别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域，还产生了基于统计概率的语言模型；人工神经网络在语音识别中的应用研究兴起。ANN具有较好的区分复杂分类边界的能力，显然它十分有助于模式识别。在这些研究中，大部分采用基于反向传播算法（BP算法）的多层感知网络。

语音识别技术逐渐走向实用化，在建立模型、提取和优化特征参数方面取得了突破性的进展，使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品，从而许多具有代表性的产品问世。比如IBM公司研发的汉语ViaVoice系统，以及Dragon公司研发的DragonDictate系统，都具有说话人自适应能力，能在用户使用过程中不断提高识别率。

21世纪之后，深度学习技术极大地促进了语音识别技术的进步，使其识别精度大大提高，应用得到广泛发展。2009年，Hinton将深度神经网络（DNN）应用于语音的声学建模，在TIMIT上获得了当时最好的结果。2011年底，微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上，大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。DNN带来的好处是不再需要对语音数据分布进行假设，将相邻的语音帧拼接又包含了语音的时序结构信息，使得对于状态的分类概率有了明显提升。同时DNN还具有强大环境学习能力，可以提升对噪声和口音的鲁棒性。

目前，语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如，现今流行的手机语音助手，就是将语音识别技术应用到智能手机中，能够实现人与手机的智能对话，其中包括美国苹果公司的Siri语音助手、智能360语音助手、百度语音助手等。

机器人与有机生命越来越接近

机器人广义上包括一切模拟人类行为或思想以及模拟其他生物的机械（如机器狗、机器猫等）。目前，智能机器人已成为世界各国的研究热点之一，成为衡量一国工业化水平的重要标志。

机器人技术最早应用于工业领域，但随着机器人技术的发展和各行业需求的提升，在计算机技术、网络技术、MEMS技术等新技术发展的推动下，近年来，机器人技术正从传统的工业制造领域向医疗服务、教育娱乐、勘探勘测、生物工程、救灾救援等领域迅速扩展，适应不同领域需求的机器人系统被深入研究和开发。过去几十年，机器人技术的研究与应用，大大推动了人类的工业化和现代化进程，并逐步形成了机器人的产业链，使机器人的应用范围也日趋广泛。

在机器人崭露头角于工业生产的同时，机器人技术研究不断深入。1961年，美国麻省理工学院Lincoln实验室把一个配有接触传感器的遥控操纵器的从动部分与一台计算机联结在一起，这样形成的机器人可以凭触觉决定物体的状态。随后，用电视摄像头作为输入的计算机图像处理、物体辨识的研究工作也陆续取得成果。1968年，美国斯坦福人工智能实验室的J.McCarthy等人研究了新颖的课题——研制带有手、眼、耳的计算机系统。于是，智能机器人的研究形象逐渐丰满起来。

20世纪70年代以来，机器人产业蓬勃兴起，机器人技术发展为专门的学科。工业机器人首先在汽车制造业的流水线生产中开始大规模应用，随后，诸如日本、德国、美国这样的制造业发达国家开始在其他工业生产中也大量采用机器人作业。

后来，机器人朝着越来越智能化的方向发展，这种机器人带有多种传感器，能够将多种传感器得到的信息进行融合，能够有效地适应变化的环境，具有很强的自适应能力、学习能力和自治功能。

智能机器人的发展主要经历了三个阶段，分别是可编程试教、再现型机器人，有感知能力和自适应能力的机器人，智能机器人。其中所涉及到的关键技术有多传感器信息融合、导航与定位、路径规划、机器人视觉智能控制和人机接口技术等。

进入21世纪，随着劳动力成本的不断提高、技术的不断进步，各国陆续进行制造业的转型与升级，出现了机器人替代人的热潮。同时，人工智能发展日新月异，服务机器人也开始走进普通家庭的生活。

世界上许多机器人科技公司都在大力发展机器人技术，机器人的特质与有机生命越来越接近。最近，波士顿动力公司在机器人领域的成就已经成为人们的焦点，其产品机器狗Spot和双足人形机器人Atlas都让人大为惊叹。Spot的功能十分先进，可以前往你告诉它要去的目的地，避开障碍，并在极端情况下保持平衡。Spot还可以背负多达四个硬件模块，为公司提供其他多款机器人完成特定工作所需的任何技能；Atlas已经掌握了倒立、360度翻转、旋转等多项技能，继表演跑酷、后空翻等绝技之后，Atlas又掌握了一项新技能——体操，再次让人们大开眼界。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉