0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人类进化的历程当中语音起到了多大的作用

人工智能和机器人研究院 来源:未知 作者:李倩 2018-04-15 10:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

黄学东:大家好!今天我主要想和大家分享一下微软的故事,相信一定会很激动人心。但在正式分享之前,我想介绍一下人类进化的历程当中语音起到了多大的作用。

达尔文的进化论已经说明,最新的科学验证也再次证明,我们人和大猩猩DNA的相似度接近99%,就那1%的区别造就了我们是这个地球的主宰。为什么呢?因为我们更聪明吗?还是漫长的进化过程当中有什么其他因素?计算机视觉非常重要,但动物的视力其实比人还厉害,晚上的夜猫子看得比人更厉害,但我们仍然是这个地球的主宰。最重要的原因之一是我们的语音和语言,所以大家可以在今天准时地来到这个地方和我们一起讨论人工智能激动人心的进展。语音和语言对人类的进化是起到决定性作用的,当然对人工智能的进化也有同等的重要性。

微软在过去的几年当中多次创造了接近人类水平的人工智能进展。以今天的ImageNet作为图像识别的标准,微软两年前就第一次在图像识别斯坦福大学的ImageNet达到了超越人的水平。去年微软又宣布公开测试级对话系统Switchboard的最新成果最新成果。这是语音领域大家都很熟悉的一个很重要的任务,就是识别两个人在电话上的交谈,微软第一次在业界达到了超过普通人的专业水平。今年在斯坦福大学的SQuAD阅读理解挑战赛,微软再次达到了媲美人类的水平。上个月微软再次创造了在中文和英文翻译上达到了超过专业人员翻译质量的水平,这是前所未有的。所以这确实是一个激动人心的时刻,人类进化的长河当中语音起了决定性的作用,今天在人工智能的进化当中语音和语言会起到同样的作用。

去年《经济学人》有一篇封面文章,总结了过去的四十年语音和语言的重要进展,早在五十年代IBM就开始了机器翻译的工作,那个时候我还没有出生。过去的几年当中有三个很重大的历史事件:苹果第一次推出Siri,也就是手机上的个人助理。Google推出了基于神经翻译的产品,大大推动了机器翻译的进步。微软第一次在业界历史性地创造了超越人的自然对话系统——语音识别系统。

这张图显示了过去的二十年当中语音识别的同行们通过不懈的努力,创造出了很多辉煌的成果,但有一条红线,就是Switchboard错误率一直在10%以上,直到最近几年因为深度学习的进展,微软和IBM的公开评测当中一直起到了领头羊的作用。

去年微软是第一次达到了5.1%的水平,超过了普通转录人员的标准,也是非常激动人心的进展。采用的方法是组合了多种不同的深度神经网络,包括ResNet、LACE和BLSTM,通过并行的处理组合成了一个工程上完美的语音识别系统,其实在云上是不费吹灰之力的,只是计算机的资源会比较多。

微软在语音合成领域也有很多进展。我们支持将近包括50种语言的语音合成系统,而且它的质量也达到了4.3 MOS, 这是非常振奋人心的。

这是微软和哈曼音箱联合推出的联想语音识别系统,唤醒智能音箱的时候不是非常自然,微软最近和小米联合推出了全双工的语音对话系统,就是唤醒以后可以连续讲,不需要每次都说唤醒词“小娜”再说语音指令。这是微软核心的语音技术在中国落地的一个非常好的案例,它的基本思想非常简单,就是我跟你讲话,比如我见到邓院士每次都说“邓院士,今天你好吗?”“邓院士,你今天吃饭了没有?”所以大家会觉得很烦,全双工的系统只要唤醒一次,接下来就可以很自然地跟它交互。

大家可以看出,全双工的语音交互在中国已经落地,和小米的合作产品今天可以很便宜地买到一台,让它帮你扫地、开灯、看股票,这些都没问题,如果实在闲得慌的话可以和小冰聊天斗嘴,这是已经落地的产品。

和大家介绍一下最近微软在机器翻译上的重大突破。就像《经济学人》说过的,1954年开始IBM Wason就开始了机器翻译的研发工作,那个时候是传统的机器翻译,根据自然语言的处理方法。后来IBM再次引导了新潮流,将语音识别的核心技术统计方法使用在机器翻译上,Peter Brown这些人把语音翻译的质量推向了新高度。过去的几年因为神经网络学习的进步,我们再次把机器翻译推向了新的高度,但还没有达到人的水平。

非常振奋人心的是,今年微软公司首次在公开测试当中中英新闻翻译当中第一次达到了类人的水平,这是非常了不起的历史性里程碑,这样对帮助中国的声音走向世界是毫无疑问的,因为翻译的水平和专业人员是同等可比的。

微软不仅是在研发上进行推广,实际上很多产品已经落地。比如PPT,你们只要下载一个Presentation Translator的插件,所有的讲话可以同声翻译、同声传录,而且是免费的。下载以后可以支持60种语言、100个人在课堂上同步交流。演讲之前可以让大家扫描二维码,通过微软翻译的手机应用可以加入对话。大家知道,字幕当中只能显示一种语言,如果是60种语言怎么办?没关系,也可以显示在你的手机上面。

分享一下我个人的经历,我在八十年代离开清华,当时在清华学的都是美式英语,然后到苏格兰爱丁堡大学留学,当时我就懵了,因为苏格兰教授的口音非常严重,当时我就想要是有一个字幕机多好?那是三十年前的痛点,今天可以很骄傲地告诉大家,这个痛点早就可以由微软Office免费为大家提供同声翻译服务。大家可以让教授在台上讲苏格兰英语,台下可以在你的手机上看到从希腊文到广东话的近60种语言的实时字幕翻译。这是非常振奋人心的时刻,如果今天还有哪位同学要去苏格兰留学,我想大家不会再为苏格兰英语而苦恼了。

所谓的中英翻译达到人的水平是怎么回事?这是一个标准的新闻翻译任务,也是在业界广泛使用的。在这之前,中国的搜狗在这个测试集上做到了最优秀,可以看出如果要人来评估,第三行的搜狗基本上是62分,就像老师打分一样,把这个东西翻译过来以后如果是十全十美的学生可以拿100分,如果出了很多错误的话这个老师非常严厉,可能会给零分。在微软技术突破之前,业界在这个测试任务上最先进的机器翻译系统是中国搜狗,达到了62.3分,现有的产品我也不说是谁的产品了,以免大家觉得我们对同行有不诚之意,只有54分左右。如果今天用微软的Microsoft Translator也只有56分,勉强及格。微软最新的机器翻译突破分数达到69分,拿到中英翻译执照的专业翻译人员得出的结果是68.5分,所以如果大家是翻译人员水平是67.3分。这是最新的机器中英翻译第一次取得历史性突破,对中国走向世界是非常有积极意义的。

下面简单介绍一下这个突破是怎么回事,它的主要核心技术用的是Transformer的机器翻译模型。

微软亚洲研究院自主研发的Dual Translation Learning,就是大家在中英翻译的时候,翻译成英文后再用一下反向翻译,就是英翻中,保证这两种翻译的一致性比较好,可以得到一个最高、最优的联合优化目标函数。通过这样一个正向和反向的翻译,我们可以大大提高现有机器翻译的质量,这是和人进行翻译的过程类似的机器学习的新算法,机器翻译上取得了长足的进步。

大家在做翻译作业的时候翻完了一遍是不是想再翻一遍把它优化?所以我们还有一个Deliberation,就是可以在第一次翻译的基础上同步优化,这样也更进一步提高了机器翻译的质量。

我们还有从左到右、从右到左的联合优化函数,再一次提高了机器翻译的质量,就是因为这些联合系统的组合造就了我们历史性地第一次达到了中翻英超人的水平。要做其它语言同样是没有问题的,我们希望其他语言和中英翻译的落地很快就会产业化,再再过一些时候你们再用Microsoft Translator的时候会享受到与真人相似的机器翻译质量。

这是微软公司在斯坦福大学对话文本理解上的进步,过去的几年当中斯坦福大学建立了图像认识的标准,现在自然语言处理方面也有一个华人教授和他的团队建立了阅读理解系统,微软亚洲研究院和微软的同事们又一次达到了超人的水平。

特定的认识对话方面的水平确实是相当高的,用的方法也像机器学习、机器翻译的系统一样有一个Embedding,通过不断的深度优化达到最优的结果,就像现在的机器翻译一样。

刚才我讲的过程是从认知到感知的循环系统,大家在对话的时候闭着眼睛也能听懂,但听懂的效果不是很好,睁开眼睛的话一定会帮助你理解语义,所以在人的交互过程当中一定是Congnitive Intelligence和Perceptive Intelligience的共同进展,现在自主学习、知识积累和长远规划方面没有多大进展,所以大家不要听人工智能的忽悠,现在我们基本上还早得很。机器翻译现在是基于这两种智能过渡的一个小成果。我们非常高兴,也非常激动人心,因为从感知到认知的过程当中人工智能深度学习终于有了一个长足的进步。

微软AI的平台把所有的认知服务都打包到了Azure这个云上,从最底层的核心架构到最高层的算法都有,大家可以去微软的平台选用、享受、分享微软的最新人工智能研发进展和工程化的结果。

这是第三方对微软、Google和亚马逊在语音和语言API方面的评估,可以看出微软中间绿颜色的比较多,这当然是符合大家预期的。另外想介绍一下几个简单的例子:极易中文学校是在西雅图的一个创新。海外的很多华人学习中文非常困难,他们用微软的语音认知服务,小孩学中文的兴趣大大进步了,不仅是兴趣进步,而且做家庭作业和掌握中文的速度也有一个长足的进步。所以用人工智能服务于教育,帮助小孩扩展中文文化,这在西雅图极易中文学校已经得到了非常高度的认可。我们知道中国的华为公司包括Mate10都预装了微软认知服务的机器翻译系统。我们最近跟小米生态系统中要推出的魔芋翻译机,更是人工智能翻译的一大杰出代表。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296793
  • 人工智能
    +关注

    关注

    1813

    文章

    49746

    浏览量

    261600

原文标题:AI 翻译能够取代人类?微软黄学东:我们仍在感知智能和认知智能的过渡期

文章出处:【微信号:gh_ecbcc3b6eabf,微信公众号:人工智能和机器人研究院】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    电子电路当中 “地” 的介绍

    在电子电路当中地的种类和作用特别多,大家很容易混淆,其中就有我z们的电源地,信号地,数字地,模拟地等等,不同的地都有不同的作用,在我们进行设计的时候都需要对这些地做特殊的处理才能保证我们板子的信号
    发表于 11-12 07:44

    语音报警器:TTS语音播报,云平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本转语音)技术的智能设备。清晰、准确地用人类语言播报报警原因、位置、状态等具体信息。 工作原理 文本语音:输入文字自动合成
    的头像 发表于 10-29 16:31 459次阅读

    再掀语音交互革命,广和通AI解决方案加速机器人听觉进化

    在机器人世界里,感知是智能化的第一步,是机器人获取环境信息,学习适应并自主决策的前提。听觉作为五感之一,深度融合AI,可帮助机器人实现高效感知、数据获取、语音交互和环境事件检测,使机器人“耳听八方
    的头像 发表于 08-26 17:44 626次阅读

    瑞芯微RK3576语音识别算法

    1.语音识别简介语音识别技术,也被称为自动语音识别(AutomaticSpeechRecognition,ASR),其目标是将人类语音中的
    的头像 发表于 08-15 15:13 1860次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b>识别算法

    语音输出模块是什么?自控语音播报

    语音输出模块(VoiceOutputModule)是一种将数字信号或文本信息转换为人类可听语音的硬件/软件组件。相当于设备的“嘴巴”,让机器能够通过声音与人进行交互。 一、工作原理 1.输入接收
    的头像 发表于 08-13 15:20 621次阅读

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whisper作为一个通用的语音识别模型,它使用了大量的多语言和多任务的监督数据来训练,能够在英语
    的头像 发表于 07-17 14:55 1453次阅读
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>语音</b>识别训练部署教程

    从“听得见”到“听得懂”:语音识别芯片的AI进化

    在科技飞速发展的当下,语音识别技术已成为人机交互领域的核心力量。从最初只能简单接收声音信号,到如今能够理解语义并作出准确回应,语音识别芯片经历了一场深刻的 AI 进化。这一进化不仅重塑
    的头像 发表于 07-01 16:45 469次阅读
    从“听得见”到“听得懂”:<b class='flag-5'>语音</b>识别芯片的AI<b class='flag-5'>进化</b>

    labview语音转文字

    labview语音转文字怎么实现,目前在论坛上找到了文字转语音
    发表于 04-07 19:44

    csu34f20的历程

    请问csu34f20的历程哪里有,请发到2209453423@qq.com谢谢
    发表于 03-17 16:07

    施密特触发器是起到什么作用呢?使用adc时必须禁止吗?

    想请教一下,施密特触发器是起到什么作用呢?使用adc时必须禁止吗?
    发表于 03-14 10:56

    语音识别技术在通信领域中的应用实例

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行分析和识别,将人类
    的头像 发表于 02-21 17:12 1071次阅读

    详解语音识别技术在通信领域中的应用

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行分析和识别,将人类
    的头像 发表于 02-21 17:05 1033次阅读
    详解<b class='flag-5'>语音</b>识别技术在通信领域中的应用

    TTS语音播报模块简介

    在现代科技日新月异的时代,语音技术作为人工智能领域的重要分支,正以前所未有的速度改变着我们的生活方式。其中,TTS(Text To Speech,文本转语音)语音播报模块作为连接数字世界与人类
    的头像 发表于 02-18 16:16 1892次阅读

    Flash语音芯片相比OTP语音芯片的优势

    Flash语音芯片和OTP语音芯片是两种常见的语音解决方案,在各自的应用领域中发挥着重要作用。本文‌将介绍Flash语音芯片相比OTP(On
    的头像 发表于 12-16 16:02 948次阅读
    Flash<b class='flag-5'>语音</b>芯片相比OTP<b class='flag-5'>语音</b>芯片的优势

    Flash语音芯片相比OTP语音芯片的优势

    Flash语音芯片和OTP语音芯片是两种常见的语音解决方案,在各自的应用领域中发挥着重要作用。本文‌将介绍Flash语音芯片相比OTP(On
    的头像 发表于 12-16 15:44 806次阅读