0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

依图强势进军智能语音,联合微软发布语音开放云平台

DPVg_AI_era 来源:lq 2018-12-14 09:43 次阅读

依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案。依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%,比原业内领先者提升约20%,大幅刷新现有纪录。比对各家语音识别算法,当今智能语音战场,英雄唯讯飞与依图尔?

2018年底,智能语音市场意外杀入一匹黑马。

素来被认为是“人脸识别独角兽”——或者更宽泛一点说,“计算机视觉独角兽”的依图科技,公布了他们中文语音识别技术的最新突破,以及令人瞩目的产业布局。

技术上,在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)达到3.71%[1],相比原业内领先者提升约20%,大幅刷新现有纪录。

产业上,依图联合微软推出基于Azure云服务的语音开放平台,并携手华为发布软硬件一体化的“智能语音联合解决方案”,将依图语音识别技术提供给第三方应用开发者

依图首席创新官吕昊博士

“语音一直以来都是依图关注的课题。作为对人工智能有着深入理解和推广应用的公司,我们自然而然进入语音识别领域。”依图首席创新官吕昊博士表示,依图是一家“人工智能公司”。

“作为语音行业的‘新生’,我们还是有很多向‘老生’学习的地方,但我们立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”

智能语音竞争还未开始,依图要做世界最好的中文语音识别

万物互联,语音为先。

语音识别是AI理解世界最重要的组成部分,也是AI能听会说善理解的必要条件。

近年来,深度学习的爆发驱动了语音识别技术的高速发展,催生了一大批智能语音创业公司,其中不乏实力强劲的竞争者。

除了中国智能语音“一哥”科大讯飞,百度、阿里、腾讯、京东等企业纷纷推出了智能语音产品,再加上雄踞国际战略高点的亚马逊、谷歌、微软……2017年底掀起的智能音箱“百箱大战”硝烟还未褪去,依图为何选择这个时间点入局?

“我觉得竞争都还没开始,不存在入场的问题。”依图科技联合创始人林晨曦在2018年1月接受新智元采访时说。

智能语音市场看似巨头林立,但林晨曦认为创业公司大有可为,依图不仅要做语音和自然语言处理,还要做到像人脸识别那样,超越人类水平。

依图技术负责人表示,尽管一些机构宣传其语音识别已经达到乃至超越了人类水平,但多数情况下,这些结果都来自安静、近场等受限场景。

“机器在语音环境比较理想的情况下是可以识别某些生僻词,或者在专有名词等识别方面比人强。但人的鲁棒性还是强于机器,人在熟人且熟悉领域上的语音识别还是明显能够做过算法。”

目前语音识别仍然存在很多瓶颈,例如在发音不清楚的情况下,如何结合更强的上下文语义信息给出准确的语音识别;如何在语音识别的全链路上,优化远场识别的性能;特殊情况的处理,比如人称代词、语气词助词;还有鸡尾酒问题(多人同时说话下,能够准确识别其中一人的语音)、电话场景的识别(低采样率下的语音识别)。

此次依图科技在语音识别技术方面的突破,不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营,同时也说明语音识别在技术层面还有足够的进化空间,远远没有达到“超越人类”。

依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

科大讯飞和依图属于第一梯队,BAT差得远

作为进军智能语音的第一步棋,依图发布了“听写大会”微信小程序,它能将时长不超过60秒的语音转写成文字,支持普通话,并且兼容多种口音。

“听写大会”微信小程序:业界也属于首次公开透明地比对各类算法的水平差异

不过,“我们希望大家不要仅仅是关注在API本身,”依图首席创新管吕昊表示:“我们希望借助这个API,让大家去关注到整个语音识别行业的发展情况。”

吕昊说,一直以来语音识别业界都没有公开透明的语音识别比对,通过“听写大会”微信小程序,用户可以直观感受到各家语音识别技术的真实表现,在业界也属于首次公开透明地比对各类算法的水平差异。

讯飞依图BAT各家算法差异巨大,讯飞依图位列第一阵营

“目前语音识别业界存在两种认知误区,”吕昊说:“一种是极端的好,也就是各家都好没有差异;一种是极端的差,认为都不能解决问题。”

实际情况是,“科大讯飞的语音识别能力比BAT领先很多。在场景测试中,除了依图和科大讯飞之外,大部分厂家的算法字错率抖动大,意味着场景的通用性差。”

依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,而且在单个算法模型上,有极为出色的多场景适用性表现。

一般认为,中文语音识别的字错率低于3%时不会影响可读性,而超过15%则毫无可读性。这是语音识别的两条红线,在不同场景下,不同算法的表现可能会有很大差异。

在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集,以及来自第三方的近场口音测试集(Accent)、近场安静聊天测试集(Chat)、语音节目测试集、电话测试集、远场测试集等测试场景中,依图均处于业界领先水平,而且字错率几乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率仅为3.71%,领先第二名约20%。

这意味着依图在语音领域做到了第一梯队 (甚至是领先) 的水平,在多场景的适用方面,也体现出显著优势。

左有微软,右有华为,用技术想象力撬动语音市场

“依图的语音API产品和语音开放平台刚刚上线,我们欢迎越来越多的开发者和客户使用依图的产品,共同改进产品性能,并探讨更具突破性的应用场景。”吕昊说。

关于未来预计推出的语音产品及其功能,吕昊表示,“实际上,我们认为技术和场景是比产品和功能更关键的要素,推动了技术发展进步,我们才可以领略到以前看不到的更多可能性,解决很多以前想象不到的问题。今天语音识别跟人类的能力还有巨大的差距,依图希望能够携手业界共同推动行业进步。”

发布会上,依图宣布与微软Azure云服务联合发布语音开放平台,将行业领先的语音识别技术能力开放给第三方应用开发者。此外,依图还将与微软在智能语音领域展开更深层次的合作,共建AI生态。

2018年4月,微软全球执行副总裁沈向洋(右)访问依图。依图科技联合创始人、CEO朱珑(左)曾在微软亚洲研究院(MSRA)研发人脸识别算法,导师就是沈向洋。依图科技联合创始人林晨曦,业务技术副总裁吴岷,研发总监周健等也都来自MSRA。图片来源:依图科技

与此同时,依图也携手华为联合发布“智能语音联合解决方案”,该方案基于依图语音开放平台,以及华为全栈全场景 Ascend(昇腾)系列芯片和面向数据中心侧的 Atlas 300 AI加速卡,将双方强大的技术研发能力与生态服务能力深度结合,形成软硬件一体化的联合解决方案,进一步帮助提升开发效率。

自2016年成为合作伙伴以来,依图和华为已形成全方位联动。今年3月,双方共同发布“华为-依图视频云人像大数据”解决方案,布局全球城市级公共安全。10月,2018华为全联接大会期间,依图作为大会安保唯一AI合作伙伴,与华为联合发布了分支视频云联合解决方案、智慧警务云解决方案和智慧园区解决方案,在平安城市、智慧警务、大数据应用等方面持续加深合作。

10月9日,华为轮值董事长徐直军(左二)、华为安平系统部总裁岳坤、华为企业BG行业Marketing与解决方案总裁喻东(左三)等一行到访依图。来源:依图科技

此前,有传言微软Azure云服务在中国的数据中心将使用华为的昇腾芯片,这一消息尚未得到证实。但本次由依图串接起来的微软、华为合作链,不禁让人浮想联翩。

根据2018中国语音产业联盟年会上周发布的《2017-2018中国智能语音产业白皮书》,全球智能语音产业规模持续增长,2014年至2018年,中国智能语音产业规模由30亿元增长至159.7亿元。

左有微软,右有华为,再加上自身的技术,依图在智能语音开局便凑齐了一手好牌。

最后要说的是依图科技的首席创新官吕昊。吕昊今年2月加入依图,之前是谷歌的研究科学家。根据依图科技官方介绍,吕昊在谷歌期间曾负责孵化安卓APP启动推荐系统,这是全球首个移动端APP启动推荐系统,也是全球首个基于机器学习的安卓产品。他会带领依图与华为孵化出怎样的智能语音联合解决方案?

林晨曦曾表示好的人才需要对未来充满想象力,朱珑也在文章里写因为看见,所以相信——现在这句话基本成了依图的Slogan。

“99%识别率的算法和99.99%的算法,区别在于可解锁的应用场景,对技术商业价值的想象力将回答AI的场景在哪里以及多快到来。”

“我们认为,目前语音识别仍处于初步发展的阶段,依图将始终保持在技术层面的投入,通过技术的突破来解锁更多的可能,也欢迎合作伙伴与我们共同探索语音技术的行业应用。”吕昊说。

注释

[1] 一般在英文语音识别中用“词错率”(WER),因为最小单元是词;中文语音识别一般使用“字错率”(CER),因为最小单元是字.

[2] AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库,含有1000小时中文语音数据,由1991名来自中国不同口音区域的说话者参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居无人驾驶工业生产等12个领域.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6218

    浏览量

    103063
  • 数据库
    +关注

    关注

    7

    文章

    3584

    浏览量

    63345
  • 智能语音
    +关注

    关注

    10

    文章

    758

    浏览量

    48359

原文标题:依图做语音了!识别精度创中文语音识别新高点

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    恩智浦发布新一代智能语音技术组合的语音识别引擎

    恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Inten
    的头像 发表于 01-26 09:15 240次阅读
    恩智浦<b class='flag-5'>发布</b>新一代<b class='flag-5'>智能</b><b class='flag-5'>语音</b>技术组合的<b class='flag-5'>语音</b>识别引擎

    语音数据集在智能语音搜索中的应用与挑战

    一、引言 随着互联网的普及和移动设备的兴起,智能语音搜索已经成为人们获取信息的重要方式之一。智能语音搜索通过语音交互的方式,为用户提供更加便
    的头像 发表于 01-18 15:09 196次阅读

    语音数据集:开启智能语音技术的新篇章

    随着人工智能技术的飞速发展,语音数据集在推动智能语音技术的进步中发挥着越来越重要的作用。语音数据集是训练和优化
    的头像 发表于 12-29 11:06 196次阅读

    语音数据集:智能语音技术的基石与挑战

    随着人工智能技术的飞速发展,语音技术已成为人机交互领域的重要突破口。语音数据集作为支撑语音技术研发的核心资源,对于提高语音识别、合成及自然语
    的头像 发表于 12-28 11:28 308次阅读

    语音数据集在智能语音助手中的应用与挑战

    一、引言 随着智能设备的普及和人工智能技术的不断发展,智能语音助手已经成为人们日常生活中不可或缺的一部分。语音数据集在
    的头像 发表于 12-14 15:07 323次阅读

    离线语音识别及控制是怎样的技术?

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连接,极大地提升了
    发表于 11-24 17:41

    离线语音与IoT结合:智能家居发展新增长点

    /BLE芯片,成本更低,使得智能化更加经济实惠。 7、可采用启英泰伦私有,保障数据隐私和安全,让用户享受智能科技带来的便利与安心。 8、个性化体验:IoT和离线语音控制结合可以提供个
    发表于 10-17 11:06

    语音技术的催化剂:语音标注平台的崛起

    无可否认,人工智能正引领着人类社会的新一轮科技革命。而在这场革命中,语音识别技术无疑是一颗璀璨的明珠。然而,要让AI在语音识别方面表现出色,离不开语音标注
    的头像 发表于 08-18 17:25 250次阅读

    智能语音开放平台选哪家,启英泰伦提供硬件、软件一体化开发服务

    语音固件和SDK,烧录到芯片中即可。全程零代码,极大地简化了开发流程,让开发门槛更低,更高效。 05第三方API接口 平台开放第三方API接口,启英泰伦离线工具、第三方
    发表于 08-17 14:00

    启英泰伦新成果发布交流会线上直播预约开启

    ,实现离线语音和BLE小程序双重控制。 CI231系列实拍图 02 发布启英物联小程序 启英泰伦基于启英AIoT,提供“启英物联”小程序一站式开发能力。“启英物联”小程序具备设备连接和管理能力,在离线
    发表于 08-15 14:31

    如何使用Alexa语音服务集成在受约束的物联网设备上设置语音命令

    Cortex-M系列处理器的声控智能扬声器提供了技术演示和参考设计。本指南中的示例提供了将语音设备设置为智能扬声器的起点,不适用于生产用途。在本指南中,我们将使用点击通话在受约束的物联网设备上设置
    发表于 08-02 12:53

    语音标注平台是构建智能语音技术的重要基石

    随着人工智能技术的不断发展,智能语音技术正逐渐成为我们生活中不可或缺的一部分。而语音标注平台作为一种重要工具,为
    的头像 发表于 07-21 16:18 287次阅读

    语音数据标注平台语音识别技术更精准

    随着人工智能技术的快速发展,语音识别技术越来越普及,成为人们日常生活中不可或缺的一部分。然而,如何保证语音识别技术的准确性和稳定性一直是技术领域的难题。为此,一些专业的语音数据标注
    的头像 发表于 07-21 16:05 421次阅读

    如何开发智能家居语音控制方案

    与主控平台实现通信,使得整体方案功能更佳强大,可与平台配合处理更佳复杂的逻辑算法,并具备更强的AI处理能力。 独立主控硬件框图 串口与主控通信硬件框图 启英泰伦推出的第三代高性能神经网络
    发表于 05-31 09:50

    语音模块和语音芯片的不同

    语音模块是一种集成了语音识别、语音合成和语音播放等功能的模块。它通常是以模块化的形式出现,可以直接连接到其他设备中,例如智能家居、
    的头像 发表于 04-23 16:37 480次阅读
    <b class='flag-5'>语音</b>模块和<b class='flag-5'>语音</b>芯片的不同