0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

依图强势进军智能语音,联合微软发布语音开放云平台

DPVg_AI_era 来源:lq 2018-12-14 09:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

依图强势进军智能语音,联合微软发布语音开放云平台,携手华为发布软硬件一体化的智能语音联合解决方案。依图语音识别算法在全球最大开源中文数据库AISHELL-2上词错率仅3.71%,比原业内领先者提升约20%,大幅刷新现有纪录。比对各家语音识别算法,当今智能语音战场,英雄唯讯飞与依图尔?

2018年底,智能语音市场意外杀入一匹黑马。

素来被认为是“人脸识别独角兽”——或者更宽泛一点说,“计算机视觉独角兽”的依图科技,公布了他们中文语音识别技术的最新突破,以及令人瞩目的产业布局。

技术上,在全球最大的中文开源数据库AISHELL-2中,依图短语音听写的字错率(CER)达到3.71%[1],相比原业内领先者提升约20%,大幅刷新现有纪录。

产业上,依图联合微软推出基于Azure云服务的语音开放平台,并携手华为发布软硬件一体化的“智能语音联合解决方案”,将依图语音识别技术提供给第三方应用开发者

依图首席创新官吕昊博士

“语音一直以来都是依图关注的课题。作为对人工智能有着深入理解和推广应用的公司,我们自然而然进入语音识别领域。”依图首席创新官吕昊博士表示,依图是一家“人工智能公司”。

“作为语音行业的‘新生’,我们还是有很多向‘老生’学习的地方,但我们立志推动行业创新与发展,做世界最好的中文普通话语音识别技术。”

智能语音竞争还未开始,依图要做世界最好的中文语音识别

万物互联,语音为先。

语音识别是AI理解世界最重要的组成部分,也是AI能听会说善理解的必要条件。

近年来,深度学习的爆发驱动了语音识别技术的高速发展,催生了一大批智能语音创业公司,其中不乏实力强劲的竞争者。

除了中国智能语音“一哥”科大讯飞,百度、阿里、腾讯、京东等企业纷纷推出了智能语音产品,再加上雄踞国际战略高点的亚马逊、谷歌、微软……2017年底掀起的智能音箱“百箱大战”硝烟还未褪去,依图为何选择这个时间点入局?

“我觉得竞争都还没开始,不存在入场的问题。”依图科技联合创始人林晨曦在2018年1月接受新智元采访时说。

智能语音市场看似巨头林立,但林晨曦认为创业公司大有可为,依图不仅要做语音和自然语言处理,还要做到像人脸识别那样,超越人类水平。

依图技术负责人表示,尽管一些机构宣传其语音识别已经达到乃至超越了人类水平,但多数情况下,这些结果都来自安静、近场等受限场景。

“机器在语音环境比较理想的情况下是可以识别某些生僻词,或者在专有名词等识别方面比人强。但人的鲁棒性还是强于机器,人在熟人且熟悉领域上的语音识别还是明显能够做过算法。”

目前语音识别仍然存在很多瓶颈,例如在发音不清楚的情况下,如何结合更强的上下文语义信息给出准确的语音识别;如何在语音识别的全链路上,优化远场识别的性能;特殊情况的处理,比如人称代词、语气词助词;还有鸡尾酒问题(多人同时说话下,能够准确识别其中一人的语音)、电话场景的识别(低采样率下的语音识别)。

此次依图科技在语音识别技术方面的突破,不仅意味着依图首次涉足语音识别领域便已经跻身中文语音识别第一阵营,同时也说明语音识别在技术层面还有足够的进化空间,远远没有达到“超越人类”。

依图预计,在未来6个月到12个月,语音识别技术的算法性能将呈指数级增长,更多的场景将被解锁,为行业应用带来更大的价值。

科大讯飞和依图属于第一梯队,BAT差得远

作为进军智能语音的第一步棋,依图发布了“听写大会”微信小程序,它能将时长不超过60秒的语音转写成文字,支持普通话,并且兼容多种口音。

“听写大会”微信小程序:业界也属于首次公开透明地比对各类算法的水平差异

不过,“我们希望大家不要仅仅是关注在API本身,”依图首席创新管吕昊表示:“我们希望借助这个API,让大家去关注到整个语音识别行业的发展情况。”

吕昊说,一直以来语音识别业界都没有公开透明的语音识别比对,通过“听写大会”微信小程序,用户可以直观感受到各家语音识别技术的真实表现,在业界也属于首次公开透明地比对各类算法的水平差异。

讯飞依图BAT各家算法差异巨大,讯飞依图位列第一阵营

“目前语音识别业界存在两种认知误区,”吕昊说:“一种是极端的好,也就是各家都好没有差异;一种是极端的差,认为都不能解决问题。”

实际情况是,“科大讯飞的语音识别能力比BAT领先很多。在场景测试中,除了依图和科大讯飞之外,大部分厂家的算法字错率抖动大,意味着场景的通用性差。”

依图此次推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,而且在单个算法模型上,有极为出色的多场景适用性表现。

一般认为,中文语音识别的字错率低于3%时不会影响可读性,而超过15%则毫无可读性。这是语音识别的两条红线,在不同场景下,不同算法的表现可能会有很大差异。

在全球最大中文开源数据库AISHELL-2[2] 的三个测试子集,以及来自第三方的近场口音测试集(Accent)、近场安静聊天测试集(Chat)、语音节目测试集、电话测试集、远场测试集等测试场景中,依图均处于业界领先水平,而且字错率几乎全部在15%以下。

其中,在AISHELL2的-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率仅为3.71%,领先第二名约20%。

这意味着依图在语音领域做到了第一梯队 (甚至是领先) 的水平,在多场景的适用方面,也体现出显著优势。

左有微软,右有华为,用技术想象力撬动语音市场

“依图的语音API产品和语音开放平台刚刚上线,我们欢迎越来越多的开发者和客户使用依图的产品,共同改进产品性能,并探讨更具突破性的应用场景。”吕昊说。

关于未来预计推出的语音产品及其功能,吕昊表示,“实际上,我们认为技术和场景是比产品和功能更关键的要素,推动了技术发展进步,我们才可以领略到以前看不到的更多可能性,解决很多以前想象不到的问题。今天语音识别跟人类的能力还有巨大的差距,依图希望能够携手业界共同推动行业进步。”

发布会上,依图宣布与微软Azure云服务联合发布语音开放平台,将行业领先的语音识别技术能力开放给第三方应用开发者。此外,依图还将与微软在智能语音领域展开更深层次的合作,共建AI生态。

2018年4月,微软全球执行副总裁沈向洋(右)访问依图。依图科技联合创始人、CEO朱珑(左)曾在微软亚洲研究院(MSRA)研发人脸识别算法,导师就是沈向洋。依图科技联合创始人林晨曦,业务技术副总裁吴岷,研发总监周健等也都来自MSRA。图片来源:依图科技

与此同时,依图也携手华为联合发布“智能语音联合解决方案”,该方案基于依图语音开放平台,以及华为全栈全场景 Ascend(昇腾)系列芯片和面向数据中心侧的 Atlas 300 AI加速卡,将双方强大的技术研发能力与生态服务能力深度结合,形成软硬件一体化的联合解决方案,进一步帮助提升开发效率。

自2016年成为合作伙伴以来,依图和华为已形成全方位联动。今年3月,双方共同发布“华为-依图视频云人像大数据”解决方案,布局全球城市级公共安全。10月,2018华为全联接大会期间,依图作为大会安保唯一AI合作伙伴,与华为联合发布了分支视频云联合解决方案、智慧警务云解决方案和智慧园区解决方案,在平安城市、智慧警务、大数据应用等方面持续加深合作。

10月9日,华为轮值董事长徐直军(左二)、华为安平系统部总裁岳坤、华为企业BG行业Marketing与解决方案总裁喻东(左三)等一行到访依图。来源:依图科技

此前,有传言微软Azure云服务在中国的数据中心将使用华为的昇腾芯片,这一消息尚未得到证实。但本次由依图串接起来的微软、华为合作链,不禁让人浮想联翩。

根据2018中国语音产业联盟年会上周发布的《2017-2018中国智能语音产业白皮书》,全球智能语音产业规模持续增长,2014年至2018年,中国智能语音产业规模由30亿元增长至159.7亿元。

左有微软,右有华为,再加上自身的技术,依图在智能语音开局便凑齐了一手好牌。

最后要说的是依图科技的首席创新官吕昊。吕昊今年2月加入依图,之前是谷歌的研究科学家。根据依图科技官方介绍,吕昊在谷歌期间曾负责孵化安卓APP启动推荐系统,这是全球首个移动端APP启动推荐系统,也是全球首个基于机器学习的安卓产品。他会带领依图与华为孵化出怎样的智能语音联合解决方案?

林晨曦曾表示好的人才需要对未来充满想象力,朱珑也在文章里写因为看见,所以相信——现在这句话基本成了依图的Slogan。

“99%识别率的算法和99.99%的算法,区别在于可解锁的应用场景,对技术商业价值的想象力将回答AI的场景在哪里以及多快到来。”

“我们认为,目前语音识别仍处于初步发展的阶段,依图将始终保持在技术层面的投入,通过技术的突破来解锁更多的可能,也欢迎合作伙伴与我们共同探索语音技术的行业应用。”吕昊说。

注释

[1] 一般在英文语音识别中用“词错率”(WER),因为最小单元是词;中文语音识别一般使用“字错率”(CER),因为最小单元是字.

[2] AISHELL-2是AISHELL Foundation和希尔贝壳创建的开源数据库,含有1000小时中文语音数据,由1991名来自中国不同口音区域的说话者参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居无人驾驶、工业生产等12个领域.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6753

    浏览量

    108085
  • 数据库
    +关注

    关注

    7

    文章

    4084

    浏览量

    68549
  • 智能语音
    +关注

    关注

    11

    文章

    829

    浏览量

    50347

原文标题:依图做语音了!识别精度创中文语音识别新高点

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    新品 | Echo Pyramid,智能语音交互底座

    EchoPyramid是一款面向智能语音交互应用的功能底座。专为M5Stack的Atom/AtomS3/AtomS3R系列主控设计,即插即用,快速构建具备高性能音频交互能力的语音设备。外接Atom
    的头像 发表于 03-06 16:51 2600次阅读
    新品 | Echo Pyramid,<b class='flag-5'>智能</b><b class='flag-5'>语音</b>交互底座

    小艺开放平台平台功能

    平台的高效编排方式。开发者可通过该模式基于鸿蒙Agent通信协议快速、便捷地将成熟的第三方智能体对接至小艺开放平台,实现分发与调用,提升平台
    发表于 01-30 15:24

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。语音识别IC的核心功能在于实现语音识别,即让
    的头像 发表于 01-14 15:22 413次阅读
    <b class='flag-5'>语音</b>识别IC分类,<b class='flag-5'>语音</b>识别芯片的工作原理

    ATH8809 智能语音处理芯片

    智能语音
    深圳市声讯电子有限公司
    发布于 :2025年12月24日 16:58:05

    语音报警器:TTS语音播报,平台逻辑自控

    TTS语音播报报警器是一种集成了传统报警器和TTS(文本转语音)技术的智能设备。清晰、准确地用人类语言播报报警原因、位置、状态等具体信息。 工作原理 文本语音:输入文字自动合成
    的头像 发表于 10-29 16:31 985次阅读

    七牛发布灵矽 AI:600ms超低延迟,重塑智能硬件语音交互新范式

    8 月 15 日,七牛正式发布灵矽 AI —为新一代智能硬件而生的语音交互新范式,让智能硬件不仅会“说话”,更能听懂情绪、自然交流。这不仅
    的头像 发表于 08-15 15:33 986次阅读
    七牛<b class='flag-5'>云</b><b class='flag-5'>发布</b>灵矽 AI:600ms超低延迟,重塑<b class='flag-5'>智能</b>硬件<b class='flag-5'>语音</b>交互新范式

    一颗TTS语音芯给产品增加智能语音播报能力

    一颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容,但是对于现在各种创新产品层出不穷的时代,传
    的头像 发表于 08-14 16:33 882次阅读

    语音输出模块是什么?自控语音播报

    :接收来自平台(如单片机/PLC/电脑)的指令,输入可能是:文本数据(例如:"温度过高")、预存语音编码(如MP3/WAV文件的数字信号)、控制指令(触发预置语音片段) 2.
    的头像 发表于 08-13 15:20 1153次阅读

    STM32项目分享:智能语音台灯(机智)

    01—项目简介1.功能详解STM32智能语音台灯(机智)功能如下:STM32F103C8T6单片机作为主控单元按键切换模式,支持自
    的头像 发表于 07-24 18:03 1833次阅读
    STM32项目分享:<b class='flag-5'>智能</b><b class='flag-5'>语音</b>台灯(机智<b class='flag-5'>云</b>)

    广和通发布新一代AI语音智能体FiboVista

    近日,2025火山引擎Force原动力大会正式开幕。广和通发布新一代AI语音智能体FiboVista,并已率先应用于车联网,成为智能驾驶的“用车伙伴”和“出行伴侣”。通过创新AI大模型
    的头像 发表于 06-17 09:22 1420次阅读

    小安AI语音板,“广西表哥”强势上线!

    AiPi-PalChatV1 是一款接入了 小智 AI 智能体 的微型语音交互开发板,专为轻量级智能语音场景设计。 AiPi-PalChatV1 基于安信可 Ai-WB2-12F 模组
    的头像 发表于 06-10 17:30 884次阅读
    小安AI<b class='flag-5'>语音</b>板,“广西表哥”<b class='flag-5'>强势</b>上线!

    蓝牙语音遥控器:智能家居的智慧控制核心

    随着智能家居的蓬勃发展,蓝牙语音遥控器凭借其便捷的操作和智能交互体验,正迅速取代传统红外遥控器,成为智能电视、机顶盒等设备的首选控制工具。 相较于需对准设备的红外遥控器,蓝牙
    发表于 06-01 20:24

    德赛西威与面壁智能发布端侧大模型语音交互方案

    日前,全球领先的移动出行科技公司德赛西威与端侧大模型技术领军企业面壁智能共同发布业界首个基于高通座舱平台(SA8255P,简称8255)的端侧大模型语音交互方案,这是双方自2024年1
    的头像 发表于 05-14 17:40 1443次阅读

    蓝牙语音遥控国产适用芯片HS6621

    智能家居的时代,科技正在改变我们的生活方式。蓝牙语音遥控器,作为智能家居的关键组成部分,正在重新定义用户与设备之间的互动方式。用户对着蓝牙语音遥控器,只要轻说一句话就可以搞定很多复杂
    发表于 04-30 16:21