0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云从科技打破世界纪录 语音识别准确率达97.03%

cMdW_icsmart 来源:未知 作者:胡薇 2018-10-31 17:11 次阅读

语音识别领域,全球科技企业的目标很一致,那就是想“超过人类”。之前科研界设定人类错词率为5.9%的这个界线,受过严格训练的专业速记员错词率在3%左右,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

人类的界线已在2017年被微软超过,而受过严格训练的专业速记员则一直坚守着自己的底线。

然而这个纪录也在这个10月被打破,2018年10月 29日,中国人工智能“国家队”云从科技在语音识别技术上取得重大突破,他们融合图像识别与语音识别的优势,推出全新Pyramidal-FSMN语音识别模型。

在技术研究的「最后一公里」,每 0.1 个百分点的进步都异常艰难。全新Pyramidal-FSMN语音识别模型在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,准确率提升到97.03%,将Librispeech的错词率(Worderrorrate,WER)降低至2.97%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原先记录。

DS2:百度,ESPnet:约翰霍普金斯大学,DFSMN-CE:阿里

云从科技并没有把人脸识别作为唯一的“宝”来押注,这家孵化自中国科学院的企业,并不是第一次取得这样的技术突破。

2018年2月,云从科技正式在国内首发“3D结构光人脸识别技术”。2018年4月,云从科技“跨镜追踪技术”(ReID)技术在Market-1501,DukeMTMC-reID,CUHK03三个数据集刷新了世界纪录,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平,人工智能从「刷脸」跨到「识人」的新纪元。

语音识别技术同样是智能感知中一个重要的部分,通过语音识别,机器就可以像人类一样听懂说话,进而能够理解、思考与反馈。近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。

智能感知 大数据,是云从科技打造核心技术闭环,领跑人工智能行业的利器。

据悉,此次技术突破是云从科技打造核心技术闭环路径中的关键一步。此前,云从科技在10月12日发布了国家发改委“人工智能基础资源公共服务平台”项目,该平台可以基于行业数据为各行各业提供人工智能智能感知及大数据服务,中国人民银行、中国联通、中国邮政、民航局、金山云等企业与机构与云从首批签约。这个搭载人脸、人体、手势、红外、语音、车辆、风控、文字、大数据分析等多种方式为一体的人工智能平台,云从倾注了大量的技术力量。

在平台发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,核心技术闭环是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”,广泛强化合作伙伴范围,稳步推进从核心技术到智能生态的五步走战略。

目前,云从科技是中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次,同时为14.7万家社会网点提供服务。

在安防领域,公司产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;

在民航领域,已有60余家机场选择云从产品,日服务旅客人数达到6千万。

在这些基础上,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能平台,进一步促进人工智能在金融、安防、交通、零售、教育等重要行业的落地。

语音识别六十年,技术突破总是艰难而缓慢。

语音识别的研究起源可以追溯到上世纪50年代,AT&T贝尔实验室的Audry系统率先实现了十个英文数字识别。

从上世纪60年代开始,CMU的Reddy开始进行连续语音识别的开创性工作。但是这期间进展缓慢,以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能实现的事情。

上世纪70年代,计算机性能的提升,以及模式识别基础研究的发展,促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的PC端孤立词识别系统。

上世纪80年代是语音识别快速发展的时期,引入了隐马尔科夫模型(HMM)。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。

上世纪90年代是语音识别基本成熟的时期,但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈。

关键突破起始于2006年。这一年辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。

2009年,辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。

2011年,微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章,在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究。

2017年3月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破”。相对应的是去年5月的6.9%。

2017年8月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,错词率为5.1%。相对应的是去年10月的5.9%,声称超过人类。

2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至5.6%。相对于强大的传统系统有 16% 的性能提升。

2018年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%,错词率降低至3.96%。

2018年10月,云从科技发布全新Pyramidal-FSMN语音识别模型,错词率(Worderrorrate,WER)降低至2.97%,较之前提升了25%,将全球语音识别准确率纪录提高至97.03%,超过受过严格训练的专业人类速记员。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111838
  • 云从科技
    +关注

    关注

    1

    文章

    66

    浏览量

    9574

原文标题:一举打破世界纪录,云从科技将语音识别准确率提升到97.03%

文章出处:【微信号:icsmart,微信公众号:芯智讯】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    740.6W!天合光能打破N型i-TOPCon组件输出功率世界纪录

    近日,天合光能光伏科学与技术全国重点实验室宣布, 其自主研发的210+N型i-TOPCon光伏组件,经权威第三方检测认证机构TÜV南德认证,最高输出功率达740.6W,创造了新的世界纪录! 这也
    的头像 发表于 04-23 09:28 261次阅读

    NVIDIA路径优化引擎创下23项世界纪录

    NVIDIA cuOpt 不仅在过去三年中所有的大型路径规划基准测试中均名列榜首,还创下了二十多项世界纪录。这意味着该路径优化引擎能够使各行各业采取节约成本的高效措施。
    的头像 发表于 03-21 09:47 158次阅读

    华擎Z690 AQUA OC主板与英特尔酷睿i9-14900KS处理器共同刷新超频纪录

    Splave的挑战中,他以6.77秒和3.662秒的优异成绩打破了PiFast和SuperPi 1M两项记录,这比先前由超频爱好者safedisk使用ROG主板锻造的世界纪录更为出色。
    的头像 发表于 03-20 13:56 191次阅读

    ROG助力i9-14900KS达到9117.75 MHz,创下四项世界纪录

    近日,据 ROG 玩家国度官方微博透露,ROG MAXIMUS Z790 APEX ENCORE 助力 i9-14900KS 刷新至 9117.75 MHz,创造四项世界纪录(CPU 频率、SUPERPI 1M、PIFAST、PYPRIME 32B)。
    的头像 发表于 03-15 11:40 183次阅读

    离线语音识别,“自然说”为产品赋能

    相比于云端语音识别,离线语音识别技术具有更高的识别准确率和更快的响应速度。因为离线
    的头像 发表于 12-11 11:20 175次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>,“自然说”为产品赋能

    离线语音识别及控制是怎样的技术?

    、带宽以及延迟等因素的影响,可以在各种情况下都提供稳定可靠的识别服务。  4. 节省成本:离线语音识别不需要使用服务,可以避免服务的使用
    发表于 11-24 17:41

    离线语音识别和控制的工作原理及应用

    准确率和鲁棒性。   2.卷积神经网络(CNN)   CNN 是针对网格结构数据的处理而设计的。在语音识别领域,CNN 主要用于处理语音信号的短时傅里叶变换(STFT)后的频谱图。通
    发表于 11-07 18:01

    智慧矿山:AI算法为何能提高未戴安全带识别准确率

    未穿戴安全带识别AI算法是智慧矿山的重要应用之一,可以提高矿山工作人员的安全意识和降低事故发生的概率。为了提高识别准确率,研究人员可以优化数据集、改进网络结构、混合模型融合、应用强化学习等方式来提高
    的头像 发表于 10-22 22:01 244次阅读

    语音模块能给玄关灯带来什么?

    语音模块的识别准确率和反应速度都非常出色,用户可以轻松地与家庭设备进行交互
    的头像 发表于 10-19 11:01 288次阅读
    <b class='flag-5'>语音</b>模块能给玄关灯带来什么?

    行业资讯 | CEA-Leti创下5.1至7.7 Gbps的LiFi通信速度世界纪录

    了5.1Gbps的传输速率,创造了世界纪录。同时,他们还通过10微米micro-LED实现了7.7Gbps的数据传输速率,这标志着LiFi通信商业化和广泛应用迈出了新的一
    的头像 发表于 06-08 14:23 349次阅读
    行业资讯 | CEA-Leti创下5.1至7.7 Gbps的LiFi通信速度<b class='flag-5'>世界纪录</b>

    行业资讯|CEA-Leti创下5.1至7.7 Gbps的LiFi通信速度世界纪录

    CEA-Leti创下5.1至7.7 Gbps的LiFi通信速度世界纪录
    的头像 发表于 06-02 09:10 328次阅读
    行业资讯|CEA-Leti创下5.1至7.7 Gbps的LiFi通信速度<b class='flag-5'>世界纪录</b>

    如何开发智能家居语音控制方案

    的核心功能就是通过AI语音控制取代传统的遥控器控制,但是常用语音芯片存在语音识别准确率低,识别
    发表于 05-31 09:50

    中兴通讯R5300 G5服务器打破SPEC CPU 2017测试世界纪录

    近日,国际标准性能评估组织SPEC发布最新测试结果。中兴通讯最新产品R5300 G5服务器,凭借优异性能,打破了SPEC CPU 2017测试世界纪录,以1010分/977分,刷新了SPECrate 2017_int_peak/base测试成绩。
    的头像 发表于 05-16 11:25 621次阅读

    全球第一!中兴通讯R5300 G5服务器刷新SPEC CPU性能测试世界纪录

    近日,国际标准性能评估组织SPEC发布最新测试结果。中兴通讯最新产品R5300 G5服务器,凭借优异性能,打破了SPEC CPU 2017测试世界纪录,以1010分/977分,刷新了SPECrate 2017_int_peak/base测试成绩。
    的头像 发表于 05-16 11:18 640次阅读
    全球第一!中兴通讯R5300 G5服务器刷新SPEC CPU性能测试<b class='flag-5'>世界纪录</b>