0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云从科技打破世界纪录 语音识别准确率达97.03%

cMdW_icsmart 来源:未知 作者:胡薇 2018-10-31 17:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音识别领域,全球科技企业的目标很一致,那就是想“超过人类”。之前科研界设定人类错词率为5.9%的这个界线,受过严格训练的专业速记员错词率在3%左右,错词率(Worderrorrate,WER)是衡量语音识别技术水平的核心指标。

人类的界线已在2017年被微软超过,而受过严格训练的专业速记员则一直坚守着自己的底线。

然而这个纪录也在这个10月被打破,2018年10月 29日,中国人工智能“国家队”云从科技在语音识别技术上取得重大突破,他们融合图像识别与语音识别的优势,推出全新Pyramidal-FSMN语音识别模型。

在技术研究的「最后一公里」,每 0.1 个百分点的进步都异常艰难。全新Pyramidal-FSMN语音识别模型在全球最大的开源语音识别数据集Librispeech上刷新了世界纪录,准确率提升到97.03%,将Librispeech的错词率(Worderrorrate,WER)降低至2.97%,超过阿里、百度、约翰霍普金斯大学等企业及高校,大幅刷新原先记录。

DS2:百度,ESPnet:约翰霍普金斯大学,DFSMN-CE:阿里

云从科技并没有把人脸识别作为唯一的“宝”来押注,这家孵化自中国科学院的企业,并不是第一次取得这样的技术突破。

2018年2月,云从科技正式在国内首发“3D结构光人脸识别技术”。2018年4月,云从科技“跨镜追踪技术”(ReID)技术在Market-1501,DukeMTMC-reID,CUHK03三个数据集刷新了世界纪录,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)达到96.6%,让跨镜追踪技术(ReID)技术在准确率上首次达到商用水平,人工智能从「刷脸」跨到「识人」的新纪元。

语音识别技术同样是智能感知中一个重要的部分,通过语音识别,机器就可以像人类一样听懂说话,进而能够理解、思考与反馈。近年来,在深度学习技术的帮助下,语音识别取得了极大的进展,从实验室开始走向市场,走向实用化。基于语音识别技术的输入法、搜索和翻译等人机交互场景都有了广泛的应用。

智能感知 大数据,是云从科技打造核心技术闭环,领跑人工智能行业的利器。

据悉,此次技术突破是云从科技打造核心技术闭环路径中的关键一步。此前,云从科技在10月12日发布了国家发改委“人工智能基础资源公共服务平台”项目,该平台可以基于行业数据为各行各业提供人工智能智能感知及大数据服务,中国人民银行、中国联通、中国邮政、民航局、金山云等企业与机构与云从首批签约。这个搭载人脸、人体、手势、红外、语音、车辆、风控、文字、大数据分析等多种方式为一体的人工智能平台,云从倾注了大量的技术力量。

在平台发布会上,云从科技创始人周曦提出了人工智能发展的五个阶段,核心技术闭环是五个阶段的重要基础。云从科技在今年先后首发3D结构光人脸识别技术及刷新跨镜追踪技术三项世界纪录,并在金融、安防、机场等优势行业建设基于智能分析的“行业大脑”,广泛强化合作伙伴范围,稳步推进从核心技术到智能生态的五步走战略。

目前,云从科技是中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次,同时为14.7万家社会网点提供服务。

在安防领域,公司产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;

在民航领域,已有60余家机场选择云从产品,日服务旅客人数达到6千万。

在这些基础上,云从科技正在致力整合算力、智力、数据等资源及其成果,打造人工智能平台,进一步促进人工智能在金融、安防、交通、零售、教育等重要行业的落地。

语音识别六十年,技术突破总是艰难而缓慢。

语音识别的研究起源可以追溯到上世纪50年代,AT&T贝尔实验室的Audry系统率先实现了十个英文数字识别。

从上世纪60年代开始,CMU的Reddy开始进行连续语音识别的开创性工作。但是这期间进展缓慢,以至于贝尔实验室的约翰·皮尔斯(John Pierce)认为语音识别是几乎不可能实现的事情。

上世纪70年代,计算机性能的提升,以及模式识别基础研究的发展,促进了语音识别的发展。IBM、贝尔实验室相继推出了实时的PC端孤立词识别系统。

上世纪80年代是语音识别快速发展的时期,引入了隐马尔科夫模型(HMM)。此时语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展。

上世纪90年代是语音识别基本成熟的时期,但是识别效果离实用化还相差甚远,语音识别的研究陷入了瓶颈。

关键突破起始于2006年。这一年辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。

2009年,辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。

2011年,微软研究院俞栋、邓力等发表深度神经网络在语音识别上的应用文章,在大词汇量连续语音识别任务上获得突破。国内外巨头大力开展语音识别研究。

2017年3月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 错词率的突破”。相对应的是去年5月的6.9%。

2017年8月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,错词率为5.1%。相对应的是去年10月的5.9%,声称超过人类。

2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),错词率降低至5.6%。相对于强大的传统系统有 16% 的性能提升。

2018年6月,阿里巴巴达摩院推出了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%,错词率降低至3.96%。

2018年10月,云从科技发布全新Pyramidal-FSMN语音识别模型,错词率(Worderrorrate,WER)降低至2.97%,较之前提升了25%,将全球语音识别准确率纪录提高至97.03%,超过受过严格训练的专业人类速记员。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1804

    浏览量

    115583
  • 云从科技
    +关注

    关注

    1

    文章

    73

    浏览量

    10385

原文标题:一举打破世界纪录,云从科技将语音识别准确率提升到97.03%

文章出处:【微信号:icsmart,微信公众号:芯智讯】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    晶科能源第31次打破电池效率和组件功率世界纪录

    近日,全球领先的光伏企业晶科能源宣布,经德国哈梅林太阳能研究所(ISFH)权威认证,基于TOPCon技术平台的高效先进电池,最高光电转换效率突破27.79%,再次刷新世界纪录,实现第31次打破电池
    的头像 发表于 11-24 15:00 318次阅读

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    指令的识别与响应。无论是在家庭还是嘈杂的工业场合,这一类芯片都可以实现高准确率的智能语音交互,这种离线控制方式为用户提供了极大的便利。
    的头像 发表于 10-31 15:27 285次阅读

    除了准确率,电能质量在线监测装置在谐波源识别方面还有哪些重要指标?

    除了识别准确率,电能质量在线监测装置在谐波源识别方面的核心价值还依赖于 识别效率、定位精度、抗干扰能力、场景适配性 等关键指标,这些指标直接决定装置能否在复杂现场环境中 “快速找对、精
    的头像 发表于 10-22 16:22 793次阅读

    电能质量在线监测装置识别谐波源的准确率有多高?

    电能质量在线监测装置识别谐波源的准确率受电网结构、监测方案、设备性能等多重因素影响,呈现显著的 场景化差异 。根据行业研究与工程实践,其准确率通常在 **65%~95%** 之间波动,具体可分为以下
    的头像 发表于 10-22 16:18 691次阅读

    165Hz 超高刷东方屏打破 9 项世界纪录,一加携手京东方开启中国屏幕的刷新时刻

    10月14日,一加携手京东方正式发布第三代东方屏。作为全球首块165Hz超高刷高分辨屏幕,第三代东方屏以8项技术突破刷新9项世界纪录,在流畅度、显示素质、暗光显示、护眼能力四大维度带来引领行业
    的头像 发表于 10-15 09:15 596次阅读
    165Hz 超高刷东方屏<b class='flag-5'>打破</b> 9 项<b class='flag-5'>世界纪录</b>,一加携手京东方开启中国屏幕的刷新时刻

    谷东智能助力美的洗衣机荆州工厂荣获世界纪录认证

    近日,美的洗衣机荆州工厂荣获总部位于伦敦的世界纪录认证机构 WRCA 授予的“世界卓越的首个多场景覆盖的智能体工厂”认证,标志着行业首个智能体工厂正式落地。这一成就的背后,谷东智能作为美的集团AI+AR眼镜合作的供应商,凭借其深耕多年顶尖的AI+AR技术,发挥了不可忽视的
    的头像 发表于 09-01 15:03 905次阅读

    广汽本田雅阁刷新吉尼斯世界纪录

    近期,在吉尼斯官方认证官的见证下,广汽本田雅阁凭借加速持久、转向灵活、车身稳重的驾控性能,以29.196秒内绕17个移动桩的成绩,成功打破此前由某新能源车型创造的30秒绕16个移动桩的纪录,创造新的全球汽车挑战“30秒内驾车绕移动桩最多”的吉尼斯
    的头像 发表于 08-27 10:12 885次阅读

    语音识别芯片选型有哪些技术参数要注意

    性能参数 1. 识别准确率 定义:芯片对语音指令的正确识别比例,通常以百分比表示(如 95% 以上)。 影响因素:环境噪声、发音清晰度、方言适配性等。 应用场景:智能家居、车载系统需≥
    的头像 发表于 06-23 17:31 684次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片选型有哪些技术参数要注意

    天合光能再度刷新叠层组件功率世界纪录

    继6月9日宣布钙钛矿/晶体硅30.6%叠层组件效率及829W叠层组件功率双世界纪录后,天合光能今日再传喜讯——叠层组件功率提升至841W,再次打破世界纪录。短短一周内三次刷新世界纪录
    的头像 发表于 06-13 15:58 738次阅读

    普强信息入选2024语音识别技术公司TOP30榜单

    企业数字化升级,这一荣誉不仅体现了普强在语音交互、语义理解、多语种识别等核心技术上的领先优势,更是对普强自主研发的端到端语音识别系统在高噪声环境、复杂口音等极端场景下仍能保持95%以上
    的头像 发表于 04-18 17:25 1012次阅读

    天合光能钙钛矿晶体硅叠层技术再破世界纪录

    (Fraunhofer ISE, CalLab)第三方独立认证,最高电池效率达到31.1%,不仅创造了大面积叠层太阳电池效率新的世界纪录,而且首次在210mm工业级电池尺寸上实现超过31%的电池效率,第32次创造和刷新世界纪录,也标志着天合光能在钙钛矿晶体硅叠层技术领域
    的头像 发表于 04-11 15:50 728次阅读

    浪潮信息:元脑EPAI已接入DeepSeek,大幅提升DeepSeek企业应用准确率

    结合,深度开发模型潜力,快速实现本地化部署DeepSeek,构建准确率高、安全稳定的专属智能应用。实测数据显示,DeepSeek在元脑企智EPAI上开发的企业应用回答准确率达到95%。   企业落地
    的头像 发表于 02-23 07:32 892次阅读
    浪潮信息:元脑EPAI已接入DeepSeek,大幅提升DeepSeek企业应用<b class='flag-5'>准确率</b>

    中国“人造太阳”刷新世界纪录

    近日,位于安徽合肥的全超导托卡马克核聚变实验装置(EAST),被誉为中国的“人造太阳”,成功创造了新的世界纪录。该装置首次实现了1亿摄氏度下持续1000秒的“高质量燃烧”,这一成就标志着中国在聚变
    的头像 发表于 01-21 10:28 776次阅读

    请问AFE4400 SPO2精度和准确率如何?

    请问用TI 的AFE4400 EVM 测量SPO2 的值,有没有详细的说明其测量的准确率和精度,抗弱灌注等。谢谢! 比如如下类似: SpO2 测量范围 0~100% 分辨 1% 精度 70~100%, 2%
    发表于 01-15 07:02

    天合光能创造高效n型HJT电池组件效率世界纪录

    ‌)认证,最高组件窗口效率达到25.44%,创造了大面积HJT组件窗口效率的世界纪录,这是天合光能第30次创造和刷新世界纪录,也是目前正背面接触结构晶体硅组件的最高纪录,创造了单结晶体硅太阳电池组件光电转换效率的
    的头像 发表于 01-06 15:02 1101次阅读