0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软院士:Speech DDK技能太强了,语音识别超专业翻译人士水平

渔翁先生 来源:电子发烧友网 作者:尹志坚 2018-12-19 16:53 次阅读

【导读】2016年152层残差网络图像识别精准率96%,2017年语音识别基准测试误差率5.1%,2018年1月文本理解测试精准率88.5%,3月机器翻译研究系统精准率达到69.9%,12月语音合成测试版在Azure正式上线,并首次达到超过专业翻译人士的水平,微软人工智能AI)再次刷新世界纪录。

12月18日,在IoT In Action峰会上,微软全球资深院士首席语音科学家黄学东博士介绍智能语音和语言上的最新进展。首款媲美专业发音人的实时在线语音合成系统预览版在Azure上正式运营服务。

黄学东博士表示,微软在云服务上提供了世界级的语音合成服务,所有的互联网内容提供商都可以享受这个世界级的技术。它不仅解决了过去20年机器语音识别错误率居高不下的难题,更是人工智能语音和语言上的一次历史性突破——采用先进深度网络学习,简化了传统语音合成的架构。

从以上图片可以看出,左边紫色系统架构下,微软通过端到端的深度学习优化,为大家提供前所未有的、最自然的语音合成系统。

“基于神经网络的语音合成系统”是业界第一个实时的在语音上上线的人工智能服务。黄学东博士指出,大家可以享受更好的语音合成质量、更快的引擎性能、更广的全球服务部署。所有的内容提供商,不管是有没有音频、你的内容都可以转换成自然的声音表达,不管是在开车还是在睡觉,都可以享受高质量的交互。

同时,微软联合全球合作伙伴一起推出强大的语音麦克风阵列开发系统(Speech Devices SDK简称Speech DDK),它可以在25m之外都可以转写你的声音,DDK不仅可供用户免费使用,还可以整合到任何硬件设备中去,通过微软云服务为用户提供最先进的、世界一流的语音交互服务。

DDK让智能音箱“说话”。这是一款眼观六路的智能音箱系统,为企业级的会议转写提供前所未有的智能服务。

可以看到,它不仅仅是业界第一台多人原场会议转录系统,而且是业界第一台“睁开双眼”的智能音箱。

随着语音识别技术不断取得进步。放眼未来,各国间的语言沟通障碍不再有任何问题,人类离人工智能真正的目标又将推进一小步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6246

    浏览量

    103077
  • 神经网络
    +关注

    关注

    42

    文章

    4572

    浏览量

    98743
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111831
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230591
  • 语音合成
    +关注

    关注

    2

    文章

    80

    浏览量

    16020
收藏 人收藏

    评论

    相关推荐

    微软“数字技能赋能”项目拓展在华合作

    微软近日宣布,与中国教育发展基金会和全国高等院校计算机基础教育研究会携手合作,共同推进“数字技能赋能”项目。此次合作旨在将微软在智能技术、绿色数字技能、数据处理和可视化分析以及低代码开
    的头像 发表于 03-22 09:19 238次阅读

    恩智浦发布新一代智能语音技术组合的语音识别引擎

    恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Inten
    的头像 发表于 01-26 09:15 246次阅读
    恩智浦发布新一代智能<b class='flag-5'>语音</b>技术组合的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>引擎

    重塑翻译识别技术:开源语音识别模型Whisper的编译优化与部署

    模型介绍Whisper模型是一个由OpenAI团队开发的通用语音识别模型。它的训练基于大量不同的音频数据集,是一个多任务模型,可以执行语音识别、语言
    的头像 发表于 01-06 08:33 731次阅读
    重塑<b class='flag-5'>翻译</b>与<b class='flag-5'>识别</b>技术:开源<b class='flag-5'>语音</b><b class='flag-5'>识别</b>模型Whisper的编译优化与部署

    离线语音识别与在线语音识别有什么不一样?

    离线语音识别与在线语音识别有什么不一样? 离线语音识别和在线
    的头像 发表于 12-12 14:36 634次阅读

    离线语音识别及控制是怎样的技术?

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别技术能够将人的语音转化为可理解的文本,无需依赖网络连
    发表于 11-24 17:41

    情感语音识别的研究方法与实践

    一、引言 情感语音识别是指通过计算机技术和人工智能算法自动识别和理解人类语音中的情感信息。为了提高情感语音
    的头像 发表于 11-16 16:26 268次阅读

    离线语音识别和控制的工作原理及应用

    引言   离线语音识别是指在没有网络连接的情况下,通过在本地设备上进行语音信号处理和识别,实现语音命令的转化和执行。随着智能设备的普及,离
    发表于 11-07 18:01

    厨房秤也能语音控制?#语音控制 #语音模块 #语音识别 #离线语音识别

    芯片语音识别
    轻生活科技语音模块
    发布于 :2023年10月19日 16:36:15

    仿真人类的微软AI翻译系统

    从历史上看,曾经主流的机器学习技术在行业中应用是统计机器翻译 (SMT)。SMT 使用先进的统计分析,从一句话中上下文的几个词中来估计最佳可能的翻译。SMT自20 世纪中期以来的为所有主要翻译服务提供商所使用,其中包括
    的头像 发表于 10-11 15:27 557次阅读

    深度学习在语音识别中的应用及挑战

    一、引言 随着深度学习技术的快速发展,其在语音识别领域的应用也日益广泛。深度学习技术可以有效地提高语音识别的精度和效率,并且被广泛应用于各种应用场景。本文将探讨深度学习在
    的头像 发表于 10-10 18:14 497次阅读

    微软数字技能赋能项目荣登 2023 年《财富》中国最佳设计榜

    设计。 《财富》中国评价该项目:“ 微软以数字技能培训为切入口,集合微软自身以及行业生态伙伴、公益机构和企业合作伙伴的技术、平台、资源优势,协力支持残障人士就业,不仅可以授人以渔,而且
    的头像 发表于 09-28 00:10 498次阅读
    <b class='flag-5'>微软</b>数字<b class='flag-5'>技能</b>赋能项目荣登 2023 年《财富》中国最佳设计榜

    语音数据标注平台让语音识别技术更精准

    随着人工智能技术的快速发展,语音识别技术越来越普及,成为人们日常生活中不可或缺的一部分。然而,如何保证语音识别技术的准确性和稳定性一直是技术领域的难题。为此,一些
    的头像 发表于 07-21 16:05 428次阅读

    2023海外市场好做吗?#物联网 #电子技术 #语音模块 #语音控制 #语音识别

    语音识别
    轻生活科技语音模块
    发布于 :2023年05月30日 14:53:40

    语音识别技术的概念及应用前景

    解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互,让操控和生活更为便捷。 智能语音的基础在于通过神经网络技术,提升语音识别识别率,同时可以用语义理解分析出人
    发表于 05-27 09:41