0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

「揭秘」Speech AI 技术发展与前沿应用

NVIDIA英伟达企业解决方案 来源:未知 2022-11-10 11:00 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Speech AI 线上技术研讨会

精彩议程抢先看



自二十世纪下半叶第一个基于计算机的语音合成系统诞生,至以隐马尔可夫模型为代表的统计机器学习合成语音占据主流,再到近十年来基于神经网络的语音合成快速发展,计算机语音合成技术如今已能媲美真人发声,并走向大规模的商业化落地阶段。


Gartner 技术成熟度曲线表明,语音识别和语音合成技术如今已经达到稳步爬升恢复期和生产成熟期。国内的智能语音市场也形成了比较成熟的格局,智能语音科技企业和互联网企业成为主导。因此,要实现差异化竞争,企业也在纷纷思考如何从单一的智能语音技术提供商转型为提供全方位的人工智能技术和应用的服务商。此外,尽管技术已经趋近成熟,门槛大大降低,开发和运行可落地的语音人工智能服务仍然是一项复杂而艰巨的任务,通常需要面临实时性、可理解性、自然性、低资源、鲁棒性等挑战。


在智能语音市场的竞争格局中,一大空缺是算法、通用类芯片和云端 AI 芯片。借助以 GPU 为代表的通用类芯片上的技术优势,NVIDIA 进军了智能语音领域。基于自动语音识别( ASR )和语音合成( TTS ),NVIDIA Riva 简化了开发语音 AI 服务的端到端流程,并为语音交互提供实时性能。此外,包括 NVIDIA TensorRTTriton 推理服务器在内的诸多 NVIDIA 技术也帮助各种 Speech AI 工作负载进行大幅的降本增效。不论是 AI 呼叫中心、虚拟主力语音接口,还是视频会议中的实时字幕等应用,NVIDIA GPU 及 NVIDIA 加速技术都在帮助用户进一步为技术落地降低门槛,为自动驾驶、医疗等场景的智能语音应用创新赋能。


2022 年 10 月 25 日和 27 日,NVIDIA 在 DataFun 直播间,举办 Speech AI 线上技术研讨会,由资深专家介绍 NVIDIA NeMo / RIVA 构建语音应用的工作流GPU 加速和部署 Speech AI 任务全流程的最佳实践,更荣幸邀请到了 WeNet 开源社区发起人为我们分享 WeNet 社区的最新技术进展


议题介绍


NVIDIA NeMo 工具介绍,以及如何利用 NeMo 进行语音相关任务的训练


NeMo 是 NVIDIA 推出的一款主打GPU 训练的工具,可以支持常见的 Speech AI 相关的任务,例如ASR、NLP、TTS、Speaker Recognition 等。将以中文语音识别为例,介绍如何利用 NeMo 快速地完成该任务的训练。同时也会介绍 NeMo 中目前已有的一些功能,例如 VAD、说话人日志等。


通过本次演讲您将收获以下内容:


  • 如果利用 NeMo 训练 ASR 模型?


  • NeMo 对中文语音任务的支持有哪些?


  • NeMo 支持其他哪些 Speech processing 的任务?



演讲嘉宾


丁文 NVIDIA 解决方案架构师

毕业于上海交通大学,导师为俞凯教授。毕业后曾就职于头部互联网公司语音交互部门,主要负责流式 ASR 的迭代与优化、粤语 ASR 等。目前就职于 NVIDIA,负责 Riva 中文 ASR 模型迭代,中文 ASR 模型 GPU 部署方案落地与优化等。


使用 NVIDIA Riva 部署企业级 ASR 服务


NVIDIA Riva 提供了最先进的 GPU 优化部署解决方案,用于构建和部署完全可定制的实时语音识别服务,用于诸如呼叫中心代理协助、虚拟助理、数字化身、品牌语音和视频会议转录等应用程序。


本次分享将为大家介绍 NVIDIA Riva 的主要特性,包括高精度的预训练语音模型,高性能推理模型,以及高可扩展的推理服务。


通过本次演讲您将收获以下内容:


  • 如何使用 NVIDIA Riva 在 GPU 上快速部署语音识别服务?


  • Riva 是如何针对 GPU 进行优化加速的?


  • 怎样进行定制化达到更好的语音识别精度?



演讲嘉宾


齐家兴 NVIDIA 解决方案架构师

德国亚琛工业大学博士,目前于英伟达企业解决方案部门担任高级架构师,多年来从事自然语言处理和语音识别等方向研究,助力多家企业基于 GPU 平台实现高效易用的训练和推理平台。他是英伟达 NeMo,Riva 语音识别训练推理平台的中文模型开发者之一。


利用 Triton Inference Server 和 TensorRT 加速语音 AI 在云端的运行效率


演讲将主要介绍云上部署端到端 ASR 服务最佳实践以及云上部署端到端 TTS 服务最佳实践。


通过本次演讲您还将收获以下内容:


  • 了解如何加速语音 AI 模型


  • 了解如何节省语音 AI服务的部署成本



演讲嘉宾


刘川 NVIDIA 资深解决方案架构师

NVIDIA 中文语音解决方案主要负责人,对基于 GPU 的语音识别和语音合成在云上的部署有丰富经验。


WeNet 在 Speech AI 的应用与探索


演讲将主要介绍开源极简史、语音开源简史、WeNet 开源社区以及基于 GPU 的语音识别实践。


通过本次演讲您将收获以下内容:


  • 了解 WeNet 开源社区


  • WeNet 社区中如何支持和使用 GPU



演讲嘉宾


张彬彬 WeNet 开源社区发起人

硕士毕业于西北工业大学音频语音与语音处理研究组。WeNet 开源社区发起人,主导了业界领先的开源端到端语音识别项目 WeNet 和大规模多领域中文语音识别开源数据集 WenetSpeech 的开发。现任地平线语音算法专家,曾先后在微软、出门问问等公司从事语音识别算法和产品研发。



参与方式


精彩连续,点击“阅读原文”扫描下方海报二维码,马上注册预约!



原文标题:「揭秘」Speech AI 技术发展与前沿应用

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4115

    浏览量

    99615

原文标题:「揭秘」Speech AI 技术发展与前沿应用

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    论马斯克的预言:AI使人类边缘化

    呈指数级爆炸增长,在这种级别的AI面前,人类的智能总和将显得微不足道,从而导致人类被边缘化。 合理性 技术发展趋势角度:从当前技术发展来看,AI确实在不断进步,如科研团队完成的果蝇“数
    发表于 03-14 05:27

    远距离无线通信WiFi技术技术发展、未来趋势与挑战

    探讨远距离无线通信技术发展及应用,揭示这一领域的前沿突破以及它将如何改变我们的生活与工作方式。
    的头像 发表于 12-04 18:17 1428次阅读

    MediaTek Pentonic平台推动智能电视显示技术发展

    Mini-LED 技术凭借更精细的背光控制、更高的亮度与对比度表现,赢得了众多智能电视厂商和消费者的青睐。在 Mini-LED 电视领域,MediaTek 始终致力于通过强大的芯片算力,推动显示技术发展,用先进的画质引擎及 AI
    的头像 发表于 10-30 15:47 995次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+半导体芯片产业的前沿技术

    半导体芯片是现在世界的石油,它们推动了经历、国防和整个科技行业。-------------帕特里克-基辛格。 AI的核心是一系列最先进的半导体芯片。那么AI芯片最新技术以及创新有哪些呢。 本章节作者
    发表于 09-15 14:50

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    AI芯片:科技探索与AGI愿景》这本书是张臣雄所著,由人民邮电出版社出版,它与《AI芯片:前沿技术与创新未来》一书是姊妹篇,由此可见作者在AI芯片领域的功力和造诣。 作者毕业于上海交
    发表于 09-05 15:10

    AI 芯片浪潮下,职场晋升新契机?

    对复杂场景中目标检测与识别的速度和精度。在此过程中,对算法的理解深度、芯片架构与算法的协同能力,都会成为职称评审中的加分项。 除技术能力外,创新能力同样不可或缺。AI 芯片行业发展日新月异,新
    发表于 08-19 08:58

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    的应用。 对半导体芯片产业前沿技术的讲解也紧密联系产业实际,为技术从业者提供实践指导,同时为科研人员指明研究方向,为投资者提供产业发展洞察。 ▲精彩书摘 AI和芯片领域的研究人员、工
    发表于 07-28 13:54

    声智科技与蚂蚁集团共探声学AI前沿技术

    当声学AI遇上金融科技,会碰撞出怎样的火花?当声学AI模型赋能AI硬件产品,又将如何重塑人机交互的边界?近日,声智科技受邀参加蚂蚁集团《AI圆桌派》内部分享会,一场关于声学
    的头像 发表于 07-24 10:18 1183次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】+混合专家

    感谢电子发烧友提供学习Deepseek核心技术这本书的机会。 读完《Deepseek核心技术揭秘》,我深受触动,对人工智能领域有了全新的认识。了解Deepseek-R1 、Deepseek-V3
    发表于 07-22 22:14

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    时间减少,数据处理更流畅。这让我联想到工业生产中的流水线,AI 训练在此处借鉴类似思路,通过优化任务分配和流程,突破硬件限制,追求更高效率,体现了技术发展中持续优化、突破瓶颈的智慧。 三、细粒度
    发表于 07-20 15:07

    无刷双馈电机专利技术发展

    ~~~ *附件:无刷双馈电机专利技术发展.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容,谢谢!
    发表于 06-25 13:10

    铝电解电容技术发展与市场格局分析

    铝电解电容的技术发展,市场需求状况分析
    的头像 发表于 06-23 15:30 1329次阅读

    Kneron耐能前沿AI芯片技术进军中东市场

    近日,全球领先的边缘AI计算解决方案提供商——Kneron(耐能)宣布,公司已正式通过沙特国家技术发展计划(NTDP)“RELOCATE”深度科技专项审核,并成功获得沙特政府非股权资助。
    的头像 发表于 06-23 10:20 1327次阅读

    轮边驱动电机专利技术发展

    ,具有较高的灵敏度。 本文主要以 DWPI 专利数据库以及 CNABS 数据库中的检索结果为分析样本,从专利文献的视角对轮边驱动电机的技术发展进行了全面的统计分析,总结了与轮边驱动电机相关的国内和国外
    发表于 06-10 13:15

    Gartner发布云技术发展的六大趋势

    Gartner发布未来四年云技术发展的六大趋势,包括对云技术不满、人工智能/机器学习(AI/ML)、多云和跨云、可持续性、数字主权以及行业解决方案。Gartner顾问总监JoeRogus表示:“这些
    的头像 发表于 05-19 11:40 1149次阅读
    Gartner发布云<b class='flag-5'>技术发展</b>的六大趋势