0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

探索自动语音识别技术的独特应用

星星科技指导员 来源:NVIDIA 作者:David Taubenheim 2022-10-11 09:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自动语音识别( ASR )正在成为日常生活的一部分,从与数字助理交互到听写文本信息。由于以下方面的最新进展, ASR 研究继续取得进展:

ASR 为多个架构建模以满足需求

在特定行业的行话、语言、口音和方言方面具有定制灵活性

云、预部署或混合部署选项

这篇文章首先介绍了常见的 ASR 应用程序,然后介绍了两个初创公司,他们正在探索 ASR 作为核心产品功能的独特应用。

语音识别系统的工作原理

自动语音识别 或语音识别,是计算机系统从音频中破译口语单词和短语并将其转录成书面文本的能力。开发人员也可以将 ASR 称为语音到文本,不要与文本到语音( TTS )混淆。

ASR 系统的文本输出可能是语音 AI 接口的最终产品,或 会话人工智能 系统可能会消耗文本。

常见 ASR 应用

ASR 已经成为新型交互式产品和服务的网关。即使现在,您也可以考虑使用下面详细介绍的用例的品牌系统:

现场字幕和转录

实时字幕和转录是兄弟。两者之间的主要区别是字幕产生字幕 根据需要,为流媒体电影等视频节目直播。相比之下,转录可以在现场或批处理模式下进行,其中录制的音频片段的转录速度比实时快几个数量级。

虚拟助理和聊天机器人

虚拟助手和聊天机器人与人们互动,既提供帮助,也提供娱乐。他们可以从用户输入的文本或 ASR 系统接收基于文本的输入,因为 ASR 系统识别并输出用户的单词。

助手和机器人需要足够快地向用户发出响应,因此处理延迟是不可察觉的。响应可能是纯文本、合成语音或图像。

语音命令和听写

语音命令和听写系统是社交媒体平台和医疗行业使用的常见 ASR 应用。

为了提供一个社交媒体示例,在移动设备上录制视频之前,用户可能会发出语音命令以激活美容过滤器:“给我紫色头发”。该社交网络应用程序涉及一个支持 ASR 的子系统,该子系统以命令的形式接收用户的话语,同时应用程序同时处理摄像机输入并应用过滤器进行屏幕显示。

听写系统存储语音中的文本,扩展了 语音人工智能系统 超越命令。为了提供医疗保健行业的一个例子,医生口述包含医学术语和名称的语音注释。准确的文本输出可以添加到患者电子病历中的就诊摘要中。

独特的 ASR 应用

除了这些常见用例之外,研究人员和企业家正在探索各种独特的 ASR 应用。以下两个初创公司正在开发以新颖方式使用该技术的产品。

互动学习: Tarteel AI

ASR 的创造性应用开始出现在教育材料中,特别是以互动学习的形式出现在儿童和成人中。

挑战和解决办法

虽然应用程序现在运行顺利,但 Tarteel 面临着一系列艰难的初始挑战。首先,古兰经阿拉伯语没有合适的 ASR 模型,最初迫使塔特尔尝试通用 ASR 模型。

Tarteel Anas-Abou Allaban 的联合创始人兼首席执行官说:“我们从设备上的语音人工智能框架开始,就像智能手机一样,但它们的设计更多是为了命令和短句,而不是精确的背诵。”。“它们也不是生产级别的工具,甚至不接近。”

为了克服这一挑战, Tarteel 构建了一个自定义数据集来完善现有的 ASR 模型,以满足应用程序的性能目标。然后,在他们的下一个原型中, ASR 模型确实以较低的字错误率( WER )运行,但仍不能满足应用程序的实际精度和延迟要求。

阿拉班指出,他在一些电话会议记录中看到了 10-15% 的正确率,但在古兰经研究中看到高正确率是另一回事。他说,应用程序中超过 300 毫秒的处理延迟“变得非常烦人”。

Tarteel 通过调整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服务器上部署之前使用 TensorRT 进一步优化其延迟来应对这些挑战。

数字人类服务:Ex-human

创业公司 Ex human 正在创造超现实的数字人 与模拟人(你和我)互动。他们目前的重点是为娱乐利基开发 B2B 数字人类服务,使之能够创建具有独特个性、知识和现实说话声音的聊天机器人或游戏角色。

在公司 Botify AI 应用 ,人工智能实体包括名人,通过口头和图形交互与用户互动,无论您是在智能手机聊天窗口中打字还是使用语音。 NVIDIA Riva 自动语音识别为数字人类的自然语言处理子系统提供文本输入,作为大型语言模型( LLM )的一部分。

为了使虚拟交互可信,需要精确和快速的 ASR 。由于 LLM 是计算密集型的,并且需要大量的处理资源,因此对于交互来说,它们可能运行得太慢。

例如, Botify AI 应用最先进的 TTS 来产生语音音频响应,进而使用另一种 AI 模型驱动面部动画。该团队观察到,当响应的周转时间短于约三分之一秒时,机器人与用户的可信交互处于最佳状态。

挑战和解决办法

虽然 Botify 人工智能正在努力弥合人工智能生成的真实视频与真实人类之间的差距,但 Ex-human 团队对其客户行为数据的分析感到惊讶。“他们正在打造自己的新动漫人物,”Ex-human 的创始人兼首席执行官阿泰姆·罗迪切夫( Artem Rodichev )说。

通过使用为 Botify AI 生态系统微调的 ASR 模型,用户可以与自己喜爱的个性进行交流或创建自己的个性。在上传自定义人脸的背景下,构建新动画角色的令人惊讶的模式出现了,通过自定义角色将对话带入生活。 Rodichev 解释说,他的团队需要快速调整他们的人工智能模型,以处理例如在风格上只是一个点或一条线的嘴。

Rodichev 和他的团队通过仔细选择工具和 SDK 以及评估并行处理的机会,克服了 Ex-human 架构中的许多挑战。 Rodichev 警告说:“由于延迟非常重要,我们使用 NVIDIA TensorRT 优化了 ASR 模型和其他模型,并依赖于 Triton 推理服务器。”

Botify AI 用户是否准备好与数字人类而不是模拟人类互动?数据显示,用户平均每天花 40 分钟与 Botify 人工智能数字人在一起,在这段时间内发送他们最喜欢的数百条信息。

开始使用 ASR

您可以开始在自己的设计和项目中包括 ASR 功能,从免提语音命令到实时转录。 Riva 等高级 SDK 在世界级的准确性、速度、延迟和易集成性方面表现出高性能,所有这些都与您的新想法一致。

关于作者

David Taubenheim 是 NVIDIA Inception 项目的高级解决方案架构师,该项目是初创企业的加速器。他目前的技术重点领域是加速计算和对话 AI 使能器。 David 拥有国立技术大学的电气工程硕士学位和伊利诺伊大学香槟分校的电气工程学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5731

    浏览量

    110320
  • 语音识别
    +关注

    关注

    39

    文章

    1832

    浏览量

    116360
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ASR语音识别485模块:语音唤醒设备,赋能工业自动化控制

    语音识别控制模块在工业自动化里,核心价值是解放双手、提升安全、简化操作、快速应急,适合需要移动作业、戴手套/安全帽、油污环境、高危场景。 在典型的工业自动化场景中,
    的头像 发表于 04-24 15:50 217次阅读

    语音识别ic芯片分类工作原理,语音识别芯片分类

    语音识别IC芯片,通俗讲就是能让机器“听懂”人话的专用集成电路。与传统的语音播放芯片不同,语音识别芯片最大优势在于具备
    的头像 发表于 04-24 15:14 266次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>ic芯片分类工作原理,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片分类

    485AI语音识别模块:多路语音控制,实现安防设备语音联动

    485AI语音识别模块凭借工业级的RS485总线通信与离线/在线AI语音识别能力,应用场景非常广泛,粗略划分可覆盖超10大领域、数十种细分场景,核心集中在工业
    的头像 发表于 04-22 15:17 274次阅读

    语音识别芯片介绍,语音识别芯片工作原理解析

    在智能交互不断深入的今天,语音识别芯片正成为众多设备实现语音控制与AI对话的关键部件。语音芯片广义上涵盖语音播放、录音及
    的头像 发表于 04-01 16:26 338次阅读

    瑞芯微(EASY EAI)RV1126B 语音识别

    1.语音识别简介语音识别技术,也被称为自动语音
    的头像 发表于 01-21 10:43 1098次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>语音</b><b class='flag-5'>识别</b>

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。
    的头像 发表于 01-14 15:22 517次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>IC分类,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片的工作原理

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音
    的头像 发表于 11-14 17:11 1654次阅读

    广州唯创电子WTK6900H-32N语音识别芯片:智能语音控制赋能LED灯带创新应用 | 语音IC厂家

    在智能家居快速发展的今天,语音控制技术正以其独特的便捷性和智能化特性,重新定义着人们与家居环境的交互方式。广州唯创电子作为国内领先的语音IC厂家,推出的WTK6900H-32N(S00
    的头像 发表于 11-04 08:53 929次阅读
    广州唯创电子WTK6900H-32N<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片:智能<b class='flag-5'>语音</b>控制赋能LED灯带创新应用 | <b class='flag-5'>语音</b>IC厂家

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是一种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以进行语音控制。它内设先进的数字信号处理模块及
    的头像 发表于 10-31 15:27 776次阅读

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别
    的头像 发表于 10-30 16:32 822次阅读

    语音识别系统的技术核心:从声音到文字的智能转换

          语音识别技术,也称为自动语音识别(ASR),其核心目标是将人类
    的头像 发表于 09-05 14:04 1093次阅读

    瑞芯微RK3576语音识别算法

    1.语音识别简介语音识别技术,也被称为自动语音
    的头像 发表于 08-15 15:13 2557次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b><b class='flag-5'>识别</b>算法

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,
    发表于 08-09 10:54

    EASY EAl Orin Nano(RK3576) whisper语音识别训练部署教程

    Whisper是OpenAI开源的,识别语音识别能力已达到人类水准自动语音识别系统。Whispe
    的头像 发表于 07-17 14:55 2124次阅读
    EASY EAl Orin Nano(RK3576) whisper<b class='flag-5'>语音</b><b class='flag-5'>识别</b>训练部署教程

    语音识别芯片选型有哪些技术参数要注意

    语音识别芯片的使用场景越来越多涉及的范围也越来越广!那么语音芯片的选型就很重要了,选型不对直接影响产品的使用体验,下面小编从不同的维度来给大家介绍语音
    的头像 发表于 06-23 17:31 1153次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片选型有哪些<b class='flag-5'>技术</b>参数要注意