0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Live Transcribe语音引擎为语音识别提供字幕

电子工程师 来源:郭婷 2019-08-20 15:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

8月18日,谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe都可以帮助你进行沟通。

交流时可以实时畅通(只要有网络)谷歌于今年2月发布了Live Transcribe。该工具使用机器学习算法音频转换为实时字幕,与Android即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。

在云上工作

谷歌的Cloud Speech API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,谷歌避免了截断的句子或单词,并减少了会话中丢失的文本量。

70多种语言和方言中挑选自己合适的为了降低带宽需求和成本,谷歌还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。谷歌还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。

为了比Cloud Speech API更进一步减少延迟,Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率,使“延迟在视觉上无法区分发送未压缩的音频”。

Live Transcribe语音引擎功能

谷歌列出了语音引擎的以下功能(不包括说话人识别):

该文档指出这些库与生产应用程序Live Transcribe中运行的库“几乎相同”。谷歌已对其进行了“广泛的现场测试和单元测试”,但测试本身并非开源。但谷歌确实提供了APK,因此开发者可以在不构建任何代码的情况下试用该库。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6244

    浏览量

    110247
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115553
  • 引擎
    +关注

    关注

    1

    文章

    367

    浏览量

    23366
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产32位MCU语音识别方案

    在智能家居、工业控制及便携设备领域,语音交互正成为人机界面的重要发展方向。针对离线语音识别需求,基于国产32位MCU的解决方案日益成熟,其中以CH32V307等代表的32位MCU芯片
    的头像 发表于 12-04 15:11 148次阅读

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音识别
    的头像 发表于 11-14 17:11 1021次阅读

    广州唯创电子WTK6900H-32N语音识别芯片:智能语音控制赋能LED灯带创新应用 | 语音IC厂家

    芯片,凭借其卓越的性能和精准的识别能力,在LED灯带控制领域展现出强大的应用价值,智能照明系统带来了革命性的创新突破。一、核心技术优势1.1高性能语音识别
    的头像 发表于 11-04 08:53 457次阅读
    广州唯创电子WTK6900H-32N<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片:智能<b class='flag-5'>语音</b>控制赋能LED灯带创新应用 | <b class='flag-5'>语音</b>IC厂家

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    指令的识别与响应。无论是在家庭还是嘈杂的工业场合,这一类芯片都可以实现高准确率的智能语音交互,这种离线控制方式用户提供了极大的便利。
    的头像 发表于 10-31 15:27 265次阅读

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别
    的头像 发表于 10-30 16:32 459次阅读

    基于开源鸿蒙的语音识别语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。
    的头像 发表于 08-25 14:26 3579次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>及<b class='flag-5'>语音</b>合成应用开发样例

    瑞芯微RK3576语音识别算法

    1.语音识别简介语音识别技术,也被称为自动语音识别(AutomaticSpeechRecogni
    的头像 发表于 08-15 15:13 1853次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b><b class='flag-5'>识别</b>算法

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音
    发表于 08-09 10:54

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    源的开发资料开发者提供了深入研究和定制语音机器人功能的基础,开发者可以根据不同的应用需求,对语音识别算法、
    发表于 05-28 11:36

    芯资讯|广州唯创电子WTK6900P语音识别芯片:离线语音交互的革新者

    在智能设备全面普及的浪潮中,语音交互技术正逐步从“云端依赖”向“本地化高效处理”演进。广州唯创电子推出的WTK6900P语音识别芯片,凭借其本地化离线语音
    的头像 发表于 05-22 09:22 580次阅读
    芯资讯|广州唯创电子WTK6900P<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片:离线<b class='flag-5'>语音</b>交互的革新者

    语音识别技术在通信领域中的应用实例

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行分析和
    的头像 发表于 02-21 17:12 1057次阅读

    详解语音识别技术在通信领域中的应用

    语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),是通过计算机对语音信号进行分析和
    的头像 发表于 02-21 17:05 1031次阅读
    详解<b class='flag-5'>语音</b><b class='flag-5'>识别</b>技术在通信领域中的应用

    【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

    项目二维码下图 该作品通过采集饮水数据,多种交互方式,数据分析处理,提醒用户定期饮水,达到保持健康的作用。 主要功能是语音识别。 ASR-PRO语音模块是一款高度集成的智能语音
    发表于 01-02 18:15

    离线语音识别技术引领智能语音灯具市场——NRK3502

    智能语音灯具集高科技与人性化设计,内置NRK3502离线语音识别芯片,支持远场识别与自定义指令,提供便捷智能体验,推动智能家居行业发展。
    的头像 发表于 12-30 15:04 1209次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>技术引领智能<b class='flag-5'>语音</b>灯具市场——NRK3502

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将语音
    的头像 发表于 12-20 10:35 894次阅读