0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌的智能助理Google Assistant 开启了多语言支持

DPVg_AI_era 来源:未知 作者:李倩 2018-09-02 09:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

从今天开始,谷歌的智能助理可以同时说两种语言了!这意味着双语家庭可以用任何一种语言进行查询,而无需每次都更改设置。听起来简单,实现这一功能所需的技术可不简单,谷歌的口语识别LangID技术已经开发了5年!

使用 Google Assistant 的 Google Home Mini

多语家庭正变得越来越普遍,有一些研究发现多语人口已经超过单语人口,而且这个数字还将继续增长。随着多语用户数量的不断增加,开发能够同时支持多种语言的产品比以往任何时候都更加重要。

今天,谷歌的智能助理Google Assistant开启了多语言支持,允许用户同时使用两种不同的语言进行查询,而无需返回语言设置。一旦用户选择了两种支持的语言(目前支持的语言包括英语、西班牙语、法语、德语、意大利语和日语),他们就可以使用其中任一种语言与Google Assistant进行对话,智能助理也会以同一种语言做出回复。

在此之前,用户必须为智能助理选择一种语言设置,每次想要使用另一种语言时都必须更改设置。但现在,对于多语家庭来说,与谷歌助理交流的体验变得更加简单方便了。

Google Assistant现在能够识别语言、解释查询并使用正确的语言提供回复,而无需用户手动设置设置。

然而,实现这一功能并非易事。事实上,研究人员努力了多年,解决了许多具有挑战性的问题。最后,我们将问题分解为三个独立的部分:识别多种语言,理解多种语言,以及为Google Assistant用户优化多语言识别。

识别多种语言

人类是有能力识别出别人在说另一种语言的,即使他们自己不会说这种语言,只需要注意语音的声学特征(语调、音域等等)。但是,即使借助于全自动语音识别系统,定义一个自动口语语言识别的计算框架也是很有挑战性的。

研究者通常认为,口语识别比基于文本的语言识别更具挑战性,对于文本语言识别来说,相对简单的基于字典的技术已经可以做得很好。口语词汇的时间/频率模式很难比较,口语词汇很难划界,因为口语可以毫无停顿地以不同的节奏说话,而且麦克风可能会记录除了语音之外的背景噪音。

在2013年,谷歌开始使用深度神经网络开发口语识别(LangID)技术。今天,谷歌最先进的LangID模型已经可以使用递归神经网络区分超过2000种可供选择的语言对。递归神经网络特别适用于序列建模问题,例如语音识别、语音检测、说话人识别等。研究人员遇到的挑战之一是使用更大的音频集——获取能够自动理解多种语言的模型,并达到允许这些模型正常工作的质量标准。

理解多种语言

要同时理解一种以上的语言,需要并行地运行多个进程,每个进程都会产生增量结果,这样智能助理不仅可以识别查询所使用的语言,还可以解析查询以创建可操作的命令。

例如,即使是单语环境,如果用户要求“设一个下午6点的闹铃”,谷歌助理必须理解“设置闹铃”意味着打开时钟app,完成“6pm”的显式参数,并推断闹钟应该设在今天。为任何一对支持的语言实现这个功能都是一项挑战,因为智能助理需要执行与单语环境时相同的工作,但现在还必须另外启用LangID。这不仅是一个语言识别系统,而是相当于两个单语言识别系统。

更重要的是,Google Assistan以及在用户查询中异步引用的其他服务会生成需要在几毫秒内评估的实时增量结果。这是借助另外一种算法实现的,该算法使用LangID生成的候选语言的概率、我们对转录的信心以及用户的偏好(例如,最喜欢的艺术家)对两个语音识别系统提供的转录假设进行排序。

Google Assistant使用的多语言语音识别系统与标准单语语音识别系统的示意图。排序算法用于从两个单语语音识别器中选择最佳的识别假设,利用了用户的相关信息和增量的langID结果。

当用户停止说话时,该模型不仅确定了用户所讲的语言,还确定了所讲的内容。当然,这个过程需要一个复杂的架构,增加了处理成本,并可能造成不必要的延迟。

优化多语识别模型

为了最大限度地减少这些不良影响,系统决定使用哪种语言的速度越快越好。如果系统在用户完成查询之前确定了所使用的语言,那么它将停止通过losing recognizer运行用户的语音,并丢弃losing hypothesis,从而降低处理成本,减少任何潜在的延迟。

考虑到这一点,我们尝试了优化系统的几种方法。

我们考虑的一个用例是,人们通常在一个完整查询过程中使用相同的语言(这个语言通常也是用户希望智能助理回复使用的语言),除了询问某个东西用不同语言怎样说之外。这意味着,在大多数情况下,关注查询的开头部分就可以让智能助理对所使用的语言进行初步猜测,甚至在包含不同语言实体的句子中也是如此。

有了这种早期识别,我们就可以像处理单语查询那样,通过切换到单语语音识别器来简化任务。然而,快速决定如何以及何时切换到一个单语言,在最后会需要一个技术转折:具体来说,我们使用随机森林(random forest)方法,结合多个上下文信号,例如正在使用的设备类型、发现的语音假设的数量、多久收到类似的假设、各个语音识别器的不确定性、以及每种语言的使用频率等。

另外一种简化和改进系统质量的方法是限制用户可以选择的候选语言列表。用户可以谷歌智能助理设备目前支持的六种语言中选择两种语言,这已经能够支持大多数多语使用者。

不过,随着LangID技术的不断改进,谷歌希望接下来能够解决三语支持的问题,这将进一步提升多语用户群的体验。而且,谷歌负责产品的副总裁 Nick Fox 此前表示,接下来的几个月里 Google Assistant 将增加支持丹麦语、荷兰语、印地语、印度尼西亚语、挪威语、瑞典语和泰语。到今年年底,谷歌助理将支持超过 30 种语言,覆盖 Android 手机使用语言的 95%。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110297
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106836

原文标题:谷歌双语助理来了!中英夹杂也不怕,递归神经网络和随机森林显神威

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里巴巴国际站关键字搜索 API 实战:3 步搞定多语言适配 + 限流破局,询盘量提升 40%

    跨境电商API开发常陷合规、多语言、限流等坑。本文详解从国际合规(GDPR/CCPA)到参数优化、数据结构化及区域化搜索的全链路方案,附Python代码模板与缓存重试架构,助力提升调用成功率至99%+,精准询盘增长42%。
    的头像 发表于 10-20 14:44 1064次阅读

    速卖通全球运营利器:商品详情接口多语言 + 合规 + 物流适配技术全解析

    速卖通全球化适配是跨境成功关键!本文详解2025最新接口方案,涵盖多语言智能翻译、合规自动校验、物流精准推荐与性能优化四大模块,助力商家提升转化率30%+,降低风险,提效80%。附实操代码与新手三步走策略,适合所有想出海的卖家。
    的头像 发表于 10-16 09:30 328次阅读
    速卖通全球运营利器:商品详情接口<b class='flag-5'>多语言</b> + 合规 + 物流适配技术全解析

    谷歌查找我的设备配件(Google Find My Device Accessory)详解和应用

    谷歌查找我的设备配件(Google Find My Device Accessory)介绍 谷歌查找我的设备配件是与谷歌 “查找我的设备” 应用程序配合使用的配件,旨在帮助用户更方便地
    发表于 08-31 21:10

    匠芯创发布新版GUI开发工具 新增多国语言设置等功能

    ,为开发者提供直观的参考。 多国语言示例模板 该模板重点演示不同语言之间的切换流程,帮助开发者快速掌握多语言支持的实现方法。 视频播
    发表于 07-16 13:54

    中科曙光DeepAI深算智能引擎全面支持Qwen3

    日前,Qwen3正式发布并全部开源8款混合推理模型。作为Qwen系列中的最新一代大型语言模型,Qwen3在推理、指令遵循、工具调用、多语言能力等方面实现全面增强。
    的头像 发表于 05-06 15:17 962次阅读

    广州唯创电子WT3000A离在线TTS语音提示器芯片IC设计方案深度解析

    引言:语音交互的智能化跃迁在全球化与智能化深度融合的今天,语音交互设备的应用场景已从单一提示功能向多语言支持、情感化表达及AI深度交互演进。传统离线语音方案受限于语种单一、存储容量不足等问题,而纯
    的头像 发表于 04-25 09:13 616次阅读
    广州唯创电子WT3000A离在线TTS语音提示器芯片IC设计方案深度解析

    智能收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    性的TTS技术集成,解决传统收银系统语音播报存在的多语言支持不足、资源占用过高、语音定制不灵活等行业痛点。二、芯片核心特性多模态语音处理架构•采用32位240M
    的头像 发表于 04-24 08:45 633次阅读
    <b class='flag-5'>智能</b>收银语音交互新标杆—WT3000T8语音合成芯片TTS技术应用解析

    S1C31D50/51/41爱普生MCU系列语音芯片助力智能语音应用

    与背景音乐的协同播放、多语言支持以及灵活的音调和语速调整等。此外,该系列芯片的低功耗设计和高压缩率存储算法,使其在保持高性能的同时,显著降低了功耗和存储需求,为电池供电设备和对功耗敏感的应用场景提供理想的解决方案。
    的头像 发表于 03-15 14:13 863次阅读
    S1C31D50/51/41爱普生MCU系列语音芯片助力<b class='flag-5'>智能</b>语音应用

    语言康复行业首家!阳光语言正式接入DeepSeek

    “新”与“老”的结合,将融合和迸发更多可能性,为更多语言障碍者提供更加科学、智能、精准的服务。 智能问答 一触即达 在陪伴孩子成长的过程中,家长会面临方方面面的问题,发音不准、口吃、语言
    的头像 发表于 03-06 14:14 491次阅读
    <b class='flag-5'>语言</b>康复行业首家!阳光<b class='flag-5'>语言</b>正式接入DeepSeek

    离线语音识别芯片方案商:茶吧机语音控制模块NRK3502

    离线语音技术NRK3502凭无网、高隐私、快响应成家电新趋势,适配茶吧机等设备,支持多语言识别,高性价比,助力家电智能化升级。
    的头像 发表于 03-06 13:44 899次阅读
    离线语音识别芯片方案商:茶吧机语音控制模块NRK3502

    自制 AirTag,支持安卓/鸿蒙/PC/Home Assistant,无需拥有 iPhone

    苹果的 AirTag 很贵,虽然某强北有平价代替品,但是仍需要苹果设备才能绑定,才能查看位置。不支持安卓/鸿蒙/PC ,也不支持集成到 Home Assistant 中。 AirTag
    发表于 02-25 11:22

    谷歌“减法”新动作:砍掉耳机按键唤醒朗读功能

    电子发烧友网报道(文/莫婷婷)近期,谷歌宣布将对耳机上的 Google Assistant语音助手功能进行调整,取消通过触控唤醒助理“自动朗读未读通知”的功能。
    的头像 发表于 02-22 22:56 2907次阅读
    <b class='flag-5'>谷歌</b>“减法”新动作:砍掉耳机按键唤醒朗读功能

    Meta与UNESCO合作推动多语言AI发展

    Meta最近宣布一项与联合国教科文组织(UNESCO)合作的全新计划——语言技术伙伴计划。该计划旨在收集多种语言的语音录音和文字记录,以推动未来开放可用的人工智能(AI)技术的发展,
    的头像 发表于 02-08 11:04 908次阅读

    微软Copilot Voice升级,积极拓展多语言支持

    近日,据报道,微软近期在人工智能领域取得了新的进展,正积极拓展其Copilot Voice的多语言支持功能。这一举措标志着微软在语音识别和自然语言处理技术上又迈出了重要一步。 此次Copilot
    的头像 发表于 02-06 14:10 723次阅读

    Triton编译器功能介绍 Triton编译器使用教程

    。以下是 Triton 编译器的一些功能介绍和使用教程。 Triton 编译器功能介绍 多语言支持 :Triton 支持多种编程语言,使得开发者可以在同一个编译器框架下处理不同的语言
    的头像 发表于 12-24 17:23 2739次阅读