关怀语言障碍者,谷歌推出突破性工具-电子发烧友网

近日 Google Brain 团队对外发布了 Parrotron 项目，帮助人和设备更准确地理解具有语音障碍的人。Parrotron 从音频分析入手，从语音信号的角度来解决问题。它通过单个端到端深度神经网络训练，将来自语音障碍人士的语音，直接转换为流利的合成语音，从而帮助他们解决交流上的问题。

Dimitri Kanevsky，出生于 50 年代的俄罗斯，他的成长阶段经历了中苏冷战，但他仍然完成学业，并获得了数学博士学位。

他的求学、工作足迹从俄罗斯开始，辗转于以色列、德国，最终选择留在了美国，并成为了谷歌的研究科学家，专注于语音识别算法领域。

似乎是一个学霸精英的人生路径：受到良好的教育，获得美国绿卡、光鲜的工作、152 项美国科学技术专利，最后在硅谷登顶人生巅峰。

故事却远远没这么简单，Dimitri Kanevsky并不是一个普通人。大多数人都难以想到，他还是听障人群中的一员。

Dimitri Kanevsky在一岁时，因为药物导致了耳聋，但他的家庭依旧为他选择了正常的教育，他从小就开始学习读唇、发声，一直就读于普通学校。并在十几岁的时候，通过俄语发音的辅助，开始学习英语。

但在学习英语时，因为听力障碍、俄语发音差别等原因，他在语言交流上存在很大的障碍。他说出的语句比较模糊，常常是对方听不懂的表达。甚至连对自己的家人的口头关怀，都有可能无法递达。

简单来说，他说的英语大多数人很难直接听懂，为了解决自己的问题，也帮助更多和自己面临类似问题的人群，Dimitri Kanevsky一直在攻克语音识别方向的课题。

有时只为完成一些普通的交流

Dimitri Kanevsky需要借助语音转文字的工具

在医学上，这种说话不清楚的情况称为「构音障碍 dysarthria」。据统计，因为身体疾病而导致构音障碍的情形，在全世界多达一百万人。

构音障碍是由于神经病变，与言语有关的肌肉麻痹、收缩力减弱或运动不协调所致的言语障碍，通俗的说法是「口齿不清」。

比如中风，大脑麻痹，帕金森病，唐氏综合症， ALS（渐冻症）等诸多疾病，都会造成这一状况。

对方说了叽里咕噜的一堆

你听到的却是呜呜哇哇的一串杂音...

同样在谷歌，一位叫Aubrie Lee 的品牌市场经理，被诊断出罕见的肌肉萎缩症（渐冻症），导致她长时间要在轮椅上度过。

全身肌肉的不断流失，也造成了她在交流上的困难。Aubrie 在听力和发音上都异常吃力，还因为无法微笑而常常被人误解。此外她还拥有多种口音，发音并不清晰，在对话时对方往往无法明白她的意思。

为了帮助 Dimitri Kanevsky 和 Aubrie Lee 这样的同伴，解决他们在语言上的难题，构音困难逐渐成了谷歌 AI 研究团队的一个科研方向。

关怀语言障碍者，谷歌推出突破性工具

几年前，Kanevsky 带着 30 年的语音识别经验，加入谷歌的 AI 研究组，那时还没有能让他和其他人正常沟通的便捷工具。每次开会， Kanevsky 都需要提前预定 CART 服务，依赖字幕员进入到会议中，将语音信息敲到屏幕上进行对话。

同样的，Aubrie 和自己同事们，也都需要花费很大的力气，才能完成常人轻松胜任的工作交流。但这种窘境，正在慢慢地成为历史。

2019 年 2 月，谷歌推出了一款App——Live Transcribe ，为便携式的语言转化带来了曙光。它是一款即时转录真实世界语音的应用程序，使用手机自带的麦克风，即可将语音转换为实时显示的文字。

随后，在 5 月份的谷歌I/O 大会上，Project Euphoria 被提出，这个计划为 ALS 导致的语言受损人群，提供一套语音到文字的解决方案。

Project Euphoria 中

谷歌训练AI 模型以适应语言障碍

在这个月，谷歌推出了一款新的 AI 工具 Parrotron，能够直接将模糊的声音，转化成标准的合成音。这将解决语言障碍的技术又往前推进了一步。

Parrotron 由端到端的深度神经网络组成，从音频分析的角度入手，在使用时，测试者对着手机等设备说话，就能快速的得到转述后的标准发音。

在论文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中，Parrotrn 表现优异，语音识别和转化的正确率都有了新的突破。

Parrotron：将模糊话语，翻译成清晰的语音

那这项看起来黑科技满满的技术，究竟是怎么做到的呢？

Parrotron 是一个端到端的序列到序列模型，使用输入/输出语音对的并行语料库训练，建立了模糊音与正常语句之间的映射。

Parrotron的结构流程示意图

网络模型由注意力机制的编码器和解码器组成，最后由声码器合成时域波形，提供预测出的音频信号。

编码器将声学帧序列转换为隐藏的特征表示，解码器将解析出表示以预测出频谱图。

操作上分为两个步骤：首先，为标准流畅的音频构建语音到语音转换模型，然后调整模型参数将模糊语音作为输入，让模型学会分辨和识别。

Kanevsky 和另一员工使用Parrotron

为了模拟 ALS 患者的语音特征，他们使用来自 Project Euphonia 的 ALS 语音语料库，通过合成语言的方式制造模糊的语句，作为训练数据。

而对特定的个人，就由本人提供录制的素材。

在经过训练后，转换模型能够排除语言中的干扰因素，比如重音、韵律和背景噪音等影响；同时忽略掉所有非语言信息的干扰，包括说话者特征，环境因素，说话方式，仅分析和处理谈话的内容。

Parrontron 前两位测试者：毫无悬念

要验证 Parrotron 的实际效果，自然还要看它在实践中的表现。而测试的最佳人选，毫无疑问落到了Dimitri Kanevsky 和Aubrie Lee身上。

在实验中，Dimitri 录制了一个 15 小时长的语料库，让模型学习他讲话时的细微之处。通过学习，模型在最后的翻译中，在测试集里的翻译错误率，从开始的 89% 降低到了 32% 。

换句话说，使用 Parrotron 转录的语音，对方或者ASR （语音识别）系统能够轻松的听懂他了。

Kanevsky 使用Parrotron的详情

随后， Aubrie Lee 也进行了测试，通过她贡献的 1.5 小时讲话内容，模型翻译出的准确的语音，也让她实现了清楚表达的愿望。

AI for Social Good：人工智能的使命

人工智能打造的无障碍项目，在最近几年被频繁地提出。许多极具关怀的技术纷纷出现，在努力帮助残障人士打开新奇的大门。

当然，技术在服务这些人的同时，也被这些特别的群体所推动。比如Dimitri Kanevsky，因为深知构音障碍带来的困境，他一直致力于语音辨识和通讯研究的研究工作。而Aubrie Lee则用热烈而蓬勃的生活态度，鼓舞和督促着更多对残障人群的研究投入。

Aubrie 还是跨学科艺术家、设计师

活跃在多个为残疾人权益斗争的平台上

虽然目前的数据显示，情况还并不乐观：在全球所有的残障人士中，只有十分之一的人，获得了相应的技术工具。但所幸的是，随着一些喜人的进步，很多情况都在发生改变。

作为科技大厂的谷歌，还在实施他们「AI for social good」的计划，而诸如 Parrotron 之类的工具，大概就是朝着美好愿景踏进的脚印。

在人工智能技术风靡世界的当下，我们看到了 AI 对艺术的改造和创造力，对社会生活的积极推动，但也看到了有人利用 AI 恶意换脸、拼接、无中生有。

希望 AI 能回归科学的初心，帮助更多需要帮助的人，Make the world a better place！

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5838

浏览量
103228
语音识别

语音识别

+关注

关注
37

文章
1635

浏览量
111822

原文标题：谷歌的语音识别利器，最先造福了自己的员工

文章出处：【微信号：smartman163，微信公众号：网易智能】欢迎添加关注！文章转载请注明出处。

谷歌推出能制作旅行攻略的AI工具

谷歌近日发布了一项令人瞩目的新功能，它是一款能够借助自然语言对话帮助用户生成旅行行程和出游建议的AI工具。这款工具的推出，标志着

发表于 03-29 11:08 •274次阅读

谷歌DeepMind推出SIMI通用AI智能体

和视频游戏中理解并遵循自然语言指令。这一突破性的技术成果标志着人工智能领域的一大步，使得机器能够更好地理解和适应人类的各种需求。

发表于 03-18 11:39 •350次阅读

谷歌模型合成工具在哪找到

谷歌模型合成工具可以在谷歌的官方网站或相关的开发者平台上找到。具体地，您可以尝试访问谷歌的AI平台或开发者社区，以获取有关模型合成工具的最新

发表于 03-01 18:13 •1143次阅读

谷歌模型软件有哪些功能

谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌

发表于 03-01 16:20 •194次阅读

谷歌模型合成工具怎么用

谷歌模型合成工具主要是指Dreamfusion，这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演变，Dream Fields是谷歌于2021

发表于 02-29 17:33 •379次阅读

谷歌发布新型AI模型Genie

近日，谷歌推出了一款革命性的AI模型——Genie。这款模型能够将简单的文本提示、草图或初步想法迅速转化为一个可以互动和游戏的虚拟世界。这一突破性的技术无疑将改变人们创建和体验虚拟世界的方式。

发表于 02-28 10:05 •274次阅读

谷歌推出新一代大模型Gemini 1.5

近日，谷歌在无预警的情况下发布了其下一代大模型——Gemini 1.5，这款模型在性能上实现了显著增强，并在长上下文理解方面取得了令人瞩目的突破。更令人惊叹的是，Gemini 1.5甚至能够仅凭提示词学会一门训练数据中没有的新语言

发表于 02-20 13:55 •316次阅读

传音Infinix在CES 2024上推出最新突破性技术E-Color Shift

近日，传音旗下品牌Infinix在CES 2024上推出最新突破性技术E-Color Shift，可以使手机背面面板在不消耗电力的情况下改变并保持鲜艳的颜色。

发表于 01-23 11:39 •598次阅读

2024 年“十大突破性技术”榜单

初，《麻省理工科技评论》（MITTechnologyReview）发布了其2024年“十大突破性技术”榜单，这份榜单突出了一些可能对世界产生显著影响的技术。在最新的20

发表于 01-16 08:27 •676次阅读

ADI公司突破性的微机电系统(MEMS)开关技术

电子发烧友网站提供《ADI公司突破性的微机电系统(MEMS)开关技术.pdf》资料免费下载

发表于 11-27 09:52 •1次下载

如何借助新技术实现突破性发展

新技术实现突破性发展，在全球范围内备受关注。为更好推动生命科学技术研究与发展，促进模式创新与升级，中科曙光异构智能算力技术高端沙龙第三期特别聚焦生命科学领域，邀请众多国内相关专家学者展开深入沟通与交流，共同挖

发表于 11-09 10:35 •387次阅读

让科技与世界接轨：轻生活科技小语种离线语音模块

轻生活科技一直以来致力于为人们提供更便捷、更智能的生活方式。此次推出的小语种离线语音模块是公司不断探索和创新的结果。这款模块最大的特点就是支持多种语言，让用户不再因为语言障碍而无法操作智能设备。无论是中文、英文还是其他小语种，都

发表于 11-08 15:03 •173次阅读

Versal Premium ACAP:在灵活应变的平台上突破性集成功耗优化的网络IP

电子发烧友网站提供《Versal Premium ACAP:在灵活应变的平台上突破性集成功耗优化的网络IP.pdf》资料免费下载

发表于 09-15 10:48 •0次下载

橙群微电子与e-peas合作推出突破性的能量收集BLE传感器信标平台

橙群微电子与e-peas合作，在动态物联网领域推出了一款突破性的开发套件：由能量收集驱动的自主、免维护、低BoMBLE传感器信标。"橙群微电子公司联合创始人兼首席执行官JasonWu表示

发表于 08-04 09:13 •532次阅读

语音领域的GPT时刻：Meta 发布「突破性」生成式语音系统，一个通用模型解决多项任务

，而且它们有个重要特点就是「通才」，可以解决没训过的任务。相比之下，语音生成模型在规模和任务泛化方面一直没有「突破性」成果。今日，Meta 介绍了一种「突破性」的生成式语音系统，它可以合成六种语言的语音，执行噪声消除、内容编辑

发表于 06-18 21:30 •431次阅读