0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关怀语言障碍者,谷歌推出突破性工具

Gv1N_smartman16 来源:YXQ 2019-07-28 10:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日 Google Brain 团队对外发布了 Parrotron 项目,帮助人和设备更准确地理解具有语音障碍的人。Parrotron 从音频分析入手,从语音信号的角度来解决问题。它通过单个端到端深度神经网络训练,将来自语音障碍人士的语音,直接转换为流利的合成语音,从而帮助他们解决交流上的问题。

Dimitri Kanevsky,出生于 50 年代的俄罗斯,他的成长阶段经历了中苏冷战,但他仍然完成学业,并获得了数学博士学位。

他的求学、工作足迹从俄罗斯开始,辗转于以色列、德国,最终选择留在了美国,并成为了谷歌的研究科学家,专注于语音识别算法领域。

似乎是一个学霸精英的人生路径:受到良好的教育,获得美国绿卡、光鲜的工作、152 项美国科学技术专利,最后在硅谷登顶人生巅峰。

故事却远远没这么简单,Dimitri Kanevsky并不是一个普通人。大多数人都难以想到,他还是听障人群中的一员。

Dimitri Kanevsky在一岁时,因为药物导致了耳聋,但他的家庭依旧为他选择了正常的教育,他从小就开始学习读唇、发声,一直就读于普通学校。并在十几岁的时候,通过俄语发音的辅助,开始学习英语。

但在学习英语时,因为听力障碍、俄语发音差别等原因,他在语言交流上存在很大的障碍。他说出的语句比较模糊,常常是对方听不懂的表达。甚至连对自己的家人的口头关怀,都有可能无法递达。

简单来说,他说的英语大多数人很难直接听懂,为了解决自己的问题,也帮助更多和自己面临类似问题的人群,Dimitri Kanevsky一直在攻克语音识别方向的课题。

有时只为完成一些普通的交流

Dimitri Kanevsky需要借助语音转文字的工具

在医学上,这种说话不清楚的情况称为「构音障碍 dysarthria」。据统计,因为身体疾病而导致构音障碍的情形,在全世界多达一百万人。

构音障碍是由于神经病变,与言语有关的肌肉麻痹、收缩力减弱或运动不协调所致的言语障碍,通俗的说法是「口齿不清」。

比如中风,大脑麻痹,帕金森病,唐氏综合症, ALS(渐冻症)等诸多疾病,都会造成这一状况。

对方说了叽里咕噜的一堆

你听到的却是呜呜哇哇的一串杂音...

同样在谷歌,一位叫Aubrie Lee 的品牌市场经理,被诊断出罕见的肌肉萎缩症(渐冻症),导致她长时间要在轮椅上度过。

全身肌肉的不断流失,也造成了她在交流上的困难。Aubrie 在听力和发音上都异常吃力,还因为无法微笑而常常被人误解。此外她还拥有多种口音,发音并不清晰,在对话时对方往往无法明白她的意思。

为了帮助 Dimitri Kanevsky 和 Aubrie Lee 这样的同伴,解决他们在语言上的难题,构音困难逐渐成了谷歌 AI 研究团队的一个科研方向。

关怀语言障碍者,谷歌推出突破性工具

几年前,Kanevsky 带着 30 年的语音识别经验,加入谷歌的 AI 研究组,那时还没有能让他和其他人正常沟通的便捷工具。每次开会, Kanevsky 都需要提前预定 CART 服务,依赖字幕员进入到会议中,将语音信息敲到屏幕上进行对话。

同样的,Aubrie 和自己同事们,也都需要花费很大的力气,才能完成常人轻松胜任的工作交流。但这种窘境,正在慢慢地成为历史。

2019 年 2 月,谷歌推出了一款App——Live Transcribe ,为便携式的语言转化带来了曙光。它是一款即时转录真实世界语音的应用程序,使用手机自带的麦克风,即可将语音转换为实时显示的文字。

随后,在 5 月份的谷歌I/O 大会上,Project Euphoria 被提出,这个计划为 ALS 导致的语言受损人群,提供一套语音到文字的解决方案。

Project Euphoria 中

谷歌训练AI 模型以适应语言障碍

在这个月,谷歌推出了一款新的 AI 工具 Parrotron,能够直接将模糊的声音,转化成标准的合成音。这将解决语言障碍的技术又往前推进了一步。

Parrotron 由端到端的深度神经网络组成,从音频分析的角度入手,在使用时,测试者对着手机等设备说话,就能快速的得到转述后的标准发音。

在论文《Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation》中,Parrotrn 表现优异,语音识别和转化的正确率都有了新的突破。

Parrotron:将模糊话语,翻译成清晰的语音

那这项看起来黑科技满满的技术,究竟是怎么做到的呢?

Parrotron 是一个端到端的序列到序列模型,使用输入/输出语音对的并行语料库训练,建立了模糊音与正常语句之间的映

Parrotron的结构流程示意图

网络模型由注意力机制的编码器和解码器组成,最后由声码器合成时域波形,提供预测出的音频信号。

编码器将声学帧序列转换为隐藏的特征表示,解码器将解析出表示以预测出频谱图。

操作上分为两个步骤:首先,为标准流畅的音频构建语音到语音转换模型,然后调整模型参数将模糊语音作为输入,让模型学会分辨和识别

Kanevsky 和另一员工使用Parrotron

为了模拟 ALS 患者的语音特征,他们使用来自 Project Euphonia 的 ALS 语音语料库,通过合成语言的方式制造模糊的语句,作为训练数据。

而对特定的个人,就由本人提供录制的素材。

在经过训练后,转换模型能够排除语言中的干扰因素,比如重音、韵律和背景噪音等影响;同时忽略掉所有非语言信息的干扰,包括说话者特征,环境因素,说话方式,仅分析和处理谈话的内容。

Parrontron 前两位测试者:毫无悬念

要验证 Parrotron 的实际效果,自然还要看它在实践中的表现。而测试的最佳人选,毫无疑问落到了Dimitri Kanevsky 和Aubrie Lee身上。

在实验中,Dimitri 录制了一个 15 小时长的语料库,让模型学习他讲话时的细微之处。通过学习,模型在最后的翻译中,在测试集里的翻译错误率,从开始的 89% 降低到了 32%

换句话说,使用 Parrotron 转录的语音,对方或者ASR (语音识别)系统能够轻松的听懂他了。

Kanevsky 使用Parrotron的详情

随后, Aubrie Lee 也进行了测试,通过她贡献的 1.5 小时讲话内容,模型翻译出的准确的语音,也让她实现了清楚表达的愿望

AI for Social Good:人工智能的使命

人工智能打造的无障碍项目,在最近几年被频繁地提出。许多极具关怀的技术纷纷出现,在努力帮助残障人士打开新奇的大门。

当然,技术在服务这些人的同时,也被这些特别的群体所推动。比如Dimitri Kanevsky,因为深知构音障碍带来的困境,他一直致力于语音辨识和通讯研究的研究工作。而Aubrie Lee则用热烈而蓬勃的生活态度,鼓舞和督促着更多对残障人群的研究投入。

Aubrie 还是跨学科艺术家、设计师

活跃在多个为残疾人权益斗争的平台上

虽然目前的数据显示,情况还并不乐观:在全球所有的残障人士中,只有十分之一的人,获得了相应的技术工具。但所幸的是,随着一些喜人的进步,很多情况都在发生改变。

作为科技大厂的谷歌,还在实施他们「AI for social good」的计划,而诸如 Parrotron 之类的工具,大概就是朝着美好愿景踏进的脚印。

在人工智能技术风靡世界的当下,我们看到了 AI 对艺术的改造和创造力,对社会生活的积极推动,但也看到了有人利用 AI 恶意换脸、拼接、无中生有。

希望 AI 能回归科学的初心,帮助更多需要帮助的人,Make the world a better place!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6246

    浏览量

    110295
  • 语音识别
    +关注

    关注

    39

    文章

    1804

    浏览量

    115583

原文标题:谷歌的语音识别利器,最先造福了自己的员工

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:消息称已有模组企业调整原定产品规划;华为将发布 AI 领域突破性技术

    华为将发布 AI 领域突破性技术 业内消息指出,华为将于 11 月 21 日发布一项 AI 领域的突破性技术,该技术有望解决当前算力资源利用效率低下的行业难题。   华为此次发布的突破性技术能够显著
    发表于 11-17 10:47 1119次阅读

    龙芯产品赋能千行百业的突破性进展

    近日,2025龙芯产品发布暨用户大会在北京成功举办。本次大会集中展示了龙芯从基础民生到国防安全、从石油化工到航空航天、从智慧农业到轨道交通等领域的全栈创新应用成果,多角度、全方位呈现了龙芯用科技赋能千行百业的突破性进展,为与会嘉宾带来了一场高水平的科技盛宴。
    的头像 发表于 07-11 09:48 831次阅读

    当机器人遇上“语言障碍”:CCLINKIE转Profinet的“破冰外挂”来啦\\!

    ”才到机器人控制器,焊接精度从±0.1mm“漂移”到±0.3mm。直到一次技术改造,让不同协议的设备实现了“无障碍对话”,这场工业互联的破局战,藏着哪些硬核逻辑? 一、协议壁垒下的生产痛点 某合资车企
    发表于 06-04 14:31

    ITEN与A*STAR IME宣布突破性固态电池的先进封装整合

    微型固态电池领域的全球领导ITEN与先进封装研究领域的领导新加坡科技研究局微电子研究所(A*STAR IME)宣布了一项突破性成果:利用A*STAR IME的尖端先进封装平台成功实现ITEN微型
    的头像 发表于 05-22 13:08 517次阅读

    Profinet转CanOpen协议转换网关,破解工业设备“语言障碍

    在铝业这个金属与数据共舞的领域,小疆智控Profinet转CanOpen协议转换网关正悄然改变着工业通信的底层逻辑。它不仅破解了设备互联的"语言障碍",更通过数据桥梁的架设,让
    的头像 发表于 05-11 10:52 367次阅读
    Profinet转CanOpen协议转换网关,破解工业设备“<b class='flag-5'>语言障碍</b>”

    德施曼重磅发布五大突破性技术及多款重磅新品,开启AI智能管家时代

    志凌重磅发布了五大突破性技术,并带来多款重磅新品;来自全国各地的智能锁生态合作伙伴,行业知名机构、权威媒体现场见证了AI如何让智能家居更有灵性,德施曼如何以科技,
    的头像 发表于 04-23 20:59 834次阅读
    德施曼重磅发布五大<b class='flag-5'>突破性</b>技术及多款重磅新品,开启AI智能管家时代

    谷歌Gemini API最新进展

    今年的 Cloud Next 大会上,我们推出了一系列突破性更新与强大功能,旨在赋能广大开发,与大家携手共创人工智能的未来。本次发布亮点包括:最新的 Gemini 2.5 思考模型,实时互动
    的头像 发表于 04-12 16:10 1480次阅读

    华为公布AI基础设施架构突破性新进展

    近日,华为公司常务董事、华为云计算CEO张平安在华为云生态大会2025上公布了AI基础设施架构突破性新进展——推出基于新型高速总线架构的CloudMatrix 384超节点集群,并宣布已在芜湖数据中心规模上线。
    的头像 发表于 04-12 15:09 1702次阅读

    NVIDIA实现神经网络渲染技术的突破性增强功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神经网络渲染技术的突破性增强功能。NVIDIA 与微软合作,将在 4 月的 Microsoft DirectX 预览版中增加神经网络着色技术,让开发
    的头像 发表于 04-07 11:33 888次阅读

    东软医疗光子计数CT取得突破性进展

    近日,由东软集团旗下的创新公司东软医疗自主研发的国产光子计数CT正式进入国家药品监督管理局创新医疗器械特别审查程序。这一突破性进展,标志着这款划时代的超高端医学影像设备距离临床应用仅剩一步之遥,也意味着国产光子计数CT技术迈入国际先进行列!
    的头像 发表于 03-10 15:55 847次阅读

    语言康复行业首家!阳光语言正式接入DeepSeek

    “新”与“老”的结合,将融合和迸发更多可能,为更多语言障碍提供更加科学、智能、精准的服务。 智能问答 一触即达 在陪伴孩子成长的过程中,家长会面临方方面面的问题,发音不准、口吃、语言
    的头像 发表于 03-06 14:14 491次阅读
    <b class='flag-5'>语言</b>康复行业首家!阳光<b class='flag-5'>语言</b>正式接入DeepSeek

    飞腾轨交国产主板GM-FT2000,为交通运输带来突破性的发展

    在科技飞速发展的今天,交通运输领域也在不断寻求创新与突破,以满足人们日益增长的出行需求和高效物流的要求。而高能计算机推出的飞腾轨交国产主板GM - FT2000,宛如一颗璀璨的新星,为交通运输行业带来了突破性的发展。
    的头像 发表于 02-12 17:33 719次阅读

    Auracast广播音频创新实时语言翻译解决方案

    世界正朝着互联化方向发展,但语言障碍仍然为全球沟通和文化交流带来挑战。作为蓝牙技术联盟的长期推广公司,东芝(Toshiba)研发出将AI同声传译与Auracast广播音频技术相结合的创新解决方案,为打破公共场所和教育环境中的语言障碍带来了更多可能。
    的头像 发表于 01-13 14:39 1403次阅读

    中科创达旗下MM Solutions推出突破性视频降噪算法

    在CES 2025上,中科创达旗下全球领先的移动和工业图形图像视觉技术公司MM Solutions重磅推出一款具有突破性的视频降噪算法——MMS AI Video Denoiser。这款由先进AI
    的头像 发表于 01-13 11:41 1533次阅读

    谷歌推出Gemini 2.0 Flash体验版

    我们正赋予开发构建 AI 未来的能力,包括尖端模型、智能代码编写工具以及跨平台和设备的无缝集成。自 2023 年 12 月我们推出 Gemini 1.0 以来,数百万的开发已经使用
    的头像 发表于 01-06 09:52 2585次阅读