0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI探索无障碍沟通

23gi_ifanr 来源:fqj 2019-05-12 09:14 次阅读

Steve Saling 罹患肌萎缩性脊髓侧索硬化症(ALS)已有 13 年光景,这是一段人生大门逐渐关闭的过程。

ALS 俗称渐冻症,发病后肌肉僵硬,抽搐,造成说话或吞咽困难,再逐渐到手臂和腿部无力,最终失去自主控制运动的能力。英国著名物理学家霍金即患此病。Steve Saling 与人交流,是通过眼球追踪技术来控制计算机上的虚拟键盘打字,沟通十分低效。

图 | 渐冻症患者 Steve Saling

如今,在新技术的帮助下,他在观看运动赛事的精彩瞬间时,竟然可以发出欢呼。只不过,声音是通过脸部表情控制机器发出的。通过加入谷歌的 Project Euphonia 项目,Steve Saling 可以自主训练机器学习模型,当模型更了解他的面部表情,不出声即可操作 Google Home。

图 | Steve Saling 正在自主训练机器学习模型

在 2019 谷歌开发者大会上,失聪设计师 Elise Roy 与谷歌科学家、哈佛教授 Michael Brenner 共同宣布 Project Euphonia 项目。Michael Brenner 博士确信 AI 技术能解决 ALS 患者这一特定的语言障碍问题,但同时也需要大众的协助,提供更多的声音样本供模型训练。

生活中的方方面面都涉及到与他人沟通,以及被他人理解。

想象一下,如果旁人难以理解我们的说话或表达方式时,生活会变成什么样,是不是会感到不便和心情沮丧?

然而,对上千万的中风、ALS 、多发性硬化、创伤性脑损伤和帕金森氏症等神经系统疾病而产生语言障碍的人士来说,这就是他们每天都必须面对的情况。

造成语言障碍的成因有很多,有些是听力受损,有的是脑部控制语言的神经系统受到创伤,还有的是脸部肌肉不受控制,导致发音模糊,含糊不清。

非营利组织 ALS-TDI(美国 ALS 研究机构)的临床团队在过去几年中发现,即使有严重发音障碍(语言障碍)的 ALS 患者,也可以被亲密朋友和家人理解。这说明,只要有足够多的声音样本,AI 可以学习如何解释受损的声音。

看到这一技术实现的可能性后,谷歌在 2019 开发者大会上推出 Project Euphonia,计划用 AI 来了解语言障碍者的讲话方式,例如含糊不清、不完整的讲话,从而实现精准的语音转写。

此项目的声音样本主要通过与 ALS-TDI(美国 ALS 研究机构)与 ALS Residence Initiative(ALS 住宅计划)合作获得,录下 ALS 患者的声音,然后将录下的语音转成声谱图,或以更视觉化的图像方式来呈现声音。接着计算机用转录的声谱图拿来训练模型,以更准确辨识这类非典型的语音。

目前设计的 AI 模型是以典型的 ALS 相关障碍的英语人士为目标对象,相信不久后这项研究将可应用到更大范围的不同语言障碍人群。

谷歌语音研究员 Dimitri Kanevsky 是一名听力障碍者,幼年失聪后才开始学的英文,他的主要语言障碍是发音不标准,吐字模糊。

谷歌的语音转录程序显然无法对非标准发音的句子进行高精确识别。于是 Kanevsky 研究员录入了 15000 条自己的语音数据来对模型训练,起初效果并不明显,但在他的坚持下模型终于有了不错的表现,程序可以很准确识别他的声音,适应了他讲话的方式。

不同语言障碍的人群所需要的技术不同,技术实现的难度也不同,但最终实现的效果是一样的,理解和被理解。这是人类沟通的快乐源泉。

目前谷歌的 Live Transcribe 转录技术也可以作为听障人士的辅助交流工具。

图 | Live Transcribe 转录过程

此次谷歌开发者大会上,谷歌也推出了 Live Relay 功能,可以让设备在语音和文本之间进行转换,语音信息实时转化成文本,并且以语音的形式转换回来,可以帮助听力障碍或失聪人士打电话。

Live Relay 是系统中原生功能,不需要联网就可以在终端上运行,因此能确保通话的隐私性。

虽然 Live Relay 还在早期研究阶段,不过谷歌对 Live Relay 的长期发展十分乐观,这项技术不光是给语言障碍人群提供方便,未来所有用户都能因这项服务受益。比如,很多用户都曾有需要接听重要电话,但无法离开当下手边正在进行的事项的经历,在 Live Relay 的帮助下,用户不必实际与对方交谈,也能随时随地通过输入文本的方式接听电话,甚至可集成即时翻译功能,让用户能与世界各地的人通话,完全不必担心语言隔阂。

谷歌 AI 在语音识别和转录技术上已达到非常领先的水准,虽然在理解语言障碍者的发音和讲话方式还在探索中,但这无疑是离终极目标——无障碍沟通最近的一次。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5849

    浏览量

    103246
  • AI
    AI
    +关注

    关注

    87

    文章

    26410

    浏览量

    264018

原文标题:为了追求一个更真实的游戏世界,我们还缺乏什么?| 近未来 ⑤

文章出处:【微信号:ifanr,微信公众号:爱范儿】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    从今往后,谷歌搜索AI为王

    一样,谷歌将这项AI技术融入到了旗下各种产品当中,如搜索、电子邮件、翻译。   最引人注意的是,做为全球最大的搜索引擎公司,也是AI行业的领军企业,但从去年底开始随着OpenAI发布ChatGPT这项可能改变人们消费和创建信息方
    的头像 发表于 05-12 01:31 1432次阅读
    从今往后,<b class='flag-5'>谷歌</b>搜索<b class='flag-5'>AI</b>为王

    交通运输部大力推广适老化无障碍交通服务

    4月3日,交通运输部发布了关于2024年适老化无障碍交通出行服务扩容提质增效的实施方案。方案明确了出租车电动召回和网络预约车辆的“一键召唤”服务要在地级市以上的所有城市实现全区覆盖;
    的头像 发表于 04-03 16:15 582次阅读

    基于STM32H743IIT6开发的代码,是否能不经修改无障碍地运行在STM32H753IIT6上?

    基于 STM32H743IIT6 开发的代码,是否能不经修改无障碍地运行在STM32H753IIT6上?
    发表于 03-29 06:19

    苹果iOS 18和macOS 15无障碍功能升级

    Adaptive Voice Shortcuts功能可让用户把独特的口语短语绑定到无障碍设定中。用户能自行设定定制化短语,只需讲述这段话便能启动他们所需的辅助功能设置; 例如VoiceOver,语音控制,缩放等诸多现有辅助功能都能用此方法进行快速切换。
    的头像 发表于 03-08 11:08 158次阅读

    谷歌AI大模型Gemma全球开放使用

    谷歌公司近日宣布,其全新的AI大模型Gemma现已在全球范围内开放使用。这一重要举措不仅彰显了谷歌AI领域的领先地位,还为其在全球范围内的竞争力增添了新
    的头像 发表于 02-28 18:12 697次阅读

    谷歌发布AI基础世界模型Genie

    谷歌近日宣布了其生成式AI的全新里程碑——全新AI基础世界模型Genie。这一创新技术允许用户通过单张图像提示,生成一个可玩的、交互式的虚拟环境,从而开启了一个全新的数字体验时代。
    的头像 发表于 02-28 17:41 389次阅读

    谷歌发布开源AI大模型Gemma

    近日,谷歌发布了全新AI大模型Gemma,这款模型为各种规模的组织提供了前所未有的机会,以负责任的方式在商业应用中进行分发。
    的头像 发表于 02-28 17:38 402次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和动作连贯性。
    的头像 发表于 02-04 13:49 591次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌
    的头像 发表于 02-04 10:02 367次阅读

    新火种AI|谷歌裁员计划曝光,3万人或遭AI取代,科技业何去何从?

    。 在这个月的部门会议上,负责美洲大客户广告销售的肖恩·唐尼表示,谷歌计划重组由3万名员工组成的广告销售部,原因是AI已经在广告应用方面取得了巨大进展。而这也导致该部门的所有员工都面临着被裁员,被AI取代的风险。 事实上,
    的头像 发表于 12-27 00:16 196次阅读
    新火种<b class='flag-5'>AI</b>|<b class='flag-5'>谷歌</b>裁员计划曝光,3万人或遭<b class='flag-5'>AI</b>取代,科技业何去何从?

    2023“科技无障碍”不谈价值观

    “实用”只是无障碍改造的第一步
    的头像 发表于 12-06 09:35 664次阅读
    2023“科技<b class='flag-5'>无障碍</b>”不谈价值观

    Google 无障碍功能更新 | 第二期

    为了让每个人都能体验精彩世界,Google 无障碍团队始终致力于打造更舒适的日常生活、更完善的无障碍体验。我们希望通过专题系列视频 "Google 无障碍功能更新" 与您分享近期无障碍
    的头像 发表于 11-27 18:40 272次阅读

    国产生成式AI,不能仅仅看向前方#生成式AI #信息无障碍

    AI
    脑极体
    发布于 :2023年06月15日 19:06:36

    微软康容:做无障碍领域的创新者与实践者,让我们的世界更包容

    康容,微软公司副总裁,微软大中华区首席运营官 世界上有超过10亿残障人士,其中许多人都需要辅助技术。根据世界卫生组织数据,全球残障人士只有十分之一能够获得无障碍技术支持,这意味着,他们中的很多人无法
    的头像 发表于 06-01 09:10 213次阅读
    微软康容:做<b class='flag-5'>无障碍</b>领域的创新者与实践者,让我们的世界更包容