0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用模仿患者声音的计算机程序将文本重新翻译成语音

微流控 来源:微流控 2023-09-04 11:33 次阅读

《Nature》杂志同时发表了两篇新论文,帮助那些因脑损伤和疾病而失去语言能力的人恢复语言能力,向前迈出了重要一步。两个多学科团队展示了最先进的人工智能辅助脑机接口(BCI)系统的速度和准确性的新记录,带来了前所未有的将大脑信号翻译成句子的能力——速度接近正常语音,词汇量超过1000个单词。这些进步为那些不能说话的人提供了以接近对话水平的速度进行交流的能力,甚至展示了如何使用模仿患者声音的计算机程序将文本重新翻译成语音。 背景

各种神经系统疾病会麻痹对言语和肢体功能至关重要的肌肉,同时影响认知功能,可能导致锁定综合症——个体无法再发起交流,只能通过眨眼或最小的动作来回应询问。有多种系统(称为替代和增强通信技术)可帮助患有闭锁综合症的人进行交流,但这些系统需要付出努力,并且比正常语音慢得多(通常每分钟仅几个单词)。脑机接口有潜力解决这些问题。

1969年,Macaca mulatta发表了第一个证明,可以训练受试者增加单个神经元的活动,从而做出有意的行为。人体实验开始于20世纪90年代末,当时将一个电极连接到患有运动神经元疾病(肌萎缩侧索硬化症,ALS引起的闭锁综合征患者的神经元。随后在2006年进行了一项研究,其中将毫米级电极阵列(称为微电极)植入脊髓损伤患者的大脑中。这种微电极阵列(MEA)记录了运动皮层(负责控制随意运动的大脑区域)中数百个神经元的活动,从而控制机械臂。MEA此后已被用于实现通信,例如通过解码手写尝试。

脑电图(EEG)的补充技术(将电极沿着头皮放置以记录大脑中的电活动)自1999年以来一直被使用,通过控制自定义拼写软件来帮助瘫痪患者进行交流。大约在同一时间,人们发现放置在大脑表面的小盘形电极(直径2 ~ 3毫米)可以获得比使用头皮电极获得的质量更高的信号。这种记录大脑活动的方法称为皮质电图(ECoG)。

2000年代初,ECoG电极被用于接受耐药性癫痫手术的患者,以记录与言语和身体运动相关的大脑信号。这最终导致了第一个完全嵌入式ECoG设备的开发,该设备使患有闭锁综合症的人能够在家使用打字程序。迄今为止,已有约50名不同程度瘫痪的人植入了脑机接口以进行交流,其中大多数人使用MEA。

突破技术

a64f5462-43ac-11ee-a2ef-92fbcf53809c.png 图1 将思想转化为言语的先进技术  

加州大学旧金山分校华裔科学家张复伦报告了一位瘫痪参与者的研究结果,该患者在参加这项研究17年前经历了脑干中风,导致她的讲话难以理解。张复伦的BCI系统采用了嵌入253个ECoG电极的硅片,每个电极都记录了数千个神经元的平均活动(图1a)。该设备通过手术植入感觉运动皮层的左侧“面部区域”——大脑中服务于口腔和面部肌肉(包括声道)的部分。该研究以之前的ECoG记录报告为基础,其中包括植入另一个脑干中风患者体内的类似BCI。

大脑到文本的解码是通过两个系统的组合实现的:循环神经网络(RNN,一种人工神经网络),它运行的算法可以破译与发音器官(声道的一部分)运动相关的大脑活动;其次是语言模型,该模型以每分钟78个单词的速度从1024个单词组成句子(尽管单词错误率为25.5%)。或者,将大脑信号直接翻译成合成语音,对于1024个单词的词汇,单词错误率为54.4%;较小词汇量的错误率有所下降(119个单词的词汇量为8.2%)。BCI还解码尝试的面部表情,并使用数字化身再现,从而为文本或语音提供视觉反馈,极大地丰富了参与者的沟通能力。总体而言,与之前报道的ECoG BCI相比,该设备在词汇量、通信速度和语音解码的多功能性方面都有显著改进。

与此同时,斯坦福大学Francis R. Willett一作兼通讯,报道了通过使用两个MEA(总共包含128个电极)从一名因ALS而无法清晰说话的参与者的左侧感觉运动面部区域的小斑块进行记录(图1b)。与张复伦教授及其同事的设备一样,RNN和语言模型被用来将大脑信号翻译成文本,并针对不同大小的词汇进行训练和测试。使用该设备,参与者能够以平均每分钟62个单词的速度进行交流,125000个单词的词汇错误率为23.8%,50个单词的词汇错误率为9.1%。

RNN使用参与者尝试说出显示器上显示的260 ~ 480个句子时收集的神经活动记录进行训练——整个过程平均每天需要140分钟,持续8天。分析表明,这种日常训练可以大大减少,而不会造成很大的表现损失。重要的是,作者观察到,从被广泛认为对语音产生至关重要的大脑区域(称为布罗卡区)记录的神经活动无法被解码,这引发了关于该区域是否包含对语音解码有用的信息的疑问。

a695d568-43ac-11ee-a2ef-92fbcf53809c.png 图2 口面部运动和尝试言语的神经表征  

意义与影响

这两份报告构成了重要的概念证明,即可以使用植入式脑机接口恢复通信,这两个脑机接口代表了神经科学和神经工程研究的巨大进步,并在提高因瘫痪神经损伤和疾病而失声的人的生活质量方面显示出巨大的希望。即使是允许用户在辅助技术软件中选择字母或图标的基本BCI植入程序,也能为他们的日常生活带来巨大的好处和满意度。可以实现通信的先进BCI系统(例如这里讨论的系统)预计将产生更大的影响。

但有几个问题需要进一步调查才能得到更广泛的使用。首先,这两项研究中使用的语音模型都使用具有残余(尽管微弱)发音运动的参与者的模仿语音进行训练和测试。现在需要更多的研究来证明对于缺乏残余运动的参与者(如锁定综合征(包括晚期ALS))的疗效。另一个问题是,对于这两种设备,高带宽记录是从数百个电极中获取的,这些电极必须通过穿透皮肤的“基座”连接到外部放大器,这在美观上没有吸引力。需要开发完全植入式无线脑机接口,以复制或超越这些研究中报告的性能。

此外,高技能的研究人员积极参与了所报告的脑机接口的操作,但对于护理人员来说,如果没有大量的培训和维护,这些脑机接口仍然太复杂,无法在家庭环境中操作。未来将需要类似的、在最少或无需研究人员干预的情况下运行的有效BCI系统。这需要使用以用户为中心的设计原则,在临床人群中进行广泛的开发和测试。目前还不清楚用户对其他人语音的感知是否会导致大脑到文本解码的错误,因为越来越多的证据表明,除了语音产生之外,语音感知还会激活感觉运动皮层。

最后,哪种BCI方法(MEA或ECoG)最能满足用户在现实应用中的安全性和长期有效性方面的需求,还有待观察。MEA从较小的皮质区域捕获丰富的功能信息,但信号往往不稳定,需要频繁更新语音解码模型。此外,MEA的寿命可能会受到电极材料的降解和装置的组织封装的限制。ECoG电极需要植入的面积比MEA更大,但ECoG电极位于皮质组织外部,通常可以多年提供出色的信号质量,尽管它们会引起浅表组织反应。

审核编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    6651

    浏览量

    84545
  • 人工智能
    +关注

    关注

    1776

    文章

    43871

    浏览量

    230620
  • 程序
    +关注

    关注

    114

    文章

    3631

    浏览量

    79546
  • 脑机接口
    +关注

    关注

    8

    文章

    344

    浏览量

    21136

原文标题:脑机接口研究获重大突破,帮助失声患者实现接近对话水平速度的交流能力

文章出处:【微信号:Micro-Fluidics,微信公众号:微流控】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    计算机语言概述

    。Basic语言是典型的解释型语言。编译型翻译程序也叫编译程序,它在翻译语言程序时,加工整个源程序,最终
    发表于 12-06 00:17

    Fortran的程序,要翻译成matlab

    不知有哪位大神,能帮一下忙,有一段Fortran的程序,要翻译成matlab,翻译了一些但数据不对
    发表于 02-18 20:58

    cold crank, warm crank 具体翻译成中文是什么

    cold crank, warm crank 翻译成中文具体是什么场景, 越详细越好!想入门汽车电子的小白现行谢过!
    发表于 05-23 14:26

    请问snap翻译成中文是什么?

    snap翻译成中文是什么 我查没有对应的翻译
    发表于 05-07 07:35

    请问spartan3an支持mcs程序翻译成位?

    我的合作伙伴项目交给我。它由pcb布局,sch,FPGA Mcs组成。主设备是spartan3an。在影响中,Ididnot发现它支持mcs文件。mcs可以翻译成位吗?以上来自于谷歌翻译以下为原文
    发表于 07-18 09:43

    怎么符号翻译成节拍?

    你好,我想了解一下符号翻译成节拍的方法,反之亦然。在MLA中,在文件..h中写入://Time单元,它是根据IEEE 802.15.4规范定义的。/一个刻度等于一个符号时间,或16Us。Tick
    发表于 09-11 11:38

    什么是程序?什么是计算机

    什么是程序程序(Program)流程、议程、行程、…为了完成某项任务,解决某个问题需要执行的一系列步骤计算机程序为了完成某项任务,解决某个问题由
    发表于 11-23 09:02

    lcd1602汇编程序,LCD1602汇编显示程序代码

    把汇编语言书写的程序翻译成与之等价的机器语言程序翻译程序。汇编程序输入的是用汇编语言书写的源程序
    发表于 10-20 15:34 1.5w次阅读
    lcd1602汇编<b class='flag-5'>程序</b>,LCD1602汇编显示<b class='flag-5'>程序</b>代码

    鲁棒性是什么意思_Robust为什么翻译成鲁棒性

    的意思。它是系统在异常和危险情况下生存的关键。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性。 鲁棒性测试曲线 所谓鲁棒性,是指控制系统在一定(结构,大小)的参数
    发表于 11-29 09:08 11.7w次阅读
    鲁棒性是什么意思_Robust为什么<b class='flag-5'>翻译成</b>鲁棒性

    计算机系统的层次结构到底是怎么样的

    通常由用户用高级语言编写程序,然后讲它和数据一起送入计算机内,再由计算机将其翻译成机器能识别的机器语言程序,机器自动运行该机器语言
    的头像 发表于 12-21 11:21 4205次阅读

    为什么国内将silicon翻译成硅而不是矽

    提到半导体,大家都知道各种处理器、闪存、内存等芯片都是基于半导体技术的,而我们现在常用的半导体实质上是硅基半导体,硅是这个行业最重要的材料。说到硅,很多人也见过另一个词矽,为什么国内现在翻译成硅而不是矽了呢?
    的头像 发表于 12-21 11:25 5239次阅读

    计算机系统的层次结构详细说明

    通常由用户用高级语言编写程序,然后讲它和数据一起送入计算机内,再由计算机将其翻译成机器能识别的机器语言程序,机器自动运行该机器语言
    的头像 发表于 02-22 16:44 6627次阅读

    借助手部动作控制机械臂的手语翻译成文本语音手套

    电子发烧友网站提供《借助手部动作控制机械臂的手语翻译成文本语音手套.zip》资料免费下载
    发表于 10-21 11:57 0次下载
    借助手部动作控制机械臂的手语<b class='flag-5'>翻译成文本</b>和<b class='flag-5'>语音</b>手套

    Python-环境与第一个程序

    计算机不能直接理解除机器语言外的语言,所以必须把程序员编写的语言最终翻译成机器语言,而翻译成机器语言的工具
    的头像 发表于 02-16 14:46 386次阅读
    Python-环境与第一个<b class='flag-5'>程序</b>

    影响AI生态系统的七大主要趋势

    过去,计算机只能在人类语言首先被翻译成代码后才能理解。但通过使用NLP,机器能够在文本保持其自然状态的情况下获取智能。
    的头像 发表于 01-31 12:30 871次阅读
    影响AI生态系统的七大主要趋势