一种能将脑电波转化为文字的植入物-电子发烧友网

一名已经15年没有说话的瘫痪男子，正使用脑机接口来解码他想说的话（一次一个词）。加州大学旧金山分校

电脑屏幕显示问题“你想要一些水吗?”下面有三个点在闪烁，紧跟着几个字，一个一个地出现:“不，我不渴。”

大脑的活动使这些想法具体化——自从中风破坏了他的大脑和身体其他部分的连接，他几乎瘫痪后，已经有15年没有说话了。他使用了许多其他技术进行交流；最近，他使用了一个附在棒球帽上的探针在触摸屏上敲出文字，这种方法很有效，但很慢。他自愿参加了我的研究小组在加州大学旧金山分校(University of California, San Francisco)的临床试验，希望开创一种更快的方法。到目前为止，他只在研究过程中使用过这种大脑转换文本的系统，但他希望自己能够帮助我们把这项技术发展成像他这样的人可以在日常生活中使用的东西。

在我们的初步研究中，我们在志愿者的大脑表面覆盖了一个薄而灵活的电极阵列。电极记录神经信号，并将其发送到语音解码器，由语音解码器将信号翻译成该男子想要说的话。这是第一次一个瘫痪的不能说话的人使用神经技术从大脑中传播整个单词，而不仅仅是字母。

这项试验是十多年来对控制语言的潜在大脑机制的研究的高潮，我们对迄今为止所取得的成就感到无比自豪。但我们才刚刚开始。我在加州大学旧金山分校的实验室正在与世界各地的同事合作，使这项技术足够安全、稳定、可靠，并且可以在家里日常使用。我们也在努力改进系统的性能，所以这是值得的。

神经修复术是如何工作的

第一个版本的脑机接口让志愿者掌握了50个实用单词。加州大学旧金山分校

神经修复术在过去的20年里取得了长足的进展。用于听觉的假体植入物已经发展得最远了，它们的设计与内耳的耳蜗神经连接，或直接进入听觉脑干。还有大量关于视网膜和大脑植入视觉的研究，以及让义手患者获得触觉的工作。所有这些感觉义肢从外界获取信息，并将其转化为电信号，输入大脑的处理中心。

相反，神经假体记录大脑的电活动，并将其转换为控制外界事物的信号，如机械臂、视频游戏控制器或电脑屏幕上的光标。最后一种控制方式已经被一些团体使用，比如“大脑之门”(BrainGate)联盟，使瘫痪的人能够打字--有时一次一个字母，有时使用自动补全功能来加快打字过程。

为了实现用大脑打字的功能，通常要在大脑中控制运动的部分--运动皮层中植入传感器。然后，用户想象某些物理动作来控制在虚拟键盘上移动的光标。另一种方法是我的一些合作者在2021年的一篇论文中率先提出的，他让一名用户想象自己拿着笔在纸上写字，在运动皮层中产生信号，然后将这些信号翻译成文本。这种方法创造了速度的新纪录，使志愿者每分钟能写大约18个单词。

在我们实验室的研究中，我们采取了一种更雄心勃勃的方法。我们不是解码用户移动光标或钢笔的意图，而是解码控制声道的意图，声道由数十块控制喉头(通常称为喉头)、舌头和嘴唇的肌肉组成。

这个看似简单的对话设置是由复杂的神经技术硬件和解码他的大脑信号的机器学习系统实现的。加州大学旧金山分校

我在十多年前就开始在这个领域工作了。作为一名神经外科医生，我经常看到一些严重受伤、无法说话的病人。令我惊讶的是，在许多情况下，大脑损伤的位置与我在医学院学到的综合症并不匹配，我意识到关于语言是如何在大脑中处理的，我们还有很多要学习。我决定研究语言的基础神经生物学，如果可能的话，开发一种脑机接口(BMI)，为失去交流能力的人恢复交流。除了我的神经外科背景，我的团队还拥有语言学、电子工程、计算机科学、生物工程和医学方面的专业知识。我们正在进行的临床试验是测试硬件和软件，以探索我们的BMI的极限，并确定我们可以恢复什么样的语音。

说话的肌肉:与说话有关的肌肉

语言是区分人类的行为之一。许多其他物种也会发声，但只有人类以无数种不同的方式组合一组声音来代表他们周围的世界。这也是一种非常复杂的运动动作--一些专家认为这是人类最复杂的运动动作。说话是通过声道调节气流的产物；每一次发声，我们都通过在喉声带中产生可听到的振动，改变嘴唇、下巴和舌头的形状来塑造呼吸。

声道的许多肌肉与以关节为基础的肌肉(如手臂和腿部的肌肉)完全不同，后者只能以几种规定的方式运动。例如，控制嘴唇的肌肉是括约肌，而组成舌头的肌肉更多的是由液压控制的--舌头主要由固定体积的肌肉组织组成，所以移动舌头的一部分会改变其他地方的形状。控制这种肌肉运动的物理原理与肱二头肌或腿筋完全不同。

因为有这么多的肌肉参与其中，而且每一块都有这么多的自由度，本质上有无限多的可能的构型。但当人们说话时，他们使用的核心动作相对较少(在不同的语言中有些不同)。例如，当说英语的人发“d”音时，他们会把舌头放在牙齿后面;当他们发“k”音时，他们的舌头后部会向上触及口腔后部的天花板。很少有人意识到说最简单的单词需要精确、复杂和协调的肌肉动作。

团队成员大卫·摩西(David Moses)看着病人的脑电波读数(左屏)和解码系统的活动显示(右屏)。加州大学旧金山分校

我的研究小组专注于大脑运动皮层的部分，这些部分向面部、喉咙、口腔和舌头的肌肉发送运动指令。这些大脑区域是一心多用的:它们控制产生语言的肌肉运动，也控制吞咽、微笑和接吻的肌肉运动。

要用有效的方法研究这些区域的神经活动，既需要毫米量级的空间分辨率，也需要毫秒量级的时间分辨率。历史上，非侵入性成像系统只能提供其中一种，而不能同时提供两者。当我们开始这项研究时，我们发现很少有数据表明大脑活动模式如何与言语中最简单的成分(音素和音节)相关联。

在此，我们非常感谢参与研究的志愿者。在加州大学旧金山分校癫痫中心，准备手术的患者通常会在他们的大脑表面放置几天的电极，这样我们就可以在他们癫痫发作时绘制出相关的区域。在接线中断的那几天里，许多患者自愿参加神经学研究实验，利用他们大脑中的电极记录。我的小组让我们研究他们说话时的神经活动模式。

所涉及的硬件称为皮层电描记术(ECoG)。ECoG系统中的电极不穿透大脑，而是位于大脑表面。我们的阵列可以包含几百个电极传感器，每个电极传感器记录数千个神经元。到目前为止，我们使用的数组有256个通道。我们早期研究的目标是发现人们说简单音节时皮质活动的模式。我们要求志愿者说出特定的声音和单词，同时记录他们的神经模式，跟踪他们舌头和嘴巴的运动。有时我们会让他们涂上彩色的面部颜料，然后用计算机视觉系统提取运动学手势；其他时候，我们使用放置在患者颌骨下的超声波机来成像他们移动的舌头。

该系统首先将一个柔性电极阵列覆盖在患者的大脑上，以接收来自运动皮层的信号。该阵列专门捕捉针对患者声道的运动指令。固定在头骨上的一个端口引导连接到计算机系统的电线，计算机系统将大脑信号解码，并将它们翻译成患者想要说的话。然后他的答案会出现在显示屏上。Chris Philpot

我们用这些系统将神经模式与声道的运动相匹配。一开始我们对神经信号解码有很多疑问。一种可能是，神经活动为特定的肌肉编码了方向，大脑本质上控制这些肌肉，就像按键盘上的键一样。另一个想法是，编码决定了肌肉收缩的速度。还有一种是，神经活动与肌肉收缩的协调模式相一致，肌肉收缩用于产生某种声音。(例如，发出“aaah”的声音时，舌头和下巴都需要下垂。)我们发现，有一个控制声道不同部分的表征图，不同的大脑区域以协调的方式结合在一起，产生流畅的讲话。

人工智能在当今神经科技中的作用

我们的工作依赖于人工智能在过去十年中的进步。我们可以将收集到的关于神经活动和语音运动学的数据输入到神经网络中，然后让机器学习算法在两个数据集之间的关联中寻找模式。在神经活动和生成的语音之间建立联系是可能的，并使用这个模型生成计算机生成的语音或文本。但这种技术无法训练针对瘫痪患者的算法，因为我们缺少一半的数据：我们有神经活动模式，但没有相应的肌肉运动。

我们意识到，使用机器学习更聪明的方法是把问题分解成两个步骤。首先，解码器将来自大脑的信号翻译成声道肌肉的预期动作，然后将这些预期动作翻译成合成的语音或文本。

我们称之为仿生学方法，因为它复制了生物学；在人体中，神经活动直接负责声道的运动，只间接负责声音的产生。这种方法的一大优势在于训练解码器，以完成将肌肉运动翻译成声音的第二步。因为声道运动和声音之间的关系是相当普遍的，我们能够训练解码器从大的数据集，从没有瘫痪的人。

一个测试语言神经假体的临床试验

下一个巨大的挑战是将这项技术带给真正能从中受益的人。

美国国立卫生研究院(NIH)正在资助我们从2021年开始的试点试验。我们已经有两名植入了ECoG阵列的瘫痪志愿者，我们希望在未来几年有更多志愿者加入进来。我们的主要目标是提高他们的沟通能力，我们用每分钟的字数来衡量他们的表现。一个成年人在全键盘上打字的平均速度是每分钟40个单词，最快的打字者的速度达到每分钟80多个单词。

Edward Chang在神经外科实践中遇到的病人启发了他开发一种大脑语音系统。BarbaraRies

我们认为接入语音系统可以提供更好的结果。人类说话比打字快得多：一个说英语的人一分钟可以轻松说出150个单词。我们想让瘫痪的人以每分钟100字的速度交流。为了实现这一目标，我们还有很多工作要做，但我们认为我们的方法使它成为一个可行的目标。

植入手术是常规的。首先，外科医生切除一小部分头骨；接下来，灵活的ECoG阵列被轻轻地放置在皮质表面。然后将一个小端口固定在头骨上，并通过头皮上的一个单独的开口出口。我们目前需要这个连接到外部电线的端口来传输来自电极的数据，但我们希望在未来使该系统成为无线的。

我们也考虑过使用穿透微电极，因为它们可以记录更小的神经群体，因此可能提供更多关于神经活动的细节。但在临床应用方面，目前的硬件并不像ECoG那样健壮和安全，特别是多年来。

另一个需要考虑的问题是，穿透电极通常需要每天重新校准，才能将神经信号转化为清晰的指令。对神经设备的研究表明，设置速度和性能可靠性是让人们使用该技术的关键。这就是为什么我们在创建长期使用的“即插即用”系统时优先考虑稳定性。我们进行了一项研究，观察志愿者的神经信号随时间的变化，发现解码器在使用多个会话和多个天的数据模式时表现更好。用机器学习的术语来说，我们说解码器的“权重”被保留下来，形成了统一的神经信号。

因为当我们观察瘫痪的志愿者的大脑模式时，他们不能说话，我们让第一位志愿者尝试两种不同的方法。他首先列出了50个日常生活中很方便的单词，比如“饿了”、“渴了”、“请”、“帮助”和“电脑”。在几个月的48个疗程中，我们有时让他想象说出清单上的每一个单词，有时让他明显地试着说出来。我们发现，尝试说话会产生更清晰的大脑信号，足以训练解码算法。然后，志愿者可以使用列表中的这些单词生成他自己选择的句子，比如“不，我不渴。”

我们现在正在努力扩大词汇量。要做到这一点，我们需要继续改进当前的算法和接口，但我相信这些改进将在未来几个月或几年发生。既然已经建立了原理证明，那么目标就是优化。我们可以专注于使我们的系统更快、更准确，最重要的是更安全、更可靠。现在事情应该进展得很快。

如果我们能更好地理解我们试图解码的大脑系统，以及瘫痪如何改变它们的活动，可能最大的突破就会到来。我们已经意识到，无法向声道肌肉发送指令的瘫痪患者的神经活动模式与能够向声道肌肉发送指令的癫痫患者的神经活动模式是非常不同的。我们正在尝试BMI工程的一项雄心勃勃的壮举，而对于潜在的神经科学，我们还有很多需要了解的地方。我们相信我们所在的一切都会让我们的病人恢复他们的声音。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉