谈到脑机接口,通过侵入方式记录大脑信号,解读人类的所思所想已不是什么新鲜事。
已有不少研究成功实现了从大脑信号中解码语音发音和其他运动信号,来恢复受试者已经丧失了的说话能力。虽然有效,但这些解码器都要通过神经外科手术接入大脑,并不适用于大多数场景。那么,非侵入的方式有用吗?
以往,使用非侵入性记录的解码器(non-invasive decoder)只能从一小组字母单词或短语中识别刺激,一直具有较大的应用局限性。而近日,一篇发表在Nature Neuroscience上的研究介绍了一种新型的非侵入式解码方式,它使用功能性磁共振成像(fMRI)记录从语句意义的皮层表征中重建连续的自然语言。这种非侵入式的脑机接口可用于识别感知、想象和沉默视频中的意义,并生成可理解的单词序列。研究证明了非侵入式语言大脑 – 计算机接口的可行性。
2023年5月31日,天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)的青年科学家们自发组织了 “AI for Brain Science Journal Club”第二期会议,来自中国科学院大学北京大学第六医院的青年科学家袁则博士详细解读了这项研究,追问媒体对会议内容进行梳理,以飨读者。
不侵入大脑,如何解码语言?
这项研究介绍了一种新型解码器,它采用非侵入性fMRI大脑记录,并能以连续的自然语言重建受试者正在听到或想象的任意刺激。为了将单词序列与受试者的大脑反应进行比较,研究者训练出一个编码模型,预测受试者的大脑如何对自然语言中的短语做出反应。试验记录了3名受试者在听叙事故事16小时内大脑的fMRI BOLD反应,并以此为每个受试者构建编码模型,然后训练该模型,使其能够根据刺激词的语义特征预测大脑的反应。编码器将大脑反应输入到解码器,再由解码器将其翻译为一组候选单词序列并进行评分,并保留最有可能的单词序列(波束搜索算法)(图1)。该语义解码器使用的波束搜索算法能有效改善fMRI低时间分辨率对预测结果准确度的影响。
结果发现,解码出的单词序列不仅捕获了刺激的含义,甚至预测了精确的单词和短语。
为了量化解码性能,研究还使用几个“语言相似性”度量来比较一则测试故事(1800个单词)的解码和实际单词序列(图3)。通过一系列语言相似性的度量,解码器所预测结果与实际单词的相似性、解码分数、识别准确率显著高于偶然与随机。
语言信息藏在大脑皮层何处?
为了回答哪些皮层网络代表了足够详细的语言,以及不同的网络(或半球)在语言处理中是互补还是冗余的等问题,研究将大脑数据划分为三个皮层网络:经典语言网络、顶叶-颞-枕叶联合网络和前额叶网络(图4)。研究者从每个半球的每个网络中单独解码后发现,来自每个半球的每个网络的解码器预测与实际刺激的相似性显著高于随机预期。
研究者还计算了每个网络解码性能的时间过程,发现从整个大脑中显著解码的大多数时间点都可以从联合网络(77%-83%)和前额叶网络(54%-82%)中进行解码(图5)。他们同样比较了跨网络和跨半球的解码器预测,发现每对预测之间的相似性显著高于随机。这表明,这些皮层网络承载了大量冗余信息,未来脑-机接口或许可以选择性地从最容易接近的大脑区域进行记录(而非特定的脑区)来获得良好的解码性能。
应用:非侵入性语言解码器用在哪里?
为了探索这种新型解码器的应用价值,研究者在故事预测期间使用大脑反应为每个受试者训练了单个语义语言解码器,然后将其应用于其它任务期间的大脑反应上。
· 想象语音解码:根据大脑想象过程中的活动进行解码。针对每一个故事,将解码器根据受试者想象预测的故事与受试者在不进行扫描时描述的故事进行比较,正确地识别出了哪个预测结果对应于哪个故事(100%正确率)。
· 跨模态解码:针对非语言任务进行语言重建。使用fMRI记录受试者观看了四部没有声音的短片时的大脑活动并使用语义语言解码器进行解码。将解码后的单词序列与针对视障人士的电影音频描述进行比较,发现解码的序列准确地描述了来自电影的事件。这表明,在故事感知过程中训练的单个语义解码器可以用于解码一系列语义任务。
· 注意力解码:语义表征受到注意力的调节,照理语义解码器应该有选择地重建被关注的刺激。为了测试这一点,实验对象听了两次重复的多个说话者刺激,该刺激是通过暂时叠加由女性和男性说话者讲述的两个故事来构建的。在每次演讲中,受试者都被提示去听不同的演讲者。解码器的预测与受试者描述的故事表现一致,表明解码器选择性地重构了被关注的刺激。
· 隐私影响:语义解码的一个重要的伦理考虑是它可能会损害精神隐私。研究试图使用根据其他受试者的数据训练的解码器来解码每个受试者的感知语音。结果表明,受试者合作对于解码器训练仍然是必要。而且,语义解码可以被有意识地抵制。
借鉴:数据噪声从何而来?
为了进一步改进解码器的解码效果,研究还评估了解码错误是否反映了大脑记录中的随机噪声、模型设定错误还是两者兼而有之。结果发现,除了训练和测试数据中的随机噪声之外,模型设定错误是解码错误的主要来源。
为了评估解码性能是否受到训练数据集大小的限制,研究使用不同数量的数据来训练解码器。虽然解码性能随着训练数据量的增加而提高,大多数改进发生在第七次扫描会话时,即7.5小时,这表明简单地收集更多数据可能不会显著提高解码性能。
此外,测试数据中的低信噪比(SNR)也可能会限制可以解码的信息量。研究发现,通过对不同重复测试故事期间收集的大脑反应进行平均来人为增加信噪比,解码性能随着平均响应的数量而略微增加,这表明解码误差的一些分量反映了测试数据中的噪声。值得注意的是,解码性能与训练刺激中的词频没有显著相关性,这表明模型的错误设定不是主要由训练数据中的噪声引起的。此外,研究者还发现解码性能与单词具体性的行为评级显著相关,这表明解码器在重建具有某些语义属性的单话方面较差。
会议追问
会议最后,袁则博士总结道,这项研究表明感知和想象刺激的意义可以从fMRI记录中解码为连续的语言,这标志着非侵入性脑机接口的重要一步。虽然解码器成功地重建了语言刺激的意义,但它经常无法重建准确的单词且可能会发生特异性的损失。另外,主体反馈是提高解码性能的重要因素,这种反馈允许受试者适应解码器,为他们提供对解码器输出的更多控制。
Q:研究中主要使用了两种方法进行解码,可以具体介绍一下这两种方法吗?
A:一是逐词生成候选序列的“波束搜索算法”。在波束搜索中,当基于听觉和语言区域的大脑活动检测到新单词时,语言模型为波束中的每个候选序列生成延续。然后,编码模型对每次延续诱发记录的大脑反应的可能性进行评分,最有可能的延续被保留在下一时间步的波束中;另一种方法是GPT,预训练生成的GPT是一个12层的神经网络,它使用多头自我注意机制将序列中每个单词的表示与之前单词的表示相结合。GPT在一个大的书籍语料库上被训练来预测下一个单词的概率分布。
会议海报