近期,中国科学院上海微系统与信息技术研究所及相关团队在语言脑机接口领域取得突破。研究人员开发了灵活、可集成、高性能的脑机接口系统和实时中文神经网络解码算法,实现了全球首次利用脑机接口进行中文句子实时解码和合成。这项研究不仅让中国失语症患者重新“说话”,也为脑机接口在多语言、多场景的应用开辟了新的可能性。破译任何汉字或文本的能力是人与人之间交流的主要形式。然而,严重的脑部疾病,如中风、肌萎缩侧索硬化症和脑外伤等,往往会导致患者失去表达语言的能力,让他们陷入有意识却无法说话的困境。 “有近8毫“对于中国因各种脑部疾病而丧失语言能力的患者来说,中文解码具有重要意义和应用价值。”中国科学院上海微系统与信息技术研究所研究员周志涛表示,近年来,许多国际顶尖科研团队在脑机接口英文解码方面取得了很多进展,包括英语和西班牙语的双语解码。然而,对与英语有很大不同、数量最多的中文解码的研究却是如此。由于起步较晚,所以研究进展相对缓慢,周志涛表示,该团队在这项研究中的主要突破主要有两点:“首次实现了中文的实时解码,并且实现了几乎覆盖中文所有音节的全谱解码。”一般来说,英语主要是多音节、无声调的语言,而汉语主要是单音节、有声调的语言。同时,英语词汇量丰富,常用英语单词约2万个。而汉语则有大约 400 个音节和 4 个声调,可以组成 3500 多个常用汉字来满足日常需要。汉语的独特性也有其优点。研究团队发现了这些汉语音节和声调,并用它们作为稳定的中间解码单元,实现“翻译”脑电波到文本。英语很难直接破译大量单词,而汉语可以破译这些汉语音节和声调,覆盖所有发音组合,进而破译汉字和句子。“音节+声调”解码策略针对汉语的特点,研究团队提出了一种以“音节”为核心的中间解码单元。科研人员表示,与音素相比,音节是更完整、更充分的发音单元,持续时间更长,神经表征更稳定,有利于从脑电信号中提取鲜明的特征。同时,直接解码音节时,可以跳过重新组合声母和词尾的复杂中间步骤,大大提高了解码效率。在具体实现上,研究团队构建了多级实时解码数据。流,在50毫秒的滑动窗口中提取70Hz到170Hz的高伽马频带脑电信号,将脑电信号与发音起点进行匹配,管理双流解码器同步生成音节和声调的概率分布,并集成语言模型来选择最佳的句子组合,从而实现实时生成汉语。形成“EGG→音节→汉字→句子”的闭环。研究显示,经过为期9天的语言解码任务,受试者对394个汉语音节(不进行解码的音节为生僻音节,受试者不认识的音节)的平均纯神经解码准确率达到71.2%,单音节解码延迟为65毫秒,任务结束后汉语句子实时解码速度为49.6字/分钟。在此基础上,团队进一步将语言脑机接口与人工智能、嵌入式智能技术相结合,基于自主研发的通用脑机操作系统实现多种新型交互方式。例如,受试者可以使用脑电图解码来驱动和代表数字化身。直接与大规模人工智能模型交互。解码后的语言还可以翻译成控制指令,实时控制右手,完成抓取等动作。 “AI时代的语言解码不再局限于简单地实现“语音”。周志涛认为,语言解码还可以提高人类自身的能力,使人成为“超人”,极大地拓展人的想象力以及控制和交互的可能性。 “脑机语言接口充当控制中心和信息中心。通过上述以及未来各种新的交互方式的实现,帮助人们高效地控制和协作各种先进的软硬件。”对于临床应用来说,语言脑机接口仍然面临着一些挑战,比如如何长时间稳定移植物、长时间保持大脑信号的高质量采集、减少组织反应等。此外,中国神经编码机制本身还需要进一步研究。研究团队表示,下一步将研究优先采用最新的全无线脑机接口装置、全植入式、功能齐全的设备进行长期植入实验,实现实时无声解码,进一步提高实时解码率和准确率。
(编辑:魏金仁)