中国科学家将大规模预训练语言模型用于单细胞测序技术,或将助力破译肿瘤微环境

中国科学家将大规模预训练语言模型用于单细胞测序技术,或将助力破译肿瘤微环境
2022年09月30日 14:18 麻省理工科技评论

单细胞测序技术是生物医学领域一颗冉冉的新星技术,是指通过测序技术从单个细胞中得到有关遗传的信息。

在人体内,不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序(single-cell RNA sequencing/ scRNA-seq)技术,则为科学家们提供了一种在单细胞水平实现基因表达观测的方法。

这一技术将有助于了解在不同条件下各种细胞的基因表达的差异等,其中包括肿瘤细胞,进而从细胞层面对肿瘤微环境、以及疾病进展进行阐释,甚至将助力实现“精准医疗”。

在单细胞 RNA 测序技术中, 准确的细胞类型注释十分重要。目前,细胞类型注释的方法主要有三类:通过标记基因注释;通过基于相关性的方法进行注释;以及通过监督分类进行注释。

在这三种方法中,通过监督分类进行注释的方法类似于 AI 领域机器学习的经典方法,即先通过基因表达谱进行模式学习和训练,并且在经过标记的数据集得到充分训练之后,转移到未标记的数据集进行训练。

这种方法由于对噪点和数据可变性而有着良好的鲁棒性,再加上其具备独立于人工选择的标记基因,故在最近得到了广泛使用。

不过,该方法由于模型容量有限、且不可避免地会引入人为偏差,目前这类方法存在的对大规模数据集的欠拟合问题,不利于其广泛推广。

而最近,一组中国科研团队受大规模预训练模型 BERT 的通过预训练和微调范式来提高 AI 模型泛化性的启发,开发出了用于对 scRNA-seq 数据进行细胞注释的 scBERT(single-cell BERT)模型。

研究人员通过让 scBERT 模型在大规模未标记 scRNA-seq 数据集上进行自我监督学习来提高其泛化性,来对 scBERT 模型进行验证。通过一系列基准测试,证明 scBERT 在细胞类型注释方面,有着良好的稳健性和准确性。

相关论文以《 基于大规模预训练深度语言模型用于单细胞 RNA 测序中进行细胞类型注释的模型:scBERT》(scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data)为题,发表在 Nature Machine Intelligence。论文作者分别来自腾讯 AI 实验室和上海交通大学-耶鲁大学生物统计学与数据科学联合中心。

简单来说,scBERT 模型会对数百万个各种细胞类型的未标记 scRNA-seq 数据进行预训练,来学习有关 scRNA-seq 的基本知识。然后,通过简单地插入分类器、以及对由参考数据集监督的参数进行微调,来进行细胞类型的分配。

下图为 scBERT 的简图:首先,在自我监督的预训练阶段,也就是图中上部蓝绿色的 Self-supervised learning 部分,系统从 PanglaoDB 中收集尚未标记的数据。

图|

scBERT 

模型中对未标记数据的自监督学习以及针对特定任务数据的微调(来源:

Nature Machine Intelligence

其中,系统会将掩蔽表达式嵌入和基因嵌入(Gene Embedding)作为输入添加,并将其输入到执行器块中,而重构器(reconstructor)则用于生成输出,掩蔽基因的输出则被用于计算重建损失。

在监督微调阶段,也就是图中粉色的 supervised finetuning 部分,特定任务的 scRNA-seq 数据,也会作为输入进入预训练的编码器中。之后,通过一维卷积层和分类器,来生成细胞类型预测作为输出。

另外,执行编码器(Performer Encoder)是在预训练阶段和微调阶段共享的组件。而重构器和分类器则在这两个阶段中彼此独立、分开使用。

在 scBERT 模型中,研究人员采用了以下两点创新性的设计,使其在细胞类型标注任务中发挥出更强的能力。

第一,原始 BERT 的令牌嵌入是一个离散变量,而 scBERT 模型中的嵌入则是一个连续变量,代表了一个基因在单个细胞中的表达,这使其不仅巧妙利用了基因的独特功能,对于噪声也有着更好的鲁棒性。

第二,此前的单细胞方法中,人们大多采用选择或基因操作的方法,来对原始数据进行预处理。这不可避免会带来人为偏差和过拟合问题,甚至可能严重损害其泛化性。scBERT 模型由于采用了转换器(Transformer),可以充分有效利用 scRNA-seq 数据中的全局信息,并通过基因之间的相互作用进行学习,从而更全方位地掌握每个细胞的全局信息。

为了对 scBERT 模型进行验证,研究人员在涵盖 17 个主要器官/组织、50 多种细胞类型、超过 50 万个细胞和主流单细胞组学技术的 9 个 scRNA-seq 数据集上,对 scBERT 模型以及其他方法的性能进行了基准测试。

结果显示,scBERT 模型在准确性、稳健型等各方面,都优于当前其他同类模型的表现。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部