中国科学家将大规模预训练语言模型用于单细胞测序技术，或将助力破译肿瘤微环境_

单细胞测序技术是生物医学领域一颗冉冉的新星技术，是指通过测序技术从单个细胞中得到有关遗传的信息。

在人体内，不同组织的细胞有着多种多样的类型、状态以及相互作用方式。而单细胞 RNA 测序（single-cell RNA sequencing/ scRNA-seq）技术，则为科学家们提供了一种在单细胞水平实现基因表达观测的方法。

这一技术将有助于了解在不同条件下各种细胞的基因表达的差异等，其中包括肿瘤细胞，进而从细胞层面对肿瘤微环境、以及疾病进展进行阐释，甚至将助力实现“精准医疗”。

在单细胞 RNA 测序技术中，准确的细胞类型注释十分重要。目前，细胞类型注释的方法主要有三类：通过标记基因注释；通过基于相关性的方法进行注释；以及通过监督分类进行注释。

在这三种方法中，通过监督分类进行注释的方法类似于 AI 领域机器学习的经典方法，即先通过基因表达谱进行模式学习和训练，并且在经过标记的数据集得到充分训练之后，转移到未标记的数据集进行训练。

这种方法由于对噪点和数据可变性而有着良好的鲁棒性，再加上其具备独立于人工选择的标记基因，故在最近得到了广泛使用。

不过，该方法由于模型容量有限、且不可避免地会引入人为偏差，目前这类方法存在的对大规模数据集的欠拟合问题，不利于其广泛推广。

而最近，一组中国科研团队受大规模预训练模型 BERT 的通过预训练和微调范式来提高 AI 模型泛化性的启发，开发出了用于对 scRNA-seq 数据进行细胞注释的 scBERT（single-cell BERT）模型。

研究人员通过让 scBERT 模型在大规模未标记 scRNA-seq 数据集上进行自我监督学习来提高其泛化性，来对 scBERT 模型进行验证。通过一系列基准测试，证明 scBERT 在细胞类型注释方面，有着良好的稳健性和准确性。

相关论文以《基于大规模预训练深度语言模型用于单细胞 RNA 测序中进行细胞类型注释的模型：scBERT》（scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data）为题，发表在 Nature Machine Intelligence。论文作者分别来自腾讯 AI 实验室和上海交通大学-耶鲁大学生物统计学与数据科学联合中心。

简单来说，scBERT 模型会对数百万个各种细胞类型的未标记 scRNA-seq 数据进行预训练，来学习有关 scRNA-seq 的基本知识。然后，通过简单地插入分类器、以及对由参考数据集监督的参数进行微调，来进行细胞类型的分配。

下图为 scBERT 的简图：首先，在自我监督的预训练阶段，也就是图中上部蓝绿色的 Self-supervised learning 部分，系统从 PanglaoDB 中收集尚未标记的数据。

图｜

scBERT

模型中对未标记数据的自监督学习以及针对特定任务数据的微调（来源：

Nature Machine Intelligence

）

其中，系统会将掩蔽表达式嵌入和基因嵌入（Gene Embedding）作为输入添加，并将其输入到执行器块中，而重构器（reconstructor）则用于生成输出，掩蔽基因的输出则被用于计算重建损失。

在监督微调阶段，也就是图中粉色的 supervised finetuning 部分，特定任务的 scRNA-seq 数据，也会作为输入进入预训练的编码器中。之后，通过一维卷积层和分类器，来生成细胞类型预测作为输出。

另外，执行编码器（Performer Encoder）是在预训练阶段和微调阶段共享的组件。而重构器和分类器则在这两个阶段中彼此独立、分开使用。

在 scBERT 模型中，研究人员采用了以下两点创新性的设计，使其在细胞类型标注任务中发挥出更强的能力。

第一，原始 BERT 的令牌嵌入是一个离散变量，而 scBERT 模型中的嵌入则是一个连续变量，代表了一个基因在单个细胞中的表达，这使其不仅巧妙利用了基因的独特功能，对于噪声也有着更好的鲁棒性。

第二，此前的单细胞方法中，人们大多采用选择或基因操作的方法，来对原始数据进行预处理。这不可避免会带来人为偏差和过拟合问题，甚至可能严重损害其泛化性。scBERT 模型由于采用了转换器（Transformer），可以充分有效利用 scRNA-seq 数据中的全局信息，并通过基因之间的相互作用进行学习，从而更全方位地掌握每个细胞的全局信息。

为了对 scBERT 模型进行验证，研究人员在涵盖 17 个主要器官/组织、50 多种细胞类型、超过 50 万个细胞和主流单细胞组学技术的 9 个 scRNA-seq 数据集上，对 scBERT 模型以及其他方法的性能进行了基准测试。