# 2.1.3 综述 | 2017-scRNA中的细胞聚类分群

这篇关于单细胞的综述发表于2017年7月的Molecular Aspects of Medicine，[Identifying cell populations with scRNASeq](https://pubmed.ncbi.nlm.nih.gov/28712804/) 第一作者是Tallulah，通讯是Martin Hemberg

比较早的英文scRNA教程就是他们实验室的<https://hemberg-lab.github.io/scRNA.seq.course/>

## Abstract 摘要

单细胞转录组在进行单个细胞的表达定量检测是强有力的工具，但是它产出的数据噪音和维度都比较高，相比bulk RNA-seq增加了分析难度。文章就介绍了几种不同的实验流程和最流行的分析方法，可以识别具有重要生物学意义的基因，可以将数据投射到低维，可以对细胞聚类推断亚群，可以解释验证鉴定到的细胞类型和细胞状态。

## 1 Introduction 介绍

人体中大约有$$4 \* 10^{13}$$ 个细胞([Bianconi et al., 2013](https://www.tandfonline.com/doi/full/10.3109/03014460.2013.807878))，形态与功能都具有多样性。传统的方法是根据形态学而非分子学特征将细胞分成200种（[Junqueria et al., 1992](https://scholar.google.com/scholar_lookup?title=Basic%20Histology\&author=L.C.%20Junqueria\&publication_year=1992)）。上世纪中叶以来，免疫荧光(immunofluorescence)和流式细胞分选技术( flow cytometry )可以基于细胞表面蛋白标记物存在与否进行更精确地分类([Coons et al., 1941](http://journals.sagepub.com/doi/abs/10.3181/00379727-47-13084p); [Fulwyler, 1965](https://www.ncbi.nlm.nih.gov/pubmed/5891056))，但是这些技术还仅限于易于分离的组织(如：血细胞谱系)，而且只能检测表面少量的标记物。

单细胞测序的发展允许使用整个转录组的数千个细胞去鉴定细胞类型，目前scRNA-seq已经应用在许多发育中的或者固定时间点的组织和器官，包括大脑不同区域的研究[(Darmanis et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26060301); [Karlsson and Linnarsson,2017](https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-017-3528-6); [Liu et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27081004); [Tasic et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/26727548); [Zeisel et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/25700174))、视网膜研究([Baron et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27667365); [Jaitin et al., 2014](http://science.sciencemag.org/content/343/6172/776); [Macosko et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26000488); [Zheng et al., 2017](https://www.ncbi.nlm.nih.gov/pubmed/28091601))、胰腺研究([Baron et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27667365); [Segerstolpe et al., 2016](https://www.sciencedirect.com/science/article/pii/S1550413116304363); [Wang et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27364731))、免疫细胞研究([Jaitin et al., 2014](http://science.sciencemag.org/content/343/6172/776); [Villani et al.,2017](https://www.ncbi.nlm.nih.gov/pubmed/28428369)) 、早期胚胎发育([Biase et al., 2014](https://www.ncbi.nlm.nih.gov/pubmed/25096407); [Goolam et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27015307); [Xue et al., 2013](https://www.nature.com/articles/nature12364))、造血([Velten et al.,2017](https://www.ncbi.nlm.nih.gov/pubmed/28319093); [Wilson et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26004780))

文章列出了一些方法可以根据scRNA数据识别细胞群 (图1)

![](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2020-10-12-043638.png)

【图中不同的颜色表示对第一步得到的表达矩阵进行的不同处理，例如第二个蓝色框"feature selection"是从原始表达矩阵中删除行，方法有HVG、M3Drop、Spike-in；再往下"dimensionality reduction "目的是降维，会计算出一个新的包含meta-features的矩阵，可以想象成把细胞分类，相似的群体汇集到一起有共同的meta元信息，方法如：PCA、tSNE、Diffusion map；接下来是聚类"Clustering"，包括计算细胞与细胞之间的聚类，如K-means、DBSCAN；或是"[K近邻算法](https://blog.csdn.net/juanqinyang/article/details/58250403)"，如Louvain、infomap、densityCut、SNN-cliq】

此外，文章还讨论了设计实验时需要考虑的不同方案，因为实验设计的好坏直接影响下游分析结果；讨论了鉴定生物学相关的细胞类群对scRNA数据分析的挑战以及应对的一些统计方法；然后就是非监督式聚类，用来细胞分群；最后讨论了如何去验证分群的细胞是否真的有生物学意义。

## 2 Experimental design considerations 实验设计

scRNA-seq并不是一成不变，需要根据具体实验进行调整。 比如一个常用的操作就是鉴定稀有（数量小于1%）细胞群([Campbell et al. (2017](https://www.ncbi.nlm.nih.gov/pubmed/28166221); [Grün et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26287467); [Jiang et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27368803); [Segerstolpe et al., 2016](https://www.sciencedirect.com/science/article/pii/S1550413116304363))，意味着需要大量的供试细胞。例如：Campbell作者对小鼠下丘脑的20921个细胞进行测序，结果鉴定了包含少于50个细胞的神经元亚群(占比<0.2%) 。

另一个scRNA-seq的应用就是确定相似的细胞类型之间有何差异，这就需要对低表达基因提高检出率，降低技术噪音。例如：分析造血干细胞之间的差异就需要检测低表达丰度的转录因子，反过来就需要敏感度更高的scRNA测序方法（[Tsang et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26387834)）或者靶向检测(如RT-qPCR)（[Wilson et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26004780)）。

### **2.1 实验方法**

**概述**

一般每个scRNA-seq都包含三个方面：1）单个细胞分离；2）文库制备；3）测序。

1）细胞分离需要先将样品解离，然后分选到PCR板的单独孔中，或者利用单独的液滴(droplets)、微孔(microwells)或微流控(microfluidic)捕获单个细胞；

2）文库制备需要反转录和扩增，可以利用全长转录本或者"3'或5'"标记的一端；

3）测序一般是[多重测序](https://www.illumina.com.cn/science/technology/next-generation-sequencing/multiplex-sequencing.html)(目的：单次实验中同时测序大量样本)，深度可以从平均25000reads/cell（[Macosko et al.,2015](https://www.ncbi.nlm.nih.gov/pubmed/26000488)），到5M reads/cell([Kolodziejczyk et al., 2015](https://www.sciencedirect.com/science/article/pii/S193459091500418X))

**两类方法**

对于需要高通量的研究，**基于液滴（droplet）的方法**，如InDrop（[Klein et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26000487)）、Drop-seq（[Macosko et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26000488)）、10X Chromium([Zheng et al., 2017](https://www.ncbi.nlm.nih.gov/pubmed/28091601))是比较流行的，可以一次制备成千上万细胞，捕获的性价比高，但是大量的细胞测序可能增加总体成本。不过有研究表明，确定细胞类型所需要的最低测序深度可以为25000-50000reads/cell (\[Jaitin et al., 2014]\(<http://refhub.elsevier.com/S0098-2997(17)30049-3/sref46>); [Pollen et al., 2014](https://www.ncbi.nlm.nih.gov/pubmed/25086649))。虽然droplet的方法通量比较高，但是细胞检测率和mRNA的捕获效率会偏低([Svensson et al., 2017](https://www.biorxiv.org/content/10.1101/073692v1); [Ziegenhain et al., 2017](https://repositori.upf.edu/handle/10230/34928))。近年来有一些可以替代droplet的方法出现，包括基于微孔的方法([Fan et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/25657253); [Gierahn et al., 2017](https://dash.harvard.edu/handle/1/34375305))和组合索引（combinatorial indexing）的方法([Cao et al., 2017](https://www.biorxiv.org/content/10.1101/104844v1.article-info))。以上这些方法需要再细胞裂解前加上barcodes，因此只支持3'/5'测序。

如果实验中细胞量不大，可以考虑**PCR plate-based的方法**（将少量的细胞分选到含有建库PCR引物的多孔板中），包括Smartseq2([Picelli et al., 2013](https://www.ncbi.nlm.nih.gov/pubmed/24056875))、SCRB-seq([Soumillon et al., 2014](https://www.biorxiv.org/content/early/2014/03/05/003236)) 、CEL-seq([Hashimshony et al.,2012](https://www.ncbi.nlm.nih.gov/pubmed/22939981))和MARS-seq\[(Jaitin et al., 2014]\([http://refhub.elsevier.com/S0098-2997(17)30049-3/sref46))。细胞一般利用微流控芯片(如：Fluidigm](http://refhub.elsevier.com/S0098-2997\(17\)30049-3/sref46\)\)%E3%80%82%E7%BB%86%E8%83%9E%E4%B8%80%E8%88%AC%E5%88%A9%E7%94%A8%E5%BE%AE%E6%B5%81%E6%8E%A7%E8%8A%AF%E7%89%87\(%E5%A6%82%EF%BC%9AFluidigm) C1，它将细胞捕获和文库构建组合在一起)。以上的方法捕获细胞的性价比比较低，但检出率较高([Svensson et al., 2017](https://www.biorxiv.org/content/10.1101/073692v1); [Ziegenhain et al., 2017](https://repositori.upf.edu/handle/10230/34928))。另外这些方法既支持3'/5'端测序，也支持全长转录本测序。有研究表明，1M reads/样本细胞可以最大化基因检出率(Svensson et al., 2017; Ziegenhain et al., 2017)，但为了精确定量isofroms或者找到含量更低的ncRNAs，需要更多的测序([Huang and Sanguinetti,2017](https://www.biorxiv.org/content/biorxiv/early/2017/04/29/098517.full.pdf); Sims et al., 2014)。

**Doublet的问题**

scRNA测序方法中一个不可回避的问题就是："双细胞 doublet"，即一个液滴或一个微孔中包含了2个或多个细胞，这种情况必须通过进一步仔细的分析（[Segerstolpe et al., 2016](https://www.sciencedirect.com/science/article/pii/S1550413116304363); [Wang et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27364731)）才能避免被误认成新的中间细胞类型。 对于高通量的捕获方法，需要权衡细胞捕获效率和doublet检出率，一般设定doublet的范围是1-5%（Ziegenhain et al., 2017），微流控Fluidigm平台为1-10%([Fluidigm Corporation, 2017](http://info.fluidigm.com/rs/673-MRG-416/images/C1-Med-96-IFC-Redesign_wp_101-3328B1_FINAL.pdf)) \[过去设定阈值竟然高达30%(Macosko et al., 2015)]。对于 plate-based的方法，没有这种明确的的规定。

除了doublet可能导致混合文库(mixed libraries)，还有可能是测序文库发生了"泄露"，有报道说Illumina的Hiseq 4000中有5-10%的reads会发生([Sinha et al.,2017](http://dx.doi.org/10.1101/125724))，在HiseqX中没有发现([Owens et al., 2017](https://www.sciencedirect.com/science/article/pii/S2211124715014916))

**批次效应**

Doublet只是实验中产生的一种情况，会混淆细胞类群的识别。另一个挑战是批次效应([Hicks et al., 2015](http://dx.doi.org/10.1101/025528); [Tung et al., 2017](https://www.ncbi.nlm.nih.gov/pubmed/28045081)) 。批次效应是不同时间或不同人员制备的实验重复之间的实验效率或细胞状态不同而产生的。如果对感兴趣的生物学类型(如突变型与野生型)进行不同批次的处理(如：不同日期提取或使用不同PCR板扩增)，那么基本不可能从数据分析角度消除批次效应(只能用一些算法比如quantile、SVA包的ComBat ([Stein et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/25887219)) )、RUVs([Risso et al.,2014](https://www.ncbi.nlm.nih.gov/pubmed/25150836))、linear mixed-modelling ([Tung et al., 2017](https://www.ncbi.nlm.nih.gov/pubmed/28045081))。

想要消除批次效应只能通过仔细的实验设计，将每个生物条件分散到各个实验批次中，做到"一视同仁"，例如：采用"balanced"方法([Hicks et al.,2015](http://dx.doi.org/10.1101/025528)）让每个批次包含不同生物处理的细胞，每个生物处理在不同的批次中都存在。

### **2.2 技术噪音**

**UMI与Spike-ins**

单细胞转录组一般会搭配unique molecular identifiers (UMIs) 或已知浓度的外源RNA分子(spike-ins) 来解决高技术噪音问题。

UMI是反转录过程中添加到每个cDNA的5'或3'端，长度为4-10bp的barcodes(Islam et al., 2014)。它的作用是将reads分配给每个反转录事件，区分哪些reads是来自于同一个原始的cDNA分子，然后估算原始分子数量(Islam et al., 2014; Kivioja et al., 2011)。因为它和转录本的一端结合后进行5'/3'测序，因此会存在丢失isoform信息、捕获的遗传变异较少等问题，评价等位基因表达会比较难。5'/3'测序的主要优势就是借助UMI，消除基因长度差异，消除了扩增的偏差，相比之下，全长转录本测序虽然捕获了转录本整体，但存在3'/5' bias。

标准的spike-ins是ERCC组织指定的一段细菌序列（Baker et al., 2005; Jiang et al., 2011），它们在转录长度、核苷酸含量、poly-A尾的长度和内含子缺失方面都和哺乳动物不同(因为目前单细胞主要应用于人和小鼠)。存在的问题是：ERCC spike- ins的捕获效率低于内源性mRNA (Svensson et al., 2017)；具有较高的技术变异性，有时会比内源基因的含量还多(Robinson and Oshlack, 2010; SEQC/MAQC-III Consortium, 2014)；spike-in的计数受到生物条件的影响，因此有时会失去作为control的优势。新开发的spike-ins是来自人类的序列，可能更能代表哺乳动物转录本，从而减轻一些旧spike-in的影响([Paul et al., 2016](http://dx.doi.org/10.1101/080747))。如果使用了spike-ins，比对前应该将spike-in序列和参考基因组序列合并作为共同”参考基因组”。

Plate-based方法既可以用UMI也可以用spike-ins，而基于液滴和基于微孔的方法是能用UMI ([Gierahn et al., 2017](https://dash.harvard.edu/handle/1/34375305); Macosko et al., 2015)；微流控的仪器不确定是否可以与UMI或者spike-ins兼容，取决于仪器的设计。

**多重测序（Multiplexed-sequencing）**

多重测序也是产生技术噪音的一个原因，因为它会导致不同细胞之间的reads数不在一个层次。使用标准化可以纠正不同细胞之间的测序深度影响([Vallejos et al.，2017](https://www.ncbi.nlm.nih.gov/pubmed/28504683))。可以利用CPM/TPM（counts/transcripts per million）进行校正。目前开发的方法，如Scran([Lun et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27081004))分析含有许多差异基因的数据集比较有优势，SCnorm([Bacher et al., 2017](https://www.biorxiv.org/content/early/2016/11/29/090167))可以解释测序深度对基因不同表达水平的影响。如果数据集中包含有spike-ins，它们可能就被用于标准化，在鉴定差异基因中具有高鲁棒性，并且可以保留由于总RNA含量不同而产生的差异(Buettner et al., 2015; Grün et al., 2014; Owens et al., 2016; Risso et al., 2014; Vallejos et al., 2015)。

## 3 关于高维度的处理

**维数的诅咒 curse of dimensionality**

虽然scRNA-seq结果汇总包括所有基因的信息，也非常有用，但是我们同时分析数千个基因在计算上困难很大。数据集中测量的总基因数称作"维数(dimensionality)"，对于哺乳动物通常有1万个维度左右。当在一个高维基因表达空间中比较细胞时，细胞间的距离变得更加均匀，使得区分群体间或者群体内的差异就非常难。

解决这个诅咒有两种方法：

首先，将数据投射到一个较低的二维空间(称作"降维")，低维空间一般由算法定义，既降低维度，又最大化保留原始数据的某些特征。因为投影过程不可避免会丢失基因信息，所以投影方法的选择涉及到一组特定属性的优先级排序。

其次，可以取出信息量少的基因(在机器学习中称为"特征选择")，同样也是减少分析中用到的维度数量。这样不仅利于可视化，还可以降低噪音、加快计算。下面是一些无监督降维的方法和特征选择。

### **3.1 降维**

**主成分分析 （PCA）**

它将数据投射到较少的独立的线性维度中，从而捕捉到可能的最大方差。PCA相对较快，当与稀疏的矩阵（比如单细胞的表达矩阵中就包括了许多的0）一起使用时，它可以扩展到非常大的数据集。缺点是PCA限于线性维数，并且假设数据接近正态分布。针对单细胞数据的大量0值，PCA的变体 zero-inflation算法被开发出来([Pierson and Yau, 2015](https://genomebiology.biomedcentral.com/articles/10.1186/s13059-015-0805-z)) ，但是这个模型可能不适用于所有的数据集([Andrews and Hemberg, 2016](http://dx.doi.org/10.1101/065094,))。2017年又有人开发了一个类似PCA的方法，它是基于零膨胀负二项分布模型（zero-inflated negative binomial model ）取代了高斯模型Risso et al. (2017)。

**t分布随机邻域嵌入（tSNE）**

它也是一种用于大型高维数据可视化的统计方法([Maaten et al., 2008](http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf))。它使用概率分布来估计嵌入的情况，tSNE将数据投射到各个孤立的簇中，实现细胞群的可视化。tSNE的缺点就是算法的随机性，即使应用于同一个数据集，也会产生不同的嵌入结果，不过这种差异比较小并且不显著。因此最佳的操作就是多次运行该算法，确保结果的完整性。另外，tSNE对"perplexity"参数的选择很敏感，需要多次运行才能找到合适的perplexity。该方法的作者建议仅用tSNE作为可视化方法，而不是降维的方法。

**Diffusion maps (DM)**

DM是一种非线性的投影方法，主要用于分析细胞的连续发展（[Moon et al., 2017](http://dx.doi.org/10.1101/120378); [Angerer et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/26668002); [Haghverdi et al., 2016](https://www.nature.com/articles/nmeth.3971)）。它是基于扩散过程的模型，将高维数据嵌入低维空间。它假设低维空间是平滑的，并且空间可以从细胞之间的距离推断得到。与tSNE不同，DM保留了点自身位置和与远端点位置的关系。因为它假设细胞是相对平滑的连续体，因此在大量的scRNA或RT-qPCR实验中表现良好(细胞数> 1000)，对于细胞数量较少或存在异质性很高的细胞群时效果不好（[Qiu et al., 2017](http://dx.doi.org/10.1101/110668)）。

### **3.2 特征选择**

**Michaelis-Menten modelling of dropouts (M3Drop)**

M3Drop利用dropout rate（丢失率：本来有表达量却没有测到）与平均表达量之间相对紧密的关系进行特征选择。高丢失率的基因可能在细胞亚群中出现差异表达，因此从拟合关系中识别离群点是一种有效地特征选择方法。该方法改进了聚类算法，允许批量校正结果（[Andrews and Hemberg, 2016](http://dx.doi.org/10.1101/065094)）。

**Highly variable genes (HVG)**

它基于这种假设：基因相当于平均表达值而言，出现的较大的差异是由于生物学影响，而不仅仅是技术噪音。这种方法试图通过权衡方差与平均表达量之间的关系来找到比预期差异性更高的基因。这种关系很难拟合，实际中基因是按照与移动中位数（moving median）的距离进行排序的([Kolodziejczyk et al., 2015](https://www.sciencedirect.com/science/article/pii/S193459091500418X))，或者使用另一种源自方差的统计量，比如：方差的平方系数([Brennecke et al. 2013](https://www.nature.com/articles/nmeth.2645))

**Spike-in based methods**

它使用与HVG或M3Drop类似的算法确定感兴趣的特征。利用来自spike-in RNAs的数据进行技术噪音建模，以确定基因表现出的丢失率或显著升高的方差。基于spike-in的方法包括：BASiCS([Vallejos et al., 2015](https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004333)) 、scLVM([Buettner et al., 2015](https://www.nature.com/articles/nbt.3102))。

**Correlated expression**

相关表达法是另一种识别生物学相关基因的方法，可以专门用于识别细胞群(Andrews and Hemberg, 2016)。两种细胞类型之间的差异表达基因之间是相互关联的。如果他们在同一种细胞类型都表达，那么相关系数就为正；如果在不同细胞类型中同时表达，那么相关系数为负。特征选择利用的就是相关性的大小或显著性。另一种方法如PAGODA([Fan et al., 2016](https://doi.org/10.1038/nmeth.3734))结合了HVG和PCA的加载信息，可以鉴别高度相关或者有共同功能注释的基因集

> 以上的方法处理高维数据时并不排斥，可以使用多种方法。总的来说，PCA、tSNE、DM等容易受到批次效应和技术噪音的影响，这种影响会掩盖数据内部结构([Finak et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26653891); [Hicks et al., 2015](http://dx.doi.org/10.1101/025528); Tung et al., 2017)。而降维之前进行特征选择进而去除一些生物意义较少的基因，可以减少批次和噪音的影响，例如：先进行spike-in based feature selection，再PCA（Liu et al., 2016; Tasic et al., 2016）；先HVG，后tSNE（Segerstolpe et al., 2016）；先HVG，后PCA+tSNE(Campbell et al., 2017)

## 4 非监督聚类鉴定细胞群

单细胞比较常用的用途是识别细胞群。从生物学角度看，细胞是有异质性的，一个细胞群通常包含不同的细胞亚群，例如大脑样本汇总的神经元和胶质细胞；另外还可以看同种细胞类型的不同状态，例如受刺激和为受刺激的T细胞。从数学角度看，对细胞群的从头识别是一个非监督聚类的问题。目前已经有几种成熟的方案应用到了单细胞中。

将大量细胞分成k个群的可能性多到不可想象，因此我们不能考虑所有的可能分群情况，而是应该寻求最优解。聚类的质量取决于群内与群间的相似性比较，不同的指标对数据的基础分部做不同的假设。比如："modularity"假设一个稀疏的图形结构，而计算k-means使用的数据到簇质心的距离就是假设数据中的圆形簇大致相同。将一种方法应用到和算法本身假设不同的数据上将导致错误的聚类，并且没有一种聚类方法具有普适性（[Wiwie et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/26389570)）。

### **K-means**

K-means是一种单细胞分析常用的聚类算法，一般在特征选择和降维后使用。它的计算比较快，将细胞迭代分配给最近的簇中心(或叫"质心centroid")，然后重新计算簇的质心。然而，K-means需要预先指定簇的数量，并为每个簇提供随机的起始位置，需要多次运行来检查这些参数的鲁棒性，这些结果可以再传递给SC3进行组合([Kiselev et al., 2017](https://www.repository.cam.ac.uk/handle/1810/264381))。K-means的一个缺点是：它先假设一个预先确定的等大小的圆簇数目，如果不符合假设，那么k-means就会沿着分化轨迹识别许多相邻的簇，将罕见的细胞与常见的细胞类型合并。当然，对于罕见的细胞群，可以结合k-means检测离群点(outlier)的方法，如RaceID(\[Grün et al., 2015]\([http://refhub.elsevier.com/S0098-2997(17)30049-3/sref37))，当不包含罕见细胞群时，RaceID表现较差。](http://refhub.elsevier.com/S0098-2997\(17\)30049-3/sref37\)\)%EF%BC%8C%E5%BD%93%E4%B8%8D%E5%8C%85%E5%90%AB%E7%BD%95%E8%A7%81%E7%BB%86%E8%83%9E%E7%BE%A4%E6%97%B6%EF%BC%8CRaceID%E8%A1%A8%E7%8E%B0%E8%BE%83%E5%B7%AE%E3%80%82)

### **Hierarchical clustering**

层次聚类是另一种常用的识别细胞群体常用方法。不同的层次聚类有不同的假设，比较常用的是"Ward"和"complete"，假设存在圆的和k-means大小一致的簇，不过层次聚类**比k-means要慢**。层次聚类的优点是可以做成树状图，因此可以确定不同[粒度](http://www.cnki.com.cn/Article/CJFDTotal-JSJX200208003.htm) 的聚类之间关系，然后在不同的高度"切割"树状图，可以生成不同数量的群体。对单细胞数据进行层次聚类的方法包括：pcaReduce([Zurauskiene\_ and Yau, 2016](https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-016-0984-y))，SINCERA([Guo et al., 2015](https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004575))，CIDR([Lin et al., 2017](https://genomebiology.biomedcentral.com/articles/10.1186/s13059-017-1188-0)) 。有研究将层次聚类拓展到了大脑神经元细胞类型（[Zeisel et al., 2015](https://www.ncbi.nlm.nih.gov/pubmed/25700174)）和胰腺中胰岛细胞类型分析([Baron et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27667365))，这类方法倾向于识别同种类型细胞群。

### **Density-based clustering**

基于密度的聚类方法将聚类定义为细胞密度较高的相邻区域。与层次聚类或者k-means聚类不同，它不假设簇有特定的性状或大小，而是通常假设所有簇是一样密集的，比如细胞群是同样均匀的。另外，密度必须用一个或多个参数来定义。设置密度的参数类似于k-means选择簇的数量，或者像层次聚类中选择树的切割位置。基于密度的聚类需要**大量的样本**来准确估计，因此更适用于droplet实验的数据、大型RT-qPCR实验或几千上万的细胞([Campbell et al., 2017](https://www.ncbi.nlm.nih.gov/pubmed/28166221); [Jiang et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27368803); Macosko et al., 2015)。主要方法是：DBSCAN([Ester et al., 1996](https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf))，它结合了Seurat包中的降维算法和GiniClust中的罕见细胞型特征选择算法。

### **Graph clustering**

图聚类，又叫"群体检测"，是基于密度聚类的一个拓展，专门用于以图形展示的数据，比如一组细胞用"边edges"相互连接。图可以轻松使用极小诊断假设(minimal assumptions) 表示复杂的非线性结构，因此可以识别不同大小、密度、形状的细胞群([Lancichinetti and Fortunato, 2009](https://link.aps.org/doi/10.1103/PhysRevE.80.056117))。另一个优势是可以拓展到数百万个细胞的聚类。

图中的密度可以根据连接一组细胞"edges"的数量测量，然后与零假设比较，例如：完全随机图或由一定程度控制的随机图中使用一个叫做"模量modularity"的度量。最常用的方法是：Louvain算法(Blondel et al., 2008; Lancichinetti and Fortunato, 2009)，在PhenoGraph (Levine et al., 2015) 和Seurat（V 1.4）中也使用。另外，密度可以通过图中的随机漫步" random walks"建模，并使用在每个细胞上建模消耗的时间来估计，这也是densityCut ([Ding et al., 2016](https://academic.oup.com/bioinformatics/article/31/13/2225/196315))的策略。另外一种估算密度的方法是使用每个细胞的k个最临近neibour之间的重叠，这在SNN-Cliq ([Xu and Su, 2015](https://www.ncbi.nlm.nih.gov/pubmed/25805722))被应用。主要的缺点就是：数据没有固定的图形结构。

### **总结**

聚类方法的一个关键选择因素就是要识别多少组，粗略聚类可以识别出少数非常不同的聚类，这些聚类与细胞类型可能相对应；而精细聚类可以识别大量但不明显的聚类，这些聚类可能对应不同细胞状态

大多的聚类算法需要我们预先定义个数(如k值)或者与聚类粗细相关的参数(如密度参数)，而选择合适的K值是比较麻烦的，因为没有一套标准的选择方法。

有许多样本，存在细胞类型和细胞状态的层次结构，可能都有研究价值。比如[2015年Zeisel](https://www.ncbi.nlm.nih.gov/pubmed/25700174)对大脑样本细胞进行聚类，粗略聚类发现9中细胞类型(从神经胶质等许多非神经元细胞类型中分离出神经元)，然后进行精细聚类发现神经元又分成了7个皮层特异性组

许多的聚类工具可以在[ASAP](https://github.com/DeplanckeLab/ASAP/blob/master/R_Python/clustering.R)中找到，它是一个web工具([Gardeux et al., 2016](http://dx.doi.org/10.1101/096222))

## 5 cluster的生物学鉴定

聚类容易解释难(相对来说)。首先，聚类算法有一种"启发式"效应，即使使用均匀分布的数据，他也能找到一些不同进行划分；另外，即使cluster有生物学效应而非噪音，它们依然可能没有细胞类型的差异。目前没有一个公认的标准去判断一个分析的细胞群真的是一类新型细胞。还有，利用转录差异来定义细胞类型比较困难(Buettner et al., 2015)，因为细胞状态(如细胞周期)的瞬时差异相比于细胞类型对转录组的影响更大。

### **5.1  计算角度**

为了避免多数聚类算法"启发式”的影响，为了评价细胞的重要程度，算法必须重新重复运行一个空模型，将结果与观察的结果比较。这个空模型数据集可以从观测数据中按一定的概率分布提取，也可以通过对每个基因的观测表达值进行独立的随机重排序得到。

为了确保得到一个质量比较好的聚类结果，可以对同一个数据集应用多个算法，并确保结果一致性，保证同一个数据不依赖于任何聚类方法自身的假设。此外，随机聚类方法如：k-means或Louvain maximum modularity，多次运行得到一致结果，比单独运行一次得到的结果更有说服力 (Goder and Filkov, 2008; Kiselev et al.,2017)。显著区分的cluster在不同的聚类算法结果中都是一样可以分开的，当然，如果clusters之间基本不分离，那么不同的算法结果差异也就比较大。

计算的方法主要是提高结果的可靠性，但真正要证明鉴定的细胞群是有生物学意义(如细胞类型和细胞状态是不是与特定的功能特征相关)，目前没有自动化的程序可以全部完成。

### **5.2 实验角度**

第一步通常是找差异表达基因，也就是能可靠区分两个或多个cluster的基因(又叫"**marker"基因**)，例如只有一个cluster高表达的基因就是marker。这里就需要利用功能注释、富集分析。得到的marker基因可以利用实验进行验证，例如：共表达的marker可以利用RT-qPCR、高通量测序或者细胞仪进行重复(Burns et al., 2015; Jaitin et al., 2014; Muraro et al., 2016; Tasic et al.,2016)。Marker基因可以用于分离细胞群进行培养和功能测定。Marker基因也可以用于小细胞群的原位成像，Burns等(2015)利用免疫荧光技术展示了不同细胞类型在内耳中的空间定位，免疫荧光也可用于确认细胞类型标记物的共表达或互斥表达(Tirosh et al.， 2016)。细胞类型的特异性标记可以使用FISH作为靶点，除了确定细胞类型在组织中的空间分布外，还可以验证它们的共同表达。Joost 采用免疫组织化学和单分子RNA-FISH方法，识别毛囊内不同假定细胞类型的空间位置，并分析了空间与分化相关的表达模式([Joost et al., 2016](https://www.ncbi.nlm.nih.gov/pubmed/27641957))。

验证cluster的另一种方法是比较不同物种的cluster（例如人和小鼠），从而确定cluster是否广泛保守，从而推断是否为真正的细胞类型。[Johnson等人(2015)](https://www.nature.com/articles/nn.3980)对人类、小鼠和雪貂的放射状胶质祖细胞种群进行了比较，结果发现了两种新的亚群，分别存在于人类和雪貂中，但在小鼠中却没有，通过对各自标记基因的比较基因组学发现，它们与哺乳动物的脑回畸形有关。

研究与特定细胞群相关的关键转录因子水平（增加或减少）可以辅助验证细胞群。[Olsson等人(2016)](https://www.nature.com/articles/nature19348)敲除了与不同的造血祖细胞有关Gfi1和Irf8，结果产生了不同的细胞类型，Gfi1的粒细胞祖细胞和Irf8的单细胞祖细胞。

> cluster的生物学验证是很有必要的，另外还可以提供关于新细胞群的特定功能或与疾病状态相关的有用信息

## 结论

确定新的或已知的细胞群可能仍然是未来scRNASeq实验的一个关键目标。然而，由于细胞数量和灵敏度之间的权衡，可能永远不会有仅有一个最优的scRNASeq实验平台。同样，对于降维、特征选择和无监督聚类，没有一种比较方法在所有情况下都是最优的。得到细胞分群以后，虽然利用现有的方法可以很容易地识别出新的细胞群，但这些发现必须通过外部数据或实验来验证，以确保它们具有生物学意义。
