2.3.3 算法 | 2021-单细胞差异分析方法评测

刘小泽写于2021.10.16

前言

题目:Confronting false discoveries in single-cell differential expression

日期:2021-09-28

期刊:Nature Communications

链接:https://www.nature.com/articles/s41467-021-25960-2

一句话概括

使用18个已发表的“金标准”数据集,评测了14个目前常用的差异分析方法,pseudobulks方法要优于single-cell分析方法,指出现在的很多发表的差异分析方法是错误的,会有太多的假阳性

Our findings suggest that many published findings may be false.

图1:系统性评测

目的就是看差异分析方法能不能得到最接近生物学差异的结果,因此作者使用了真实实验得到的数据,而不是模拟的数据。

作者选择数据的标准是:对相同类型的细胞群,使用bulk 和scRNA-seq都可以获得近似的生物结论,两种测序方法进行的处理相同,测序的环境相同

在最近的500篇文献中,有近90%的文献采用了其中的方法(图b)。为了比较每个方法对bulk、scRNA处理的一致性,测定了area under the concordance curve (AUCC) ,其中前6个(也就是常见的edgeR、DESeq2、limma)一致性最好(图c)。它们的逻辑是:先把生物重复的样本整合,形成“pseudobulks”,再进行统计分析,而不是直接进行单个细胞间的比较,这两种逻辑的方法差异还是很明显的(图d)。

简单理解,pseudobulks就是一群vs一群,而single-cell方法就是一个vs一个

既然两种逻辑有差异,那么对后面的生物学功能解释影响大吗?发现也是pseudobulks方法得到的差异基因更贴合真正的生物学通路(图e),比如f这个通路基因在single-cell检验方法中就没有得到

图2:single-cell的方法对高表达基因存在bias

目的是看为什么pseudobulks方法要优于single-cell

图a可以看到,single-cell方法拿到的每个细胞表达量都不高,并且很离散(存在很多0表达量),而pseudobulks进行了一步整合,就大大减少了0表达量的情况(即使某些基因表达量本身就比较低)。所以作者怀疑是基因表达量低,导致single-cell方法不准确。

接下来,作者将基因按照表达量分成了三等份(高中低),然后用和图1一样的AUCC方法测了每一份中bulk 和scRNA-seq一致性。出乎意料,和作者想的相反,表达量低的那组,不同方法结果一致性却是最好的,而表达量高,导致了不同方法结果的一致性下降!(图b)

那么作者又问了:为什么表达量高,却成了single-cell方法的制约因素呢?

作者又基于bulk数据集,找到scRNA数据集中的那些假阳性”差异“基因,而这些被认为是差异基因的”假差异“基因,在single-cell方法中更多是高表达的(图c);接着基于定量的spike-in数据,使用single-cell方法进行鉴定,发现很多高表达的spike-in被误认为是差异基因,相比之下pseudobulk方法没有这个bias(d、e)

作者又想,这个bias是广泛存在的,还是只在这几个数据集呢?

又使用了不同物种、不同细胞类型、不同技术、不同处理的46个scRNA数据集合,发现确实single-cell的bias是广泛存在(f)

图3:single-cell数据的差异分析必须考虑生物重复

目的是看看pseudobulk方法为什么好。

pseudobulk原理是两步走,先进行生物重复的整合。那么这里作者想:如果我先不整合,直接对每个细胞进行接下来的统计分析,效果如何呢?(a就是把原本的生物重复给打散,就是原本不同处理的样本也被随机组合成”生物重复“)

发现效果大打折扣,甚至不如single-cell方法(图b中灰色是不整合,红色是整合)

所以作者想:整合这一步至关重要啊!那么具体怎么整合,这个重要吗?

于是又进行了随机整合生物重复,效果也不理想,所以整合的顺序也是至关重要。

failing to account for biological replicates causes single-cell methods to systematically underestimate the variance of gene expression

生物重复之间的波动也会影响差异分析结果

有几点重要的结论:

  • variability between biological replicates can confound the identification of genes affected by a biological perturbation

  • Many of the factors that produce this variability between replicates can be minimized in animal models, including the genetic background, environment, intensity and timing of the biological perturbation, and sample processing.

  • 人和小鼠的scRNA数据对比,人的生物学重复波动要更大,因此解决单细胞组织差异性,对于差异分析至关重要

最后更新于