# 2.3.3 算法 | 2021-单细胞差异分析方法评测

## 前言

题目：Confronting false discoveries in single-cell differential expression

日期：2021-09-28

期刊：Nature Communications

链接：<https://www.nature.com/articles/s41467-021-25960-2>

## 一句话概括

使用18个已发表的“金标准”数据集，评测了14个目前常用的差异分析方法，pseudobulks方法要优于single-cell分析方法，指出现在的很多发表的差异分析方法是错误的，会有太多的假阳性

> Our findings suggest that many published findings **may be false.**

## 图1：系统性评测

目的就是看差异分析方法能不能得到最接近生物学差异的结果，因此作者使用了真实实验得到的数据，而不是模拟的数据。

作者选择数据的标准是：对相同类型的细胞群，使用bulk 和scRNA-seq都可以获得近似的生物结论，两种测序方法进行的处理相同，测序的环境相同

在最近的500篇文献中，有近90%的文献采用了其中的方法（图b）。为了比较每个方法对bulk、scRNA处理的一致性，测定了area under the concordance curve (AUCC) ，其中前6个（也就是常见的edgeR、DESeq2、limma）一致性最好（图c）。它们的逻辑是：先把生物重复的样本整合，形成“**pseudobulks**”，再进行统计分析，而不是直接进行单个细胞间的比较，这两种逻辑的方法差异还是很明显的（图d）。

> 简单理解，pseudobulks就是一群vs一群，而single-cell方法就是一个vs一个

既然两种逻辑有差异，那么对后面的生物学功能解释影响大吗？发现也是pseudobulks方法得到的差异基因更贴合真正的生物学通路（图e），比如f这个通路基因在single-cell检验方法中就没有得到

![image-20211016122128234](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-042129.png)

## 图2：single-cell的方法对高表达基因存在bias

目的是看为什么pseudobulks方法要优于single-cell

图a可以看到，single-cell方法拿到的每个细胞表达量都不高，并且很离散（存在很多0表达量），而pseudobulks进行了一步整合，就大大减少了0表达量的情况（即使某些基因表达量本身就比较低）。所以作者怀疑是基因表达量低，导致single-cell方法不准确。

接下来，作者将基因按照表达量分成了三等份（高中低），然后用和图1一样的AUCC方法测了每一份中bulk 和scRNA-seq一致性。**出乎意料，和作者想的相反，表达量低的那组，不同方法结果一致性却是最好的**，而表达量高，导致了不同方法结果的一致性下降！（图b）

那么作者又问了：为什么表达量高，却成了single-cell方法的制约因素呢？

作者又基于bulk数据集，找到scRNA数据集中的那些假阳性”差异“基因，而这些被认为是差异基因的”假差异“基因，在single-cell方法中更多是高表达的（图c）；接着基于定量的spike-in数据，使用single-cell方法进行鉴定，发现很多高表达的spike-in被误认为是差异基因，相比之下pseudobulk方法没有这个bias（d、e）

作者又想，这个bias是广泛存在的，还是只在这几个数据集呢？

又使用了不同物种、不同细胞类型、不同技术、不同处理的46个scRNA数据集合，发现确实single-cell的bias是广泛存在（f）

![image-20211016133844203](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-053844.png)

## 图3：single-cell数据的差异分析必须考虑生物重复

目的是看看pseudobulk方法为什么好。

pseudobulk原理是两步走，先进行生物重复的整合。那么这里作者想：如果我先不整合，直接对每个细胞进行接下来的统计分析，效果如何呢？（a就是把原本的生物重复给打散，就是原本不同处理的样本也被随机组合成”生物重复“）

发现效果大打折扣，甚至不如single-cell方法（图b中灰色是不整合，红色是整合）

所以作者想：整合这一步至关重要啊！那么具体怎么整合，这个重要吗？

于是又进行了随机整合生物重复，效果也不理想，所以整合的顺序也是至关重要。

> failing to account for biological replicates causes single-cell methods to systematically underestimate the variance of gene expression

![image-20211016140254381](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-060254.png)

## 生物重复之间的波动也会影响差异分析结果

有几点重要的结论：

* variability between biological replicates can **confound** the identification of genes affected by a biological perturbation
* Many of the factors that produce this variability between replicates can be **minimized** in animal models, including the genetic background, environment, intensity and timing of the biological perturbation, and sample processing.
* 人和小鼠的scRNA数据对比，人的生物学重复波动要更大，因此解决单细胞组织差异性，对于差异分析至关重要

<br>
