单细胞交响乐
  • 前言:我与《单细胞交响乐》的缘分
  • 1 准备篇:背景知识
    • 1.1 数据结构
    • 1.2 总览 | 从实验到分析
  • 2 积累篇:文献阅读
    • 2.1.1 综述 | 2019-单细胞转录组分析最佳思路
    • 2.1.2 综述 | 2018-单细胞捕获平台
    • 2.1.3 综述 | 2017-scRNA中的细胞聚类分群
    • 2.1.4 综述 | scRNA已经开发出超过1000款工具了,你用过几种?
    • 2.1.5 综述 | 2021-单细胞测序的微流控技术应用
    • 2.2.1 研究 | 2018-单细胞转录组探索癌症免疫治疗获得性抗性机理
    • 2.2.2 研究 | 2018-人类结直肠癌单细胞多组学分析
    • 2.2.3 研究 | 2020-单细胞分析揭示葡萄膜黑色素瘤新的进化复杂性
    • 2.2.4 研究 | 2020-COVID-19病人支气管免疫细胞单细胞测序分析
    • 2.2.5 研究 | 2020-原汁原味读--单细胞肿瘤免疫图谱
    • 2.2.6 研究 | 2021-多发性骨髓瘤发展过程中肿瘤和免疫细胞的共同进化
    • 2.2.7 研究 | 2021-多个组织的成纤维细胞图谱
    • 2.2.8 研究 | 2021-多组学分析肺结核队列的记忆T细胞状态
    • 2.2.9 研究 | 2021-CancerSCEM: 人类癌症单细胞表达图谱数据库
    • 2.2.10 研究| 2021-单细胞转录组分析COVID-19重症患者肺泡巨噬细胞亚型
    • 2.2.11 研究 |2021-单细胞转录组揭示肺腺癌特有的肿瘤微环境
    • 2.2.12 研究 | 2021-单细胞转录组揭示乳头状甲状腺癌起始与发展
    • 2.2.13 研究 | 2021-解析食管鳞癌化疗病人的单细胞转录组
    • 2.2.14 研究 | 2021-单细胞水平看骨髓瘤的细胞状态和基因调控
    • 2.3.1 算法|2020-BatchBench比较scRNA批次矫正方法
    • 2.3.2 算法 | 2021-scPhere——用地球仪来展示降维结果
    • 2.3.3 算法 | 2021-单细胞差异分析方法评测
    • 2.3.4 算法 | 2021-细胞分群新方法——CNA(co-varying neighborhood analysis)
    • 2.3.5 工具 | 2018-iSEE:单细胞数据可视化辅助网页工具
    • 2.3.6 工具 | 2021-MACA: 一款自动注释细胞类型的工具
    • 2.3.7 工具 | 2021-一个很有想法的工具——Ikarus,想要在单细胞水平直接鉴定肿瘤细胞
  • 3 流程篇:分析框架
    • 3.1 质控
    • 3.2 归一化
    • 3.3 挑选表达量高变化基因
    • 3.4 降维
    • 3.5 聚类
    • 3.6 Marker/标记基因检测
    • 3.7 细胞类型注释
    • 3.8 批次效应处理
    • 3.9 多样本间差异分析
    • 3.10 检测Doublet
    • 3.11 细胞周期推断
    • 3.12 细胞轨迹推断
    • 3.13 与蛋白丰度信息结合
    • 3.14 处理大型数据
    • 3.15 不同R包数据的相互转换
  • 4 实战篇:活学活用
    • 4.1 实战一 | Smart-seq2 | 小鼠骨髓
    • 4.2 实战二 | STRT-Seq | 小鼠大脑
    • 4.3 实战三 | 10X | 未过滤的PBMC
    • 4.4 实战四 | 10X | 过滤后的PBMC
    • 4.5 实战五 | CEL-seq2 | 人胰腺细胞
    • 4.6 实战六 | CEL-seq | 人胰腺细胞
    • 4.7 实战七 | SMARTer | 人胰腺细胞
    • 4.8 实战八 | Smart-seq2 | 人胰腺细胞
    • 4.9 实战九 | 不同技术数据整合 | 人胰腺细胞
    • 4.10 实战十 | CEL-seq | 小鼠造血干细胞
    • 4.11 实战十一 | Smart-seq2 | 小鼠造血干细胞
    • 4.12 实战十二 | 10X | 小鼠嵌合体胚胎
    • 4.13 实战十三 | 10X | 小鼠乳腺上皮细胞
    • 4.14 | 实战十四 | 10X | HCA计划的38万骨髓细胞
  • 5 补充篇:开拓思路
    • 5.1 10X Genomics概述
      • 5.1.1 10X Genomics 问题集锦
    • 5.2 CellRanger篇
      • 5.2.1 CellRanger实战(一)数据下载
      • 5.2.2 CellRanger实战(二) 使用前注意事项
      • 5.2.3 CellRanger实战(三) 使用初探
      • 5.2.4 CellRanger实战(四)流程概览
      • 5.2.5 CellRanger实战(五) 理解count输出的结果
    • 5.3 Seurat的使用
      • 5.3.1 Seurat V3 | 实战之2700 PBMCs分析
      • 5.3.2 Seurat V3 | 如何改造Seurat包的DoHeatmap函数?
      • 5.3.3 scRNA的3大R包对比
      • 5.3.4 Seurat两种数据比较:integrated vs RNA assay
      • 5.3.5 seurat 的几种findmaker比较
    • 5.4 Monocle的使用
      • 5.4.1 Monocle V3实战
    • 5.5 多个数据集的整合
      • 5.5.1 使用Seurat的merge功能进行整合
      • 5.5.2 如何使用sctransform去除批次效应
由 GitBook 提供支持
在本页
  • 前言
  • 一句话概括
  • 图1:系统性评测
  • 图2:single-cell的方法对高表达基因存在bias
  • 图3:single-cell数据的差异分析必须考虑生物重复
  • 生物重复之间的波动也会影响差异分析结果

这有帮助吗?

  1. 2 积累篇:文献阅读

2.3.3 算法 | 2021-单细胞差异分析方法评测

刘小泽写于2021.10.16

上一页2.3.2 算法 | 2021-scPhere——用地球仪来展示降维结果下一页2.3.4 算法 | 2021-细胞分群新方法——CNA(co-varying neighborhood analysis)

最后更新于3年前

这有帮助吗?

前言

题目:Confronting false discoveries in single-cell differential expression

日期:2021-09-28

期刊:Nature Communications

链接:

一句话概括

使用18个已发表的“金标准”数据集,评测了14个目前常用的差异分析方法,pseudobulks方法要优于single-cell分析方法,指出现在的很多发表的差异分析方法是错误的,会有太多的假阳性

Our findings suggest that many published findings may be false.

图1:系统性评测

目的就是看差异分析方法能不能得到最接近生物学差异的结果,因此作者使用了真实实验得到的数据,而不是模拟的数据。

作者选择数据的标准是:对相同类型的细胞群,使用bulk 和scRNA-seq都可以获得近似的生物结论,两种测序方法进行的处理相同,测序的环境相同

在最近的500篇文献中,有近90%的文献采用了其中的方法(图b)。为了比较每个方法对bulk、scRNA处理的一致性,测定了area under the concordance curve (AUCC) ,其中前6个(也就是常见的edgeR、DESeq2、limma)一致性最好(图c)。它们的逻辑是:先把生物重复的样本整合,形成“pseudobulks”,再进行统计分析,而不是直接进行单个细胞间的比较,这两种逻辑的方法差异还是很明显的(图d)。

简单理解,pseudobulks就是一群vs一群,而single-cell方法就是一个vs一个

既然两种逻辑有差异,那么对后面的生物学功能解释影响大吗?发现也是pseudobulks方法得到的差异基因更贴合真正的生物学通路(图e),比如f这个通路基因在single-cell检验方法中就没有得到

图2:single-cell的方法对高表达基因存在bias

目的是看为什么pseudobulks方法要优于single-cell

图a可以看到,single-cell方法拿到的每个细胞表达量都不高,并且很离散(存在很多0表达量),而pseudobulks进行了一步整合,就大大减少了0表达量的情况(即使某些基因表达量本身就比较低)。所以作者怀疑是基因表达量低,导致single-cell方法不准确。

接下来,作者将基因按照表达量分成了三等份(高中低),然后用和图1一样的AUCC方法测了每一份中bulk 和scRNA-seq一致性。出乎意料,和作者想的相反,表达量低的那组,不同方法结果一致性却是最好的,而表达量高,导致了不同方法结果的一致性下降!(图b)

那么作者又问了:为什么表达量高,却成了single-cell方法的制约因素呢?

作者又基于bulk数据集,找到scRNA数据集中的那些假阳性”差异“基因,而这些被认为是差异基因的”假差异“基因,在single-cell方法中更多是高表达的(图c);接着基于定量的spike-in数据,使用single-cell方法进行鉴定,发现很多高表达的spike-in被误认为是差异基因,相比之下pseudobulk方法没有这个bias(d、e)

作者又想,这个bias是广泛存在的,还是只在这几个数据集呢?

又使用了不同物种、不同细胞类型、不同技术、不同处理的46个scRNA数据集合,发现确实single-cell的bias是广泛存在(f)

图3:single-cell数据的差异分析必须考虑生物重复

目的是看看pseudobulk方法为什么好。

pseudobulk原理是两步走,先进行生物重复的整合。那么这里作者想:如果我先不整合,直接对每个细胞进行接下来的统计分析,效果如何呢?(a就是把原本的生物重复给打散,就是原本不同处理的样本也被随机组合成”生物重复“)

发现效果大打折扣,甚至不如single-cell方法(图b中灰色是不整合,红色是整合)

所以作者想:整合这一步至关重要啊!那么具体怎么整合,这个重要吗?

于是又进行了随机整合生物重复,效果也不理想,所以整合的顺序也是至关重要。

failing to account for biological replicates causes single-cell methods to systematically underestimate the variance of gene expression

生物重复之间的波动也会影响差异分析结果

有几点重要的结论:

  • variability between biological replicates can confound the identification of genes affected by a biological perturbation

  • Many of the factors that produce this variability between replicates can be minimized in animal models, including the genetic background, environment, intensity and timing of the biological perturbation, and sample processing.

  • 人和小鼠的scRNA数据对比,人的生物学重复波动要更大,因此解决单细胞组织差异性,对于差异分析至关重要

https://www.nature.com/articles/s41467-021-25960-2
image-20211016122128234
image-20211016140254381
image-20211016133844203