4.6 实战六 | CEL-seq | 人胰腺细胞

刘小泽写于2020.7.20

1 前言

这次使用的数据是:Muraro et al. (2016) 中的不同人类供体的胰腺细胞,和上一次相比使用的是更早期的CEL-seq。整体操作和上次CEL-seq2类似

数据准备

library(scRNAseq)
sce.muraro <- MuraroPancreasData()
sce.muraro
# class: SingleCellExperiment 
# dim: 19059 3072 
# metadata(0):
#   assays(1): counts
# rownames(19059): A1BG-AS1__chr19 A1BG__chr19 ...
# ZZEF1__chr17 ZZZ3__chr1
# rowData names(2): symbol chr
# colnames(3072): D28-1_1 D28-1_2 ... D30-8_95
# D30-8_96
# colData names(3): label donor plate
# reducedDimNames(0):
#   altExpNames(1): ERCC

这次有4个供体

不过这个基因命名很奇怪,它全部加上了染色体编号

ID转换

选择的方式是:将没有匹配的NA去掉,并且去掉重复的行

由于基因名很奇怪,所以需要把__chr及后面的去掉

2 质控

依然是备份一下,把unfiltered数据主要用在质控的探索上

和上一次一样,如果只是针对ERCC和全部的批次进行质控,结果是

很明显,这个D28个捣鬼,钻了我们“大部分细胞都是高质量”的假设漏洞

因此,在过滤时不能考虑这个D28

看看过滤掉多少

最后把过滤条件应用在原数据

3 归一化

继续使用去卷积方法

4 找表达量高变化基因

再看一眼数据,发现其中有plate和donor信息,它们都是与批次相关的

因此就把这二者结合作为批次信息,依然是使用针对ERCC的构建模型方法

5 矫正批次效应

6 降维+聚类

降维

聚类

如果想看一下这里的分群和之前的批次之间的关系:

Tip:如果感觉批次或分群数量太多,看着效果不好,可以用热图的形式展示:

最后检查一下供体的批次效应

最后更新于

这有帮助吗?