4.6 实战六 | CEL-seq | 人胰腺细胞
刘小泽写于2020.7.20
1 前言
这次使用的数据是:Muraro et al. (2016) 中的不同人类供体的胰腺细胞,和上一次相比使用的是更早期的CEL-seq。整体操作和上次CEL-seq2类似
数据准备
library(scRNAseq)
sce.muraro <- MuraroPancreasData()
sce.muraro
# class: SingleCellExperiment
# dim: 19059 3072
# metadata(0):
# assays(1): counts
# rownames(19059): A1BG-AS1__chr19 A1BG__chr19 ...
# ZZEF1__chr17 ZZZ3__chr1
# rowData names(2): symbol chr
# colnames(3072): D28-1_1 D28-1_2 ... D30-8_95
# D30-8_96
# colData names(3): label donor plate
# reducedDimNames(0):
# altExpNames(1): ERCC这次有4个供体
不过这个基因命名很奇怪,它全部加上了染色体编号
ID转换
选择的方式是:将没有匹配的NA去掉,并且去掉重复的行
由于基因名很奇怪,所以需要把__chr及后面的去掉
2 质控
依然是备份一下,把unfiltered数据主要用在质控的探索上
和上一次一样,如果只是针对ERCC和全部的批次进行质控,结果是

很明显,这个D28个捣鬼,钻了我们“大部分细胞都是高质量”的假设漏洞
因此,在过滤时不能考虑这个D28

看看过滤掉多少
最后把过滤条件应用在原数据
3 归一化
继续使用去卷积方法
4 找表达量高变化基因
再看一眼数据,发现其中有plate和donor信息,它们都是与批次相关的
因此就把这二者结合作为批次信息,依然是使用针对ERCC的构建模型方法
5 矫正批次效应
6 降维+聚类
降维
聚类
如果想看一下这里的分群和之前的批次之间的关系:

Tip:如果感觉批次或分群数量太多,看着效果不好,可以用热图的形式展示:

最后检查一下供体的批次效应

最后更新于
这有帮助吗?