4.10 实战十 | CEL-seq | 小鼠造血干细胞

刘小泽写于2020.7.21

1 前言

数据来自Grun et al. 2016的小鼠造血干细胞 haematopoietic stem cell (HSC) ,使用的技术是CEL-seq

数据准备

library(scRNAseq)
sce.grun.hsc <- GrunHSCData(ensembl=TRUE)
sce.grun.hsc
# class: SingleCellExperiment 
# dim: 21817 1915 
# metadata(0):
#   assays(1): counts
# rownames(21817): ENSMUSG00000109644
# ENSMUSG00000007777 ... ENSMUSG00000055670
# ENSMUSG00000039068
# rowData names(3): symbol chr originalName
# colnames(1915): JC4_349_HSC_FE_S13_
# JC4_350_HSC_FE_S13_ ...
# JC48P6_1203_HSC_FE_S8_
# JC48P6_1204_HSC_FE_S8_
# colData names(2): sample protocol
# reducedDimNames(0):
#   altExpNames(0):

table(sce.grun.hsc$sample)
# 
# JC20   JC21   JC26   JC27   JC28   JC30   JC32 
# 87     96     85     91     80     96     93 
# JC35   JC36   JC37   JC39    JC4   JC40   JC41 
# 96     80     87     93     84     96     94 
# JC43   JC44   JC45   JC46 JC48P4 JC48P6 JC48P7 
# 92     94     90     96     95     96     94

ID转换

2 质控

依然是备份一下,把unfiltered数据主要用在质控的探索上

发现这个数据既没有MT也没有ERCC

能用的数据只有其中的protocol了,它表示细胞提取方法

根据背景知识,大部分显微操作(micro-dissected)得到的细胞很多质量都较低,和我们的质控假设相违背,于是这里就不把它们纳入过滤条件

做个图看看

可以看到,大多数的显微操作技术得到的细胞文库都比较小,相比于细胞分选方法,它在提取过程中对细胞损伤较大

3 归一化

使用去卷积方法

4 找表达量高变化基因

这里没有指定任何的批次,因为想保留这两种技术产生的任何差异

做个图

看到这个线有点“太平缓”,和之前见过的都不一样,感觉“中间少了一个峰”。这是因为细胞中的基因表达量都比较低,差别也不大【大家一起贫穷,于是贫富差距很小】,所以大部分细胞在纵坐标(衡量变化的方差)上体现不出来差距,也就导致了拟合的曲线不会有“峰”

可能会想,那为什么不是大家表达量都很高呢(大家都很富有,贫富差距不是也很小吗)?因为横坐标可以看到,从0-3.5,这个范围对于表达量来说确实很小,之前做的图有的都大于10、15

5 降维聚类

降维就采取最基础的方式:

聚类

作图

由于没有去除两个技术批次的差异,所以这里分的很开

6 找marker基因

检查一下cluster6的marker基因

看到溶菌酶相关基因(LYZ家族)、Camp、 Lcn2、 Ltf 都上调,表明cluster6可能是神经元起源细胞

最后更新于

这有帮助吗?