单细胞交响乐
  • 前言:我与《单细胞交响乐》的缘分
  • 1 准备篇:背景知识
    • 1.1 数据结构
    • 1.2 总览 | 从实验到分析
  • 2 积累篇:文献阅读
    • 2.1.1 综述 | 2019-单细胞转录组分析最佳思路
    • 2.1.2 综述 | 2018-单细胞捕获平台
    • 2.1.3 综述 | 2017-scRNA中的细胞聚类分群
    • 2.1.4 综述 | scRNA已经开发出超过1000款工具了,你用过几种?
    • 2.1.5 综述 | 2021-单细胞测序的微流控技术应用
    • 2.2.1 研究 | 2018-单细胞转录组探索癌症免疫治疗获得性抗性机理
    • 2.2.2 研究 | 2018-人类结直肠癌单细胞多组学分析
    • 2.2.3 研究 | 2020-单细胞分析揭示葡萄膜黑色素瘤新的进化复杂性
    • 2.2.4 研究 | 2020-COVID-19病人支气管免疫细胞单细胞测序分析
    • 2.2.5 研究 | 2020-原汁原味读--单细胞肿瘤免疫图谱
    • 2.2.6 研究 | 2021-多发性骨髓瘤发展过程中肿瘤和免疫细胞的共同进化
    • 2.2.7 研究 | 2021-多个组织的成纤维细胞图谱
    • 2.2.8 研究 | 2021-多组学分析肺结核队列的记忆T细胞状态
    • 2.2.9 研究 | 2021-CancerSCEM: 人类癌症单细胞表达图谱数据库
    • 2.2.10 研究| 2021-单细胞转录组分析COVID-19重症患者肺泡巨噬细胞亚型
    • 2.2.11 研究 |2021-单细胞转录组揭示肺腺癌特有的肿瘤微环境
    • 2.2.12 研究 | 2021-单细胞转录组揭示乳头状甲状腺癌起始与发展
    • 2.2.13 研究 | 2021-解析食管鳞癌化疗病人的单细胞转录组
    • 2.2.14 研究 | 2021-单细胞水平看骨髓瘤的细胞状态和基因调控
    • 2.3.1 算法|2020-BatchBench比较scRNA批次矫正方法
    • 2.3.2 算法 | 2021-scPhere——用地球仪来展示降维结果
    • 2.3.3 算法 | 2021-单细胞差异分析方法评测
    • 2.3.4 算法 | 2021-细胞分群新方法——CNA(co-varying neighborhood analysis)
    • 2.3.5 工具 | 2018-iSEE:单细胞数据可视化辅助网页工具
    • 2.3.6 工具 | 2021-MACA: 一款自动注释细胞类型的工具
    • 2.3.7 工具 | 2021-一个很有想法的工具——Ikarus,想要在单细胞水平直接鉴定肿瘤细胞
  • 3 流程篇:分析框架
    • 3.1 质控
    • 3.2 归一化
    • 3.3 挑选表达量高变化基因
    • 3.4 降维
    • 3.5 聚类
    • 3.6 Marker/标记基因检测
    • 3.7 细胞类型注释
    • 3.8 批次效应处理
    • 3.9 多样本间差异分析
    • 3.10 检测Doublet
    • 3.11 细胞周期推断
    • 3.12 细胞轨迹推断
    • 3.13 与蛋白丰度信息结合
    • 3.14 处理大型数据
    • 3.15 不同R包数据的相互转换
  • 4 实战篇:活学活用
    • 4.1 实战一 | Smart-seq2 | 小鼠骨髓
    • 4.2 实战二 | STRT-Seq | 小鼠大脑
    • 4.3 实战三 | 10X | 未过滤的PBMC
    • 4.4 实战四 | 10X | 过滤后的PBMC
    • 4.5 实战五 | CEL-seq2 | 人胰腺细胞
    • 4.6 实战六 | CEL-seq | 人胰腺细胞
    • 4.7 实战七 | SMARTer | 人胰腺细胞
    • 4.8 实战八 | Smart-seq2 | 人胰腺细胞
    • 4.9 实战九 | 不同技术数据整合 | 人胰腺细胞
    • 4.10 实战十 | CEL-seq | 小鼠造血干细胞
    • 4.11 实战十一 | Smart-seq2 | 小鼠造血干细胞
    • 4.12 实战十二 | 10X | 小鼠嵌合体胚胎
    • 4.13 实战十三 | 10X | 小鼠乳腺上皮细胞
    • 4.14 | 实战十四 | 10X | HCA计划的38万骨髓细胞
  • 5 补充篇:开拓思路
    • 5.1 10X Genomics概述
      • 5.1.1 10X Genomics 问题集锦
    • 5.2 CellRanger篇
      • 5.2.1 CellRanger实战(一)数据下载
      • 5.2.2 CellRanger实战(二) 使用前注意事项
      • 5.2.3 CellRanger实战(三) 使用初探
      • 5.2.4 CellRanger实战(四)流程概览
      • 5.2.5 CellRanger实战(五) 理解count输出的结果
    • 5.3 Seurat的使用
      • 5.3.1 Seurat V3 | 实战之2700 PBMCs分析
      • 5.3.2 Seurat V3 | 如何改造Seurat包的DoHeatmap函数?
      • 5.3.3 scRNA的3大R包对比
      • 5.3.4 Seurat两种数据比较:integrated vs RNA assay
      • 5.3.5 seurat 的几种findmaker比较
    • 5.4 Monocle的使用
      • 5.4.1 Monocle V3实战
    • 5.5 多个数据集的整合
      • 5.5.1 使用Seurat的merge功能进行整合
      • 5.5.2 如何使用sctransform去除批次效应
由 GitBook 提供支持
在本页
  • 速览
  • 摘要
  • 首先看一下工具的模型
  • 用小型和大型数据集比较不同的降维方法
  • 测试scPhere的批次效应处理性能
  • 用scPhere帮助轨迹推断
  • 总结

这有帮助吗?

  1. 2 积累篇:文献阅读

2.3.2 算法 | 2021-scPhere——用地球仪来展示降维结果

刘小泽写于2021.5.25

上一页2.3.1 算法|2020-BatchBench比较scRNA批次矫正方法下一页2.3.3 算法 | 2021-单细胞差异分析方法评测

最后更新于3年前

这有帮助吗?

常见的降维是把细胞落在2维空间平面图,这个工具比照地球仪进行细胞的降维

速览

  • 作者:Jiarui Ding & Aviv Regev(通讯作者大家都熟知),来自Klarman Cell Observatory, Broad Institute of MIT and Harvard, Cambridge, MA, USA

  • 链接:

  • 发表在:Nature Communications

  • 日期:2021-05-05

  • 项目地址:

摘要

  • scRNA数据分析中,降维是非常重要的一步,用来解释各个细胞之间的亲疏远近,但目前的降维方案经常受到技术误差的影响,引起和真实生物差异的混淆

  • 开发的scPhere(读作:sphere)可以在降维过程中区分出多层次复杂的批次效应,尤其对大型数据来说,结果不会把细胞们都堆在一起以至于看不出分化轨迹和细胞分群

    文章是这么定义这个工具的: scPhere, a scalable deep generative model to embed cells into low-dimensional hyperspherical or hyperbolic spaces to accurately represent scRNA-seq data

  • 利用了9个大型数据集(包括病人、正在发育的动物)进行验证

首先看一下工具的模型

  • 把scRNA的表达量和多个维度的批次信息读进来,批次信息包括了技术和生物两方面(比如不同的病人、疾病类型),在有批次效应的情况下,学习细胞潜在的数据结构

  • 学习得到的模型可以被用来:(1)找某个生物因素(如疾病)对表达量的影响;(2)得到一个不受批次效应影响的参考数据,然后把新的数据集去和它比较;(3)看看细胞的空间分布

用小型和大型数据集比较不同的降维方法

采用的数据集是:

  • “small” datasets were: (1) a blood cell dataset with only 10 erythroid cell profiles and 2293 CD14+ monocytes; (2) 3314 human lung cells, (3) 1378 mouse white adipose tissue stromal cells, and (4) 1755 human splenic nature killer cells spanning four subtypes

  • “large” datasets were: (1) 35,699 retinal ganglion cells in 45 cell subsets; and (2) 599,926 cells spanning 102 subsets across 59 human tissues in the Human Cell Landscape

比较对象是:t-SNE, UMAP, and PHATE

图中上面8张是小数据集,下面8张是大型数据集

  • 对小数据集来讲,t-SNE, UMAP, and PHATE的降维结果都还不错,都基本没有批次效应

  • 当切换到大型数据集,scPhere的优势就体现出来了:保证了数据全局的层级结构,能将同属一个大群的不同亚群聚在一起

  • 当数据量增大,t-SNE的图变得越来越”臃肿“,在2D图中,即使是非常不同的细胞类型,也会被”挤“得非常近(图k);而UMAP中多个cluster出现混乱的情况(图I)

  • 当然,PHATE对大型数据集的处理结果不理想

测试scPhere的批次效应处理性能

大部分的批次效应处理工具只能处理单个的批次信息,而scPhere的特性是能结合多个批次信息进行学习

测试数据集:301,749 cells we previously profiled in a complex experimental design from the colon mucosa of 18 patients with ulcerative colitis (UC 溃疡性结肠炎), a major type of inflammatory bowel diseases (IBD 发炎性肠症), and 12 healthy individuals

其中除了病人这个批次信息,还有:

  • individuals were either healthy or with UC

  • cells were collected separately from the epithelial

  • lamina propria fractions of each biopsy

  • two replicate biopsies for each healthy individual

  • samples were collected at two time periods, separated by over a year

比较工具:Harmony, LIGER, and Seurat3 CCA(因为后两个只能处理一个批次信息,就选取了不同的人作为批次)

得到结论:scPhere’s batch correction on this complex dataset (30 patients with disease and location factors) performed better than Harmony, Seurat3 CCA, and LIGER based on classification accuracies of cell types for stromal, epithelial, and immune cells

图n和o都是scPhere的两个展示方式,分别是Embedding和Equal Earth map projection,对300,000个stromal, epithelial, and immune cells进行降维。其中还加入了是否患病、疾病类型、患病位点作为批次信息。

图p、q是利用Harmony的批次处理结果,分别采用t-SNE和UMAP的降维,结果就不理想。比如WNT2B+ fibroblasts, RSPO3+ fibroblasts 以及inflammatory fibroblasts就无法区分,而plasma cells就被莫名其妙地拆分,其他不同谱系的细胞竟然也离得很近

用scPhere帮助轨迹推断

when we quantify time continuity, by comparing the k-nearest neighbor time point classification accuracies, accuracies from scPhere (in 2D) were higher than those from t-SNE, UMAP, and PHATE

总结

几大特性:

  • Accounting for multilevel complex batch effects: ScPhere’s ability to handle complex batch factors is an advantage over previous methods for batch correction (e.g., SAUCIE, scVI, LIGER, Seurat3 CCA, fastMNN, Scanorama, and Conos), which handle only one batch vector.

  • Especially useful for analyzing large scRNA-seq datasets: does not suffer from “cell-crowding” even with large numbers of input cells; better preserves hierarchical, global structures; forms a reference to annotate new profiled cells from future studies (这一点对大型项目非常有帮助,比如健康群体的Human Cell Atlas项目,疾病群体的Human Tumor Atlas Network项目,都需要构建一个reference map)

  • modifying it to spatially map cells

未来扩展:

  • include semi-supervised learning to annotate cell types

  • imputing missing counts in scRNA-seq data and removing ambient RNA contamination

  • integrative analysis of multimodal data (e.g. spatial transcriptomics, single-cell ATAC-seq)

  • learn discrete hierarchical trees for betterd interpreting developmental trajectories

  • model perturbation data

最后看一下这种降维结果的动画:

Fig. 1

https://www.nature.com/articles/s41467-021-22851-4
https://github.com/klarman-cell-observatory/scPhere