# 2.2.9 研究 | 2021-CancerSCEM: 人类癌症单细胞表达图谱数据库

## 前言

题目：CancerSCEM: a database of single-cell expression map across various human cancers

日期：2021-09-29

期刊：Nucleic Acids Research

链接：<https://doi.org/10.1093/nar/gkab905>

## 一句话概况

一个包含人类多种癌症的scRNA数据库CancerSCEM，除了常规的分析之外，还提供网站可视化和在线分析（ <https://ngdc.cncb.ac.cn/cancerscem>）

## 为什么要建这个数据库？

* 首先肯定是因为目前产生了大量的数据集，但是公共的数据库不多，比如Single Cell Portal，PanglaoDB，Single Cell ExpressionAtlas，Human Cell Atlas Data Portal，scRNASeqDB，大部分是人和小鼠的数据。但是这些数据库只做了初步的分析，比如细胞分群、差异分析
* 还有一些专注于疾病的scRNA数据库，比如CancerSEA、TISCH，它们提供了额外的注释和富集分析等。但CancerSEA当时只做了某些类型和某些状态下的细胞，TISCH又没有提供统一的标准化矩阵，容易导致后面用户拿到后引入批次效应

所以，CancerSCEM (Cancer Single-cell Ex- pression Map) 提供了数据搜集、整理、分析、可视化一体。目前包括人类20种癌症的208个样本的638,341个单细胞数据

![image-20211016185127208](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-105127.png)

## 数据搜集

数据来自：GEO、ArrayExpress、EBI、GSA、ZENODO，涵盖了10X Genomics, Smart-seq2, Drop-seq, Seq-Well and Microwell 5大平台，其中原始数据占比82.69%。

10X数据采用cellranger V5处理；非10X数据使用Fastp+Trimmomatic+zUMIs处理

## 常规数据处理

### **质控**

DoubletFinder用于doublets去除（标准是7% per 10 000 cells）

Seurat V3 进行初步质控过滤：200 ≤ nfeatures ≤ 5000 and MT < 10%

### **非监督聚类**

PCA + tSNE + UMAP 聚类

**细胞类型注释**

biomarker 基因来自Cell Marker数据库，细胞注释三步走：

* scCancer v2.2.0 + Copy- KAT v1.0.4： copy number variation assessment

  > A group of marker genes, such as *EPCAM*, *KRT8*, *KRT18*, *KRT19* and *EGFR* in glioblastoma cells that represent cancer cells or cancer stem cells, were investi- gated in parallel.
  >
  > Cells with significantly abnormal CNV levels and high expression levels of above marker genes were defined as malignant cells
* Manual annotation ：自己看marker基因表达

  > 常见的比如： T cells (e.g. *CD3D*, *CD3E*), B cells (e.g. *MS4A1*, *BANK1*), Macrophages/Monocytes (e.g. *CD68*, *CD14*), Mast cells (e.g. *SLC18A2*, *ASIC4*), Endothelial cells (e.g. *VWF*, *PECAM1*), Fibroblasts (e.g. *FAP*, *NECTIN1*), Oligoden- drocytes (e.g. *OLIG1*, *PLP1*) and Astrocytes (e.g. *SLC1A3*, *GFAP*)
  >
  > 网站的Documents也给出了所使用的全部marker基因列表
* SingleR: 工具注释

此外，还将T、B细胞继续进行细分亚群，最终得到了包括免疫细胞在内的33种细胞类型

### **差异分析**

FindMarkers用来对每个细胞群进行差异分析

## 个性化处理步骤

* 拿到受配体基因对：来自CelltalkDB、SingleCellSingalR、Cellinker、Cell–Cell Interaction Database、综述文章
* 拿到Oncogenes and tumor suppressor genes（TSG）：来自Cancer Gene Census (CGC)、OncoKB、Network of Cancer Genes (NCG)、TSGene、IntOGene、cancer gene clinical care study。
* 对这些基因进行了过滤（至少在三个数据库中存在，并且在数据集呈现出类似的表达模式）
* 拿到TCGA 的13个癌症项目的bulk RNAseq数据，看在不同癌症的组织水平上这些基因的表达模式，也当做scRNA的参考
* 用之前得到的差异基因进行GO、KEGG富集
* 用Hmisc进行基因表达关联分析
* 细胞通讯用CellphoneDB
* 生存分析用survival + survminer

![image-20211016193240909](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-113241.png)

## 数据库构建

* 前端：Thymeleaf (a Java template engine), HTML5, CSS, AJAX, JQuery and Bootstrap
* 后端：Spring Boot
* 数据存储：MySQL
* 数据读取：Mybatis
* 交互图：Echarts, Highcharts, svg3dtagcloud.js and plotly.js
* 表格：Bootstrap Table

<br>
