# 2.2.9 研究 | 2021-CancerSCEM: 人类癌症单细胞表达图谱数据库

## 前言

题目：CancerSCEM: a database of single-cell expression map across various human cancers

日期：2021-09-29

期刊：Nucleic Acids Research

链接：<https://doi.org/10.1093/nar/gkab905>

## 一句话概况

一个包含人类多种癌症的scRNA数据库CancerSCEM，除了常规的分析之外，还提供网站可视化和在线分析（ <https://ngdc.cncb.ac.cn/cancerscem>）

## 为什么要建这个数据库？

* 首先肯定是因为目前产生了大量的数据集，但是公共的数据库不多，比如Single Cell Portal，PanglaoDB，Single Cell ExpressionAtlas，Human Cell Atlas Data Portal，scRNASeqDB，大部分是人和小鼠的数据。但是这些数据库只做了初步的分析，比如细胞分群、差异分析
* 还有一些专注于疾病的scRNA数据库，比如CancerSEA、TISCH，它们提供了额外的注释和富集分析等。但CancerSEA当时只做了某些类型和某些状态下的细胞，TISCH又没有提供统一的标准化矩阵，容易导致后面用户拿到后引入批次效应

所以，CancerSCEM (Cancer Single-cell Ex- pression Map) 提供了数据搜集、整理、分析、可视化一体。目前包括人类20种癌症的208个样本的638,341个单细胞数据

![image-20211016185127208](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-105127.png)

## 数据搜集

数据来自：GEO、ArrayExpress、EBI、GSA、ZENODO，涵盖了10X Genomics, Smart-seq2, Drop-seq, Seq-Well and Microwell 5大平台，其中原始数据占比82.69%。

10X数据采用cellranger V5处理；非10X数据使用Fastp+Trimmomatic+zUMIs处理

## 常规数据处理

### **质控**

DoubletFinder用于doublets去除（标准是7% per 10 000 cells）

Seurat V3 进行初步质控过滤：200 ≤ nfeatures ≤ 5000 and MT < 10%

### **非监督聚类**

PCA + tSNE + UMAP 聚类

**细胞类型注释**

biomarker 基因来自Cell Marker数据库，细胞注释三步走：

* scCancer v2.2.0 + Copy- KAT v1.0.4： copy number variation assessment

  > A group of marker genes, such as *EPCAM*, *KRT8*, *KRT18*, *KRT19* and *EGFR* in glioblastoma cells that represent cancer cells or cancer stem cells, were investi- gated in parallel.
  >
  > Cells with significantly abnormal CNV levels and high expression levels of above marker genes were defined as malignant cells
* Manual annotation ：自己看marker基因表达

  > 常见的比如： T cells (e.g. *CD3D*, *CD3E*), B cells (e.g. *MS4A1*, *BANK1*), Macrophages/Monocytes (e.g. *CD68*, *CD14*), Mast cells (e.g. *SLC18A2*, *ASIC4*), Endothelial cells (e.g. *VWF*, *PECAM1*), Fibroblasts (e.g. *FAP*, *NECTIN1*), Oligoden- drocytes (e.g. *OLIG1*, *PLP1*) and Astrocytes (e.g. *SLC1A3*, *GFAP*)
  >
  > 网站的Documents也给出了所使用的全部marker基因列表
* SingleR: 工具注释

此外，还将T、B细胞继续进行细分亚群，最终得到了包括免疫细胞在内的33种细胞类型

### **差异分析**

FindMarkers用来对每个细胞群进行差异分析

## 个性化处理步骤

* 拿到受配体基因对：来自CelltalkDB、SingleCellSingalR、Cellinker、Cell–Cell Interaction Database、综述文章
* 拿到Oncogenes and tumor suppressor genes（TSG）：来自Cancer Gene Census (CGC)、OncoKB、Network of Cancer Genes (NCG)、TSGene、IntOGene、cancer gene clinical care study。
* 对这些基因进行了过滤（至少在三个数据库中存在，并且在数据集呈现出类似的表达模式）
* 拿到TCGA 的13个癌症项目的bulk RNAseq数据，看在不同癌症的组织水平上这些基因的表达模式，也当做scRNA的参考
* 用之前得到的差异基因进行GO、KEGG富集
* 用Hmisc进行基因表达关联分析
* 细胞通讯用CellphoneDB
* 生存分析用survival + survminer

![image-20211016193240909](https://jieandze1314-1255603621.cos.ap-guangzhou.myqcloud.com/blog/2021-10-16-113241.png)

## 数据库构建

* 前端：Thymeleaf (a Java template engine), HTML5, CSS, AJAX, JQuery and Bootstrap
* 后端：Spring Boot
* 数据存储：MySQL
* 数据读取：Mybatis
* 交互图：Echarts, Highcharts, svg3dtagcloud.js and plotly.js
* 表格：Bootstrap Table

<br>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://jieandze1314.osca.top/02/2.2.9-yan-jiu-2021cancerscem-ren-lei-ai-zheng-dan-xi-bao-biao-da-tu-pu-shu-ju-ku.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
