同理选出正常组织的marker基因,它包含两部分:cell type specific markers & genes which are specifically depleted in the tumor cells
image-20211028111814469
验证
找几个数据集验证一下tumor和normal 各自的基因集,找了5种癌症类型的patient-derived xenograft (PDX)、cancer cell line encyclopedia (CCLE),发现 tumor signature score was significantly higher than the normal signature score
image-20211028112352974
用几个测试数据集比较了不同方法区分tumor和normal细胞,包括标准的机器学习(SVM, random forest, and logistic regression)、SingleCellNet、ACTINN。发现Ikarus的平均准确度可以达到0.98(A图),并且AUROC也很高。
使用Lambrechts lung cancer dataset(图DE),看到Ikarus也能基本得到和作者一样的肿瘤细胞分布
image-20211028122522894
测试一下如果没有足够的基因,或者缺少某几个关键基因,Ikarus还能预测准确吗
图A:当然,使用的tumor gene 数量越多越准确
图B-D:当缺少serum amyloid A (SAA1) 和fibrinogen beta chain (FGB),会导致准确度大大降低(也就是说这个工具还是很依赖关键的marker gene的,因此前期还是要筛选合适的marker基因作为输入);当然作者说只在Lambrechts这个数据集中发现了这个情况,其他没发现
image-20211028123705043
作者认为自己的signature找的很有效,于是看看它们具体有哪些特性
发现了
在各个数据中,这些基因之间的Pearson相关性竟然大部分接近0
tumor gene signature is partially related to cell cycle, and DNA replication(C图)
tumor gene signature preferentially overlapped with the cell cycle hallmark(D图)
image-20211028124223866
看一下筛出来的基因集和预后的联系
more than 75% of tumor signature genes are predictive of unfavourable prognosis in at least one cancer type
在5种癌症中(liver, renal, pancreatic, lung and endometrial)这个基因集对预后不利
与CNV: significantly higher overlap with the known CNV regions in the majority of profiled cancer types