5.2.1 CellRanger实战(一)数据下载

刘小泽写于19.5.3

数据来自2018年9月的NC文章Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLAarrow-up-right

文章解读在:https://www.jianshu.com/p/b818e38f7e9carrow-up-right

实验设计

共有两名患者:

软件环境

原始数据一般是以SRR格式存放,这个文件一般都要几个G,于是下载器首选ascp,但是直接使用ascp下载又需要配置一些参数,对于新手来说,最好是能提供一个ID,然后直接就下载,这个就需要用到prefetch 与 ascp的组合

prefetch是sratools中的一个小工具,因此直接用conda下载就好

默认情况下,prefetch是利用https方式去下载原始数据,这个就像直接从网页下载一样,速度有一定的限制。因此我们需要先安装一款叫做"aspera"的下载工具,它是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同

ascp安装成功后,prefetch就会默认将下载方式从https转移到fasp,说明开启加速模式

一般ascp没有什么问题,出问题主要是:

数据下载

以患者2586-4为例,所有数据都存放在GEO中

  1. 打开https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE117988arrow-up-right (这里注意链接是有规律的,只需要改变最后的ID号就能获取其他的GEO数据)

  2. 点击SRA这里的SRP155988

  3. send to => Run Selector => Go

  4. 下载Accession List,然后就得到了一个文本文件,列出了6个SRR ID号

  5. 下载代码

  6. 下载成功会有提示

两个患者的十个样本数据下载结束后发现,SRR7722939和SRR7722942下载失败,看了一下数据源,这两个数据在sra-sos.public这个位置,而不是在ncbi

于是,可以选择另一个途径EBI下载

  1. 进入官网https://www.ebi.ac.uk/enaarrow-up-right ,搜索想下载的SRA号

  2. 选择SRR这里[或者直接通过https://www.ebi.ac.uk/ena/data/view/SRR7722939arrow-up-right修改ID]

  3. EBI有个好处就是可以直接下载fastq格式文件(左边方框),如果要下载sra就复制右边红色方框中链接

  4. 然后利用这个代码下载

最后更新于