SRA toolkit

2015年8月31日 更新

SRA toolkitとは

NCBI;National Center for Biotechnology Information のSRA;Sequence Read Archive で公開されているデータをダウンロード・変換するツールです.

インストール

1. ここからNCBI SRA toolkitの最新版をDL.MacユーザーならMacOS 64 bit architectureで良いでしょう.
2. 好きな場所に移動させ,そこにパスを通します.

 wgetでダウンロードしてもよいです.

使い方

NCBIからバイナリデータをダウンロードします.
引数には各自必要なSRAのaccession No.を入れてます.
prefetch SRR000000
このバイナリデータをfastq形式に変換します.
#single-readの場合
fastq-dump SRR000000

#paired-endやmate-pairの場合
fastq-dump --split-files SRR000000

#GAIIなど,ペアのリード数が異なるリードを揃える場合
fastq-dump --split-3 SRR000000

#gzipで出力する場合
fastq-dump --gzip SRR000000
--split-filesがないと,セットのリードをつなげてしまいます.

複数のデータをまとめてダウンロードする場合,まずSRAリストのテキストファイルを作成します.
各行にaccession No.を並べます.

SRA000000
SRA000001
SRA000002
SRA000003
SRA000004
SRA000005

prefetch --option-file SRA_list.txt
fastq-dump $(cat SRA_list.txt)
fastq-dumpはオプションファイルに対応していないので,一工夫します.
sam形式に変換する場合はこちら.
sam-dump SRR000000

prefetchによってダウンロードした場所を確認する.
srapath SRR000000
fastq-dumpやsam-dumpによって変換されたファイルは今いるディレクトリにできます.

使用例

accession No.からpaired-endの配列をfastq.gzでカレントディレクトリに保存.
prefetch SRR000000
fastq-dump --split-files --gzip SRR000000

参考文献

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc