SRA toolkit
2015年8月31日 更新
SRA toolkitとは
NCBI;National Center for Biotechnology Information のSRA;Sequence Read Archive で公開されているデータをダウンロード・変換するツールです.
インストール
1.
ここからNCBI SRA toolkitの最新版をDL.MacユーザーならMacOS 64 bit architectureで良いでしょう.
2. 好きな場所に移動させ,そこにパスを通します.
wgetでダウンロードしてもよいです.
使い方
NCBIからバイナリデータをダウンロードします.
引数には各自必要なSRAのaccession No.を入れてます.
prefetch SRR000000
このバイナリデータをfastq形式に変換します.
#single-readの場合
fastq-dump SRR000000
#paired-endやmate-pairの場合
fastq-dump --split-files SRR000000
#GAIIなど,ペアのリード数が異なるリードを揃える場合
fastq-dump --split-3 SRR000000
#gzipで出力する場合
fastq-dump --gzip SRR000000
--split-filesがないと,セットのリードをつなげてしまいます.
複数のデータをまとめてダウンロードする場合,まずSRAリストのテキストファイルを作成します.
各行にaccession No.を並べます.
SRA000000
SRA000001
SRA000002
SRA000003
SRA000004
SRA000005
prefetch --option-file SRA_list.txt
fastq-dump $(cat SRA_list.txt)
fastq-dumpはオプションファイルに対応していないので,一工夫します.
sam形式に変換する場合はこちら.
sam-dump SRR000000
prefetchによってダウンロードした場所を確認する.
srapath SRR000000
fastq-dumpやsam-dumpによって変換されたファイルは今いるディレクトリにできます.
使用例
accession No.からpaired-endの配列をfastq.gzでカレントディレクトリに保存.
prefetch SRR000000
fastq-dump --split-files --gzip SRR000000
参考文献
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc