High Throuput sequencerのためのバイオインフォマティクス講座

大量の配列データの扱い方について解説します.
CentOXなどLinuxの乗った計算機を想定しています.
いわゆる「次世代シーケンサー」の解析方法を復習するための自分用メモです

「次世代シーケンサー」や「NGS」と言われるようになってからそれなりの月日が経ち,「旧世代の次世代」なんてものができつつあります.「次世代シーケンサー」というのはネーミングセンスが良くないと思っているので,ここではHgh Throwput sequenceと呼んでいます.これも,何に比べてHighなんだよとは思っているので,より良い表現があったら教えてください.

目次

入出力に用いるファイル形式の種類

fastqからクオリティの低い領域をトリミング
de novoアセンブリしたい

リファレンス配列にマッピングしたい

細菌ゲノムの解析がしたい
アノテーション
pan-genome解析
系統解析

de novoでRNA-seqがしたい.


脚注
%
は,枠の中の% 以降をターミナルで入力orコピペ.
[~~]はあってもなくてもいい.