Transcriptome Re-seq

read mapping programs

조바 2021. 3. 25. 06:47

Fastq파일 QC → adapter or low quality sequence trimming까지 마쳤다면 이제 본격적으로 분석을 시작할 준비가 되었다.

유전자들의 발현을 정량화 시키는 것이 RNA-seq의 목적이다. 하지만 아직 transcript들을 한 번에 시퀀싱 하는 기술이 없어 transcript들을 단편화 시켜 라이브러리를 제작해주고 시퀀싱을 했었다. 이렇게 완성된 fastq 파일들의 QC, adapter or low quality sequence trimming을 마친 후 이제 단편화 시켜줬던 transcript 조각들이 어떤 transcript로부터 유래했는지 역으로 추측해보는 과정을 해야 한다.

이 과정은 단편 조각들을 서로 이어 붙여보면서 trasncript의 서열을 추론하는 방식(Assemble transcipts de novo) 방식과 표준 서열(Reference genome)에 단편 조각들을 이어 붙이는 방식이 있다. 시퀀싱 기술이 나온지 얼마 안되었을 때는 reference genome이 많지 않았지만 지금은 꽤 많은 reference genome이 있다. 특히 human의 genome은 연구가 많이 되면서 완성도가 높은 reference genome이다. 이번 포스트에서는 reference genome에 맵핑 하는 방식의 분석을 살펴보자.

reference genome에 맵핑 방식에는 또 두 가지로 나뉜다.

하나는 genomic 서열에 맵핑하는 것이고 하나는 transcriptomic 서열에 맵핑하는 방식이다.

각각 장단점이 있는데 genomic 서열에 맵핑을 하게 되면 novel transcript를 찾아 낼 수 있는 장점이 있는가 하면 transcriptomic 서열에 맵핑할 경우에는 known transcript variation들의 발현값을 보다 더 정확하게 알아낼 수 있지만 novel transcript를 찾아내지 못하는 단점이 있다. 또한 genomic 서열에 맵핑 할 경우에만 시퀀싱된 리드들이 exonic, intronic, intergenic 부분에 얼마나 분포하고 있는지 알 수 있다. 이것이 중요한 이유는 mRNA selection 키트를 사용했는데 exonic 리드가 터무니 없게 적을 경우 라이브러리 제작에 실패했음을 예측할 수 있기 때문이다. 따라서 transcriptomic 서열에 맵핑을 하더라도 genomic 서열에 맵핑해서 QC를 해볼 필요는 있다.

주로 사용되는 프로그램

  • Genomic 서열에 맵핑 하는 방식 : Tophat, Hisat2, STAR
  • Transcripomic 서열에 맵핑 하는 방식 : RSEM

TopHat

TopHat은 전사체 시퀀싱 데이터를 Bowtie2를 이용하여 mammalian-sized genome에 리드를 맵핑 시켜주는 프로그램이다. 리드들을 exon에 먼저 맵핑 한 다음 남은 unmapped 리드들에 spiced juntion 정보를 참고하여 다시 맵핑한다.

Tophat2 -p [n] -library-type [strand-specific 정보] -G [gtf annotation file] -o [result sampole name] [reference index] [read1 fastq] [read2 fastq]

 

 

 

 

 

 

HISAT2

HISAT2는 high throughput sequencing 데이터를 reference genome에 빠르고 정확하게 맵핑하는 도구로써, Graph의 BWT extension을 바탕으로 graph FM index (GFM)를 디자인하여 최초로 구현. 하나의 global GFM과 여러 개의 small GFM을 활용하여 Human의 경우 56kbp를 대표하는 index를 55,000개 만들어 더욱 빠르고 정확하게 sequencing read를 맵핑. 이러한 indexing을 Hierarchical Graph FM index (HGRM) 라고 한다.

hisat2 -p [n] --rna-strandness [strand specific 정보] --novel-splicesite-outfile [name.txt] -x [hisat index] -1 [read1 fastq] -2 [read2 fastq] -S [name.sam]

 

#BWT, Burrows-Wheeler Transform

BWT에 대한 자세한 설명은 아래 블로그들에서 확인할 수 있다.

https://bioinformaticsandme.tistory.com/2

https://m.blog.naver.com/PostView.nhn?blogId=ossiriand&logNo=220656153907&proxyReferer=https:%2F%2Fwww.google.com%2F

 

[알고리즘, Algorithm] BWT, Burrows-Wheeler Transform의 기본 원리 및 검색 방법

# 아래 내용은 Johns Hopkins University, whiting school of engineering의 교재를 참고함. 내용은 변...

blog.naver.com

 

STAR

STAR는 다량의 전사체 시퀀싱 데이터를 reference의 transcript 지역에 splicing하여 맵핑하는 도구로써, Uncompressed suffix arrays를 만든 다음, seed clustering 과 stitching procedure를 이용하여 sequential Maximum mappable seed search를 alignment algorithm을 사용한다.

옆의 그림을 보면 STAR는 리드들을 k-mer 단위의 seed로 쪼개어 exon에 맵핑 진행, spiced juntion 정보를 참고하여 intron 부분을 인식해서 건너뛰고 exon에 seed extend 진행한다.

STAR --runThreadN [n] --genomeDir [디렉토리 name] --sjdbGTFfile [anntation gtf file] --twopassMode [Basic] --outFileNamePrefix [file name] --outSAMtype [BAM] --readFilesIn [read1 fastq] [read2 fastq]

STAR는 옵션이 많으므로 메뉴얼을 잘 확인해보고 진행하자.

 

 

 

참고자료

728x90