Transcriptome Re-seq
-
read mapping programsTranscriptome Re-seq 2021. 3. 25. 06:47
Fastq파일 QC → adapter or low quality sequence trimming까지 마쳤다면 이제 본격적으로 분석을 시작할 준비가 되었다. 유전자들의 발현을 정량화 시키는 것이 RNA-seq의 목적이다. 하지만 아직 transcript들을 한 번에 시퀀싱 하는 기술이 없어 transcript들을 단편화 시켜 라이브러리를 제작해주고 시퀀싱을 했었다. 이렇게 완성된 fastq 파일들의 QC, adapter or low quality sequence trimming을 마친 후 이제 단편화 시켜줬던 transcript 조각들이 어떤 transcript로부터 유래했는지 역으로 추측해보는 과정을 해야 한다. 이 과정은 단편 조각들을 서로 이어 붙여보면서 trasncript의 서열을 추론하는 방식(A..
-
Trimming adapter sequence and low quality sequenceTranscriptome Re-seq 2021. 3. 7. 18:32
RNA-seq 분석을 시작하기에 앞서 fastqc를 이용하여 fastq 파일의 quality를 어느 정도 점검을 한 후, 첫 단계로 fastq 파일에서 낮은 품질의 서열 혹은 어댑터 서열들을 제거해주어야 한다. Trimming 작업을 할 때 사용할 수 있는 프로그램이 여러가지가 있는데 보편적으로 쓰는것은 Trimmomatic 이라는 프로그램이다. 이번 포스트에서는 Trimmomatic에 대해 살펴보자. RNA를 단편화 시켜 만든 RNA fragments를 cDNA로 만든 다음 양쪽에 어댑터를 붙여준다. 101PE로 시퀀싱 한다고 가정했을 때 insert의 길이가 101bp를 넘는다고 하면 adapter 서열이 시퀀싱 되지는 않는데. 하지만 아래 그림과 같이 insert의 길이가 read 길이보다 짧을 경..
-
Fastq 파일 구성 및 QCTranscriptome Re-seq 2021. 3. 7. 18:31
시퀀싱작업을 마치고 각각의 리드들의 nucleotide sequence들에 대한 정보를 fastq 파일 형태로 만들어 준다. fastq파일은 리드 하나당 네 줄에 걸쳐서 정보를 표현하는데 그 예시는 다음과 같다. 더보기 @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 Line 1 : '@'로 시작하며 리드의 id 정보와 index 서열 정보를 표시한다. 리드 정보를 통해 Paired-end 리드의 경우 리드1, 리드2 정보를 알 수 있고 시퀀서에 들어가는 flowcell의 어느 위치에서 시퀀싱이 됐는지에 대한 정보를 알..
-
RNA-seq 라이브러리 제작Transcriptome Re-seq 2021. 3. 7. 18:02
RNA-seq의 리드는 long read, short read 두 종류로 나눌 수 있다. long read가 short read에 비해 유리한 것이 더 많지만 가장 큰 장점은 시퀀싱된 리드가 어떤 splicing variant에서 유래 했는지 더 잘 유추할 수 있다는 점이다. 때문에 splicing variant분석에 더 유리하다. 하지만 아직까지는 long read 방식은 비용도 비싸고 short read에 비해 정확도가 떨어지기 때문에 아직까지 short read 시퀀싱 방식이 많이 사용되고 있다. (Amarasinghe, Shanika L., et al. "Opportunities and challenges in long-read sequencing data analysis." Genome biol..