p/o7rnxh

梅洛斯

@swallow2038

Sun, Feb 7, 2021 12:51 PM

Sun, Feb 7, 2021 12:52 PM

1

持續更新
[生資學習筆記]Day5
實作篇PART.2

PART.1在這裡

@swallow2038 - [生資學習筆記] Day4 實作篇PART.1 資料來自dada2官方網站

DADA2 Pipeline Tutorial實作教學
DADA2 Pipeline Tutorial (1.16)

梅洛斯

@swallow2038

Sun, Feb 7, 2021 12:54 PM

自己做了一張概念圖

https://images.plurk.com/2RCFFOjsEYaNAmYvOFqhow.png

有修改的話再放進來

梅洛斯

@swallow2038

Sun, Feb 7, 2021 12:56 PM

可以看到Dada2跟Mothur剛開始都一樣
需要設定好輸入檔案(metadata)位置，為求方便會先把指令打進去做成SAMPLE LIST

梅洛斯

@swallow2038

Sun, Feb 7, 2021 1:01 PM

兩者主要差異在於:
DADA2是先把R1、R2個別做trim及過濾 (filterAndTrim)，再合併成單一檔案 (mergePairs)
mothur SOP是相反，先做merge reads (make.contigs)，再經過filter及後續步驟 (screen.seqs)

實際上運作也可以先做chimera remove，不過要跑chimera.vsearch或usearch套件先把fastq轉檔成fasta格式的樣子

梅洛斯

@swallow2038

Sun, Feb 7, 2021 1:07 PM

1個核心問題是:
先做merge的話，因為Illumina定序特性，R1跟R2有些部分一定有error而對不起來 (同個位置鹼基會有兩種可能)，這會導致後面篩選時被誤判成錯誤序列被刪除。

而反過來R1跟R2先做篩選裁切序列是OK，只是merge reads可能因為部分序列被切除，導致無法吻合設定的最短合併長度而判讀錯誤。

梅洛斯

@swallow2038

Sun, Feb 7, 2021 1:11 PM

Mothur SOP的作法(先合併再篩選)會調整篩選時的參數，簡單粗暴刪除序列，後面chimera去除後只留下"good" data

dada2的作法(先篩選再合併)同樣也有參數調整，也可以設定MaxMismatched數量，讓使用者自己決定要不要保留這些數值。

梅洛斯

@swallow2038

Sun, Feb 7, 2021 1:17 PM

個人解讀是dada2透過嚴謹的learnErrors建立錯誤演算模型，並套用到每個樣本當中，來精確控制及分析每條序列是否有錯誤。

Mothur SOP雖然前面篩選砍了許多序列資料，但到後面流程砍完留下的序列反而會比dada2多一些。

梅洛斯

@swallow2038

Sun, Feb 7, 2021 1:19 PM

dada2 makeSequenceTable