梅洛斯
持續更新
[生資學習筆記]Day5
實作篇PART.2

PART.1在這裡
@swallow2038 - [生資學習筆記] Day4 實作篇PART.1 資料來自dada2官方網站

DADA2 Pipeline Tutorial實作教學
DADA2 Pipeline Tutorial (1.16)
梅洛斯
自己做了一張概念圖
https://images.plurk.com/2RCFFOjsEYaNAmYvOFqhow.png

有修改的話再放進來
梅洛斯
可以看到Dada2跟Mothur剛開始都一樣
需要設定好輸入檔案(metadata)位置,為求方便會先把指令打進去做成SAMPLE LIST
梅洛斯
兩者主要差異在於:
DADA2是先把R1、R2個別做trim及過濾 (filterAndTrim),再合併成單一檔案 (mergePairs)
mothur SOP是相反,先做merge reads (make.contigs),再經過filter及後續步驟 (screen.seqs)

實際上運作也可以先做chimera remove,不過要跑chimera.vsearch或usearch套件先把fastq轉檔成fasta格式的樣子
梅洛斯
1個核心問題是:
先做merge的話,因為Illumina定序特性,R1跟R2有些部分一定有error而對不起來 (同個位置鹼基會有兩種可能),這會導致後面篩選時被誤判成錯誤序列被刪除。

而反過來R1跟R2先做篩選裁切序列是OK,只是merge reads可能因為部分序列被切除,導致無法吻合設定的最短合併長度而判讀錯誤。
梅洛斯
Mothur SOP的作法(先合併再篩選)會調整篩選時的參數,簡單粗暴刪除序列,後面chimera去除後只留下"good" data

dada2的作法(先篩選再合併)同樣也有參數調整,也可以設定MaxMismatched數量,讓使用者自己決定要不要保留這些數值。
梅洛斯
個人解讀是dada2透過嚴謹的learnErrors建立錯誤演算模型,並套用到每個樣本當中,來精確控制及分析每條序列是否有錯誤。

Mothur SOP雖然前面篩選砍了許多序列資料,但到後面流程砍完留下的序列反而會比dada2多一些。
梅洛斯
dada2 makeSequenceTable
梅洛斯
makeSequenceTable這步驟是接在mergePairs後面,會把跑完序列的長度做統計

這時候把資料call出來,會得到一串表格跟數字告訴你amplicon長度
梅洛斯
https://images.plurk.com/4VfneZTWflYsf1v3deB0ou.png
官網跑完資料如圖
基本上序列長度集中在固定大小,以些許的sequence variation
梅洛斯
實際上這些序列variation造成長度的不一致在16S可能會有幾個major groups,某層面可推估他們是哪一群菌種(序列丟到萬能的NCBI BLAST下就知道了)
梅洛斯
Remove chimeras
梅洛斯
Chimeras

chimera概念上是一段 DNA 內接著二段互不相干 (不連
續)的 DNA 片段,這是混合樣本(非純菌種)會發生的差錯。 https://images.plurk.com/3QvvU6apiojNnux2OXbZtF.png

SILVA database有專門設定鑑定這類的chimera fasta檔案
(reference-based),dada2建議是用denovo去除chimera。
梅洛斯
這部分比較玄沒有既定的答案

我自己用reference資料庫跑,剩餘read占比剩約4-7成,而denovo的作法保留7-9成。

不過即使Mothur SOP lose 序列資料還是會比dada2的read數量還多
梅洛斯
這些資料都能夠輸出成表格
方便比較每個步驟會少了多少序列

實作自己data像tutorial介紹保留8成以上的序列是不可能的 https://images.plurk.com/73909im45Aq8rJSplar7wn.png
梅洛斯
因為PART.3會介紹大工程--物種比對
所以PART.2 內容先到這邊,日後補充資料上來
梅洛斯
備註:

作圖部分我還不擅長處理
後面實作分析會套用寫好的範例做說明
這部分會比分析本身還難搞,數據解釋很麻煩
梅洛斯
目前規劃Day1-Day3是 Introduction

後面Day4 - Day6(7)是實作分析資料
是目前暫時有比較多想法的部分 (進行中)

之後會有個別獨立單元再講下R語言(如果過年沒更新代表我在耍廢)
梅洛斯
OK收噗
載入新的回覆