梅洛斯
@swallow2038
Sun, Feb 7, 2021 12:51 PM
Sun, Feb 7, 2021 12:52 PM
1
持續更新
[生資學習筆記]Day5
實作篇PART.2
PART.1在這裡
@swallow2038 - [生資學習筆記] Day4 實作篇PART.1 資料來自dada2官方網站
DADA2 Pipeline Tutorial實作教學
DADA2 Pipeline Tutorial (1.16)
梅洛斯
@swallow2038
Sun, Feb 7, 2021 12:54 PM
自己做了一張概念圖
有修改的話再放進來
梅洛斯
@swallow2038
Sun, Feb 7, 2021 12:56 PM
可以看到Dada2跟Mothur剛開始都一樣
需要設定好輸入檔案(metadata)位置,為求方便會先把指令打進去做成SAMPLE LIST
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:01 PM
兩者主要差異在於:
DADA2是先把R1、R2個別做trim及過濾 (filterAndTrim),再合併成單一檔案 (mergePairs)
mothur SOP是相反,先做merge reads (make.contigs),再經過filter及後續步驟 (screen.seqs)
實際上運作也可以先做chimera remove,不過要跑chimera.vsearch或usearch套件先把fastq轉檔成fasta格式的樣子
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:07 PM
1個核心問題是:
先做merge的話,因為Illumina定序特性,R1跟R2有些部分一定有error而對不起來 (同個位置鹼基會有兩種可能),這會導致後面篩選時被誤判成錯誤序列被刪除。
而反過來R1跟R2先做篩選裁切序列是OK,只是merge reads可能因為部分序列被切除,導致無法吻合設定的最短合併長度而判讀錯誤。
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:11 PM
Mothur SOP的作法(先合併再篩選)會調整篩選時的參數,簡單粗暴刪除序列,後面chimera去除後只留下"good" data
dada2的作法(先篩選再合併)同樣也有參數調整,也可以設定MaxMismatched數量,讓使用者自己決定要不要保留這些數值。
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:17 PM
個人解讀是dada2透過嚴謹的learnErrors建立錯誤演算模型,並套用到每個樣本當中,來精確控制及分析每條序列是否有錯誤。
Mothur SOP雖然前面篩選砍了許多序列資料,但到後面流程砍完留下的序列反而會比dada2多一些。
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:19 PM
dada2 makeSequenceTable
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:22 PM
makeSequenceTable這步驟是接在mergePairs後面,會把跑完序列的長度做統計
這時候把資料call出來,會得到一串表格跟數字告訴你amplicon長度
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:23 PM
官網跑完資料如圖
基本上序列長度集中在固定大小,以些許的sequence variation
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:25 PM
實際上這些序列variation造成長度的不一致在16S可能會有幾個major groups,某層面可推估他們是哪一群菌種(序列丟到萬能的NCBI BLAST下就知道了)
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:25 PM
Remove chimeras
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:32 PM
Chimeras
chimera概念上是一段 DNA 內接著二段互不相干 (不連
續)的 DNA 片段,這是混合樣本(非純菌種)會發生的差錯。
SILVA database有專門設定鑑定這類的chimera fasta檔案
(reference-based),dada2建議是用denovo去除chimera。
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:35 PM
這部分比較玄沒有既定的答案
我自己用reference資料庫跑,剩餘read占比剩約4-7成,而denovo的作法保留7-9成。
不過即使Mothur SOP lose 序列資料還是會比dada2的read數量還多
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:37 PM
這些資料都能夠輸出成表格
方便比較每個步驟會少了多少序列
實作自己data像tutorial介紹保留8成以上的序列是不可能的
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:39 PM
因為PART.3會介紹大工程--物種比對
所以PART.2 內容先到這邊,日後補充資料上來
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:42 PM
備註:
作圖部分我還不擅長處理
後面實作分析會套用寫好的範例做說明
這部分會比分析本身還難搞,數據解釋很麻煩
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:45 PM
目前規劃Day1-Day3是 Introduction
後面Day4 - Day6(7)是實作分析資料
是目前暫時有比較多想法的部分 (進行中)
之後會有個別獨立單元再講下R語言
(如果過年沒更新代表我在耍廢)
梅洛斯
@swallow2038
Sun, Feb 7, 2021 1:45 PM
OK收噗
載入新的回覆
[生資學習筆記]Day5
實作篇PART.2
PART.1在這裡
DADA2 Pipeline Tutorial實作教學
DADA2 Pipeline Tutorial (1.16)
有修改的話再放進來
需要設定好輸入檔案(metadata)位置,為求方便會先把指令打進去做成SAMPLE LIST
DADA2是先把R1、R2個別做trim及過濾 (filterAndTrim),再合併成單一檔案 (mergePairs)
mothur SOP是相反,先做merge reads (make.contigs),再經過filter及後續步驟 (screen.seqs)
實際上運作也可以先做chimera remove,不過要跑chimera.vsearch或usearch套件先把fastq轉檔成fasta格式的樣子
先做merge的話,因為Illumina定序特性,R1跟R2有些部分一定有error而對不起來 (同個位置鹼基會有兩種可能),這會導致後面篩選時被誤判成錯誤序列被刪除。
而反過來R1跟R2先做篩選裁切序列是OK,只是merge reads可能因為部分序列被切除,導致無法吻合設定的最短合併長度而判讀錯誤。
dada2的作法(先篩選再合併)同樣也有參數調整,也可以設定MaxMismatched數量,讓使用者自己決定要不要保留這些數值。
Mothur SOP雖然前面篩選砍了許多序列資料,但到後面流程砍完留下的序列反而會比dada2多一些。
這時候把資料call出來,會得到一串表格跟數字告訴你amplicon長度
官網跑完資料如圖
基本上序列長度集中在固定大小,以些許的sequence variation
chimera概念上是一段 DNA 內接著二段互不相干 (不連
續)的 DNA 片段,這是混合樣本(非純菌種)會發生的差錯。
SILVA database有專門設定鑑定這類的chimera fasta檔案
(reference-based),dada2建議是用denovo去除chimera。
我自己用reference資料庫跑,剩餘read占比剩約4-7成,而denovo的作法保留7-9成。
不過即使Mothur SOP lose 序列資料還是會比dada2的read數量還多
方便比較每個步驟會少了多少序列
實作自己data像tutorial介紹保留8成以上的序列是不可能的所以PART.2 內容先到這邊,日後補充資料上來
作圖部分我還不擅長處理
後面實作分析會套用寫好的範例做說明
這部分會比分析本身還難搞,數據解釋很麻煩後面Day4 - Day6(7)是實作分析資料
是目前暫時有比較多想法的部分 (進行中)
之後會有個別獨立單元再講下R語言
(如果過年沒更新代表我在耍廢)