RNA-Seq 實驗設計指引
本⽂件提供 RNA-Seq 實驗設計的全⾯指南,整合了來⾃ Melbourne Bioinformatics、ENCODE、Conesa et al. (2016)、Sims et al. (2014)、Illumina指南的建議,並新增⽂庫建置⽅法選擇及DNA污染影響的指導,旨在確保實驗設計穩健、可重現且具統計檢定⼒。
1. 實驗設計的重要性
良好的 RNA-Seq 實驗設計能減少偏差、提升數據質量並確保結果可重現。需考慮⽣物變異、技術變異及統計檢定⼒。來源:Melbourne Bioinformatics 教程2. 實驗設計的關鍵原則
2.1 重複
- ⽣物重複:來⾃不同個體或條件的獨⽴樣本,⽤於捕捉⽣物變異。
- 建議:每組條件 3–5 個⽣物重複,以確保⾜夠的統計檢定⼒。
- 技術重複:對同⼀樣本的重複測序。現代 RNA-Seq 技術變異低,通常無需技術重複。
- 來源:Melbourne Bioinformatics 教程;Conesa et al., 2016 (Genome Biology, DOI: 10.1186/s13059-016-0881-8)
2.2 隨機化
- 將樣本隨機分配到實驗條件或測序通道,以減少系統性偏差。
- 來源:Melbourne Bioinformatics 教程
2.3 對照組
- 設置適當的對照組(如未處理組或假處理組),以便與實驗條件進⾏⽐較。
- 來源:Melbourne Bioinformatics 教程
2.4 配對/分組設計
- 使⽤配對或分組設計控制已知⼲擾因素(如批次效應或個體變異)。
- 例如:同⼀受試者的治療前後樣本。
- 來源:Melbourne Bioinformatics 教程
3. 樣本數量與測序深度
3.1 樣本數量
- 優先增加⽣物重複數量,⽽⾮僅提升測序深度,因⽣物變異是主要變異來源。
- 使⽤統計⼯具(如 Scotty、RNASeqPower)根據預期效應⼤⼩和變異估算所需樣本數。
- 來源:Melbourne Bioinformatics 教程;Conesa et al., 2016
3.2 測序深度
- 差異表達分析:
- 每樣本 10–30 百萬 reads ⾜以檢測⼈類轉錄組中中⾼表達基因。
- 來源:Conesa et al., 2016;Melbourne Bioinformatics 教程
- 低表達基因或轉錄組組裝:
- 需更⾼測序深度,以確保低豐度轉錄本的覆蓋率或重建複雜轉錄組。
- 建議:每樣本 50–100 百萬 reads,某些實驗可能需⾼達 200 百萬 reads,具體取決於基因組複雜性和分析⽬標。
- 來源:Sims et al., 2014 (Nature Reviews Genetics, DOI: 10.1038/nrg3642);Illumina RNA-Seq 指南
- 通⽤範圍:每樣本 5–200 百萬 reads,依⽣物體複雜性、轉錄組⼤⼩及項⽬⽬標⽽定。
- 來源:Illumina RNA-Seq 指南
- 使⽤ Scotty 或 RNASeqPower 等⼯具根據試驗數據估算最佳深度。
- 來源:Melbourne Bioinformatics 教程
4. ⽂庫建置⽅法選擇
⽂庫建置是 RNA-Seq 實驗的關鍵步驟,影響數據質量和分析結果。選擇⽂庫建置⽅法需考慮實驗⽬標、樣本類型、RNA 質量、測序平台及DNA污染。4.1 常⾒⽂庫建置⽅法
Poly-A 富集:
- 適⽤場景:檢測編碼 mRNA 的基因表達(如差異表達分析)。
- 優點:富集成熟 mRNA,減少核糖體 RNA(rRNA)⼲擾,適合⾼質量 RNA 樣本。
限制:無法檢測⾮聚腺苷酸化的 RNA(如⻑⾮編碼 RNA 或某些前體 mRNA)。
- 建議:適⽤於⼤多數標準 RNA-Seq 實驗,特別是⼈類或哺乳動物樣本。
rRNA 去除:
- 適⽤場景:全⾯轉錄組分析,包括⾮編碼 RNA、pre-mRNA 或低質量/降解 RNA 樣本。
- 優點:保留更多 RNA 種類,適合研究⾮聚腺苷酸化轉錄本或微⽣物轉錄組。
- 限制:rRNA 去除效率可能不完全,成本較⾼。
- 建議:適⽤於轉錄組組裝或研究複雜轉錄組(如植物、細菌)。
總 RNA 測序:
- 適⽤場景:無需富集或去除,直接測序所有 RNA。
- 優點:簡單,適⽤於低起始量 RNA 或特殊樣本。
- 限制:rRNA 占⽐⾼,需更⾼測序深度以覆蓋⽬標 RNA。
- 建議:適合特殊實驗或無需特定 RNA 富集的場景。
⼩ RNA 測序:
- 適⽤場景:研究 miRNA、siRNA 等⼩ RNA。
- 優點:專注於⼩分⼦ RNA,適合調控網絡研究。
- 限制:需要專⽤⽂庫建置試劑盒,且無法檢測⻑ RNA。
- 建議:⽤於⼩ RNA 專項研究。
單細胞 RNA-Seq:
- 適⽤場景:分析單細胞或低輸⼊量 RNA。
- 優點:揭⽰細胞異質性,適合稀有細胞研究。
- 限制:技術複雜,成本⾼,需專⽤試劑盒(如 10x Genomics)。
- 建議:適⽤於單細胞轉錄組學研究。
4.2 選擇⽂庫建置⽅法的考慮因素
- 實驗⽬標:
- 差異表達分析:Poly-A 富集通常⾜夠。
- 轉錄組組裝或⾮編碼 RNA 研究:rRNA 去除或總 RNA 測序。
- ⼩ RNA 研究:⼩ RNA ⽂庫建置。
- RNA 質量:
- ⾼質量 RNA(RIN ≥ 7):Poly-A 富集或 rRNA 去除。
- 降解 RNA(如 FFPE 樣本):rRNA 去除或總 RNA 測序。
- 起始 RNA 量:
- 標準量(>100 ng):⼤多數⽅法適⽤。
- 低輸⼊量(<10 ng):單細胞或低輸⼊量專⽤試劑盒。
- 測序平台:
- Illumina:兼容⼤多數⽂庫建置⽅法。
- ⻑讀⻑測序(如 PacBio、Nanopore):rRNA 去除或總 RNA 測序更適合。
- DNA 污染:
- Poly-A 富集對 DNA 污染的影響較⼩,因其特異性結合 poly-A 尾,可排除基因組 DNA。
- rRNA 去除或總 RNA 測序受 DNA 污染影響較⼤,需嚴格 DNase 處理。
- 建議:在 RNA 提取後進⾏ DNase 處理,並通過 qPCR 或 Bioanalyzer 檢查 DNA 污染。
- 成本與效率:
- Poly-A 富集成本較低,適合標準實驗。
- rRNA 去除或單細胞 RNA-Seq 成本較⾼,需權衡預算。
4.3 實⽤建議
- 選擇商業試劑盒(如 Illumina TruSeq、NEBNext)以確保穩定性和重現性。
進⾏試驗性⽂庫建置,測試⽂庫質量(如⽚段⼤⼩分佈)。
- 記錄⽂庫建置參數(如接頭序列、PCR 循環數),便於後續分析。
- 來源:Illumina RNA-Seq 指南 ;ENCODE RNA-Seq 指南;Conesa et al., 2016;Kukurba & Montgomery, 2015 (Cold Spring Harbor Protocols, DOI: 10.1101/pdb.top084970)
5. 常⾒實驗設計類型
- 簡單設計:單因素⽐較(如處理組 vs. 對照組)。
- 多因素設計:研究多個變量(如處理、時間點、基因型)。
- 時間序列設計:分析基因表達隨時間的變化。
- 配對設計:控制個體間變異(如同⼀受試者的治療前後樣本)。
- 來源:Melbourne Bioinformatics 教程
6. 批次效應管理
- 定義:由測序批次、試劑或操作⼈員差異引起的變異,可能掩蓋⽣物信號。
- 策略:
- 將樣本隨機分配到批次。
- 若可⾏,將所有樣本置於同⼀批次測序。
- 在統計模型中將批次作為協變量(如使⽤ DESeq2、limma)。
- 來源:Melbourne Bioinformatics 教程;Conesa et al., 2016
7. 其他注意事項
7.1 樣本質量
- 確保 RNA 完整性,建議 RNA 完整性數值(RIN)≥ 7,以避免數據偏差。對於更嚴格的應⽤,RIN ≥ 8 更為理想。
- 來源:ENCODE RNA-Seq 指南 ;Illumina RNA-Seq指南
7.2 元數據
- 記錄樣本的詳細信息(如處理條件、採集時間),便於後續分析。
- 來源:Melbourne Bioinformatics 教程
7.3 試驗性實驗
- 進⾏⼩規模試驗性實驗,優化設計參數(如樣本數、測序深度、⽂庫建置⽅法)。
- 來源:Melbourne Bioinformatics 教程
7.4 ⽣物信息學分析計劃
- 提前計劃數據分析流程,選擇合適的⼯具(如 DESeq2、edgeR)和統計⽅法。
- 使⽤模擬數據或公開數據集(如 GEO、ArrayExpress)測試設計可⾏性。
- 來源:Melbourne Bioinformatics 教程;Conesa et al., 2016
8. 實⽤建議
- 與⽣物信息學家或統計學家合作,確保設計符合分析需求。
- 參考公開- 公開資源(如 GEO、ArrayExpress)獲取相似實驗的設計靈感。
- 採⽤ ENCODE 數據標準進⾏質量控制和分析流程開發。
- 來源:Melbourne Bioinformatics 教程;ENCODE RNA-Seq 指南
9. 總結
穩健的 RNA-Seq 實驗需重視重複、隨機化、對照組、測序深度及⽂庫建置。每組條件建議 3–5 個⽣物重複,差異表達分析使⽤ 10–30 百萬reads,低表達基因或轉錄組組裝需 50–100 百萬 reads。Scotty 和 RNASeqPower 等⼯具可協助估算樣本數和測序深度。⽂庫建置⽅法應根據實驗⽬標選擇(如 Poly-A 富集⽤於差異表達,rRNA 去除⽤於轉錄組組裝)。Poly-A 富集對 DNA 污染影響較⼩,但仍需 DNase 處理以確保數據質量。通過隨機化和統計建模控制批次效應,確保樣本質量(RIN ≥ 7)和詳細元數據。
https://www.melbournebioinformatics.org.au/tutorials/tutorials/rna_seq_exp_design/rna_seq_experimental_design/
2. Conesa, A., et al. (2016). A survey of best practices for RNA-seq data analysis. Genome Biology, 17, 13. DOI: 10.1186/s13059-016-0881-8
3. Sims, D., et al. (2014). Sequencing depth and coverage: key considerations in genomic analyses. Nature Reviews Genetics, 15, 121–132. DOI: 10.1038/nrg3642
4. Illumina RNA-Seq 指南:https://www.illumina.com/content/dam/illumina-
marketing/documents/products/illumina_sequencing_introduction.pdf
5. ENCODE RNA-Seq 指南:https://www.encodeproject.org/rna-seq/
6. Kukurba, K. R., & Montgomery, S. B. (2015). RNA sequencing and analysis. Cold Spring Harbor Protocols, 2015(11), pdb.top084970. DOI: 10.1101/pdb.top084970
7. Levin, J. Z., et al. (2010). Comprehensive comparative analysis of strand-specific RNA sequencing methods. Nature Methods, 7(9), 709–715. DOI: 10.1038/nmeth.f.303
參考⽂獻
1. Melbourne Bioinformatics RNA-Seq 實驗設計教程:https://www.melbournebioinformatics.org.au/tutorials/tutorials/rna_seq_exp_design/rna_seq_experimental_design/
2. Conesa, A., et al. (2016). A survey of best practices for RNA-seq data analysis. Genome Biology, 17, 13. DOI: 10.1186/s13059-016-0881-8
3. Sims, D., et al. (2014). Sequencing depth and coverage: key considerations in genomic analyses. Nature Reviews Genetics, 15, 121–132. DOI: 10.1038/nrg3642
4. Illumina RNA-Seq 指南:https://www.illumina.com/content/dam/illumina-
marketing/documents/products/illumina_sequencing_introduction.pdf
5. ENCODE RNA-Seq 指南:https://www.encodeproject.org/rna-seq/
6. Kukurba, K. R., & Montgomery, S. B. (2015). RNA sequencing and analysis. Cold Spring Harbor Protocols, 2015(11), pdb.top084970. DOI: 10.1101/pdb.top084970
7. Levin, J. Z., et al. (2010). Comprehensive comparative analysis of strand-specific RNA sequencing methods. Nature Methods, 7(9), 709–715. DOI: 10.1038/nmeth.f.303
No comments:
Post a Comment