RNA-Seq 實驗設計指引

本⽂件提供 RNA-Seq 實驗設計的全⾯指南，整合了來⾃ Melbourne Bioinformatics、ENCODE、Conesa et al. (2016)、Sims et al. (2014)、Illumina指南的建議，並新增⽂庫建置⽅法選擇及DNA污染影響的指導，旨在確保實驗設計穩健、可重現且具統計檢定⼒。

1. 實驗設計的重要性

良好的 RNA-Seq 實驗設計能減少偏差、提升數據質量並確保結果可重現。需考慮⽣物變異、技術變異及統計檢定⼒。來源：Melbourne Bioinformatics 教程

2. 實驗設計的關鍵原則

2.1 重複

⽣物重複：來⾃不同個體或條件的獨⽴樣本，⽤於捕捉⽣物變異。
建議：每組條件 3–5 個⽣物重複，以確保⾜夠的統計檢定⼒。
技術重複：對同⼀樣本的重複測序。現代 RNA-Seq 技術變異低，通常無需技術重複。
來源：Melbourne Bioinformatics 教程；Conesa et al., 2016 (Genome Biology, DOI: 10.1186/s13059-016-0881-8)

2.2 隨機化

將樣本隨機分配到實驗條件或測序通道，以減少系統性偏差。
來源：Melbourne Bioinformatics 教程

2.3 對照組

設置適當的對照組（如未處理組或假處理組），以便與實驗條件進⾏⽐較。
來源：Melbourne Bioinformatics 教程

2.4 配對/分組設計

使⽤配對或分組設計控制已知⼲擾因素（如批次效應或個體變異）。
例如：同⼀受試者的治療前後樣本。
來源：Melbourne Bioinformatics 教程

3. 樣本數量與測序深度

3.1 樣本數量

優先增加⽣物重複數量，⽽⾮僅提升測序深度，因⽣物變異是主要變異來源。
使⽤統計⼯具（如 Scotty、RNASeqPower）根據預期效應⼤⼩和變異估算所需樣本數。
來源：Melbourne Bioinformatics 教程；Conesa et al., 2016

3.2 測序深度

差異表達分析：

每樣本 10–30 百萬 reads ⾜以檢測⼈類轉錄組中中⾼表達基因。
來源：Conesa et al., 2016；Melbourne Bioinformatics 教程

低表達基因或轉錄組組裝：

需更⾼測序深度，以確保低豐度轉錄本的覆蓋率或重建複雜轉錄組。
建議：每樣本 50–100 百萬 reads，某些實驗可能需⾼達 200 百萬 reads，具體取決於基因組複雜性和分析⽬標。
來源：Sims et al., 2014 (Nature Reviews Genetics, DOI: 10.1038/nrg3642)；Illumina RNA-Seq 指南

通⽤範圍：每樣本 5–200 百萬 reads，依⽣物體複雜性、轉錄組⼤⼩及項⽬⽬標⽽定。

來源：Illumina RNA-Seq 指南

使⽤ Scotty 或 RNASeqPower 等⼯具根據試驗數據估算最佳深度。

來源：Melbourne Bioinformatics 教程

4. ⽂庫建置⽅法選擇

⽂庫建置是 RNA-Seq 實驗的關鍵步驟，影響數據質量和分析結果。選擇⽂庫建置⽅法需考慮實驗⽬標、樣本類型、RNA 質量、測序平台及DNA污染。

4.1 常⾒⽂庫建置⽅法

Poly-A 富集：

適⽤場景：檢測編碼 mRNA 的基因表達（如差異表達分析）。
優點：富集成熟 mRNA，減少核糖體 RNA（rRNA）⼲擾，適合⾼質量 RNA 樣本。限制：無法檢測⾮聚腺苷酸化的 RNA（如⻑⾮編碼 RNA 或某些前體 mRNA）。
建議：適⽤於⼤多數標準 RNA-Seq 實驗，特別是⼈類或哺乳動物樣本。

rRNA 去除：

適⽤場景：全⾯轉錄組分析，包括⾮編碼 RNA、pre-mRNA 或低質量/降解 RNA 樣本。
優點：保留更多 RNA 種類，適合研究⾮聚腺苷酸化轉錄本或微⽣物轉錄組。
限制：rRNA 去除效率可能不完全，成本較⾼。
建議：適⽤於轉錄組組裝或研究複雜轉錄組（如植物、細菌）。

總 RNA 測序：

適⽤場景：無需富集或去除，直接測序所有 RNA。
優點：簡單，適⽤於低起始量 RNA 或特殊樣本。
限制：rRNA 占⽐⾼，需更⾼測序深度以覆蓋⽬標 RNA。
建議：適合特殊實驗或無需特定 RNA 富集的場景。

⼩ RNA 測序：

適⽤場景：研究 miRNA、siRNA 等⼩ RNA。
優點：專注於⼩分⼦ RNA，適合調控網絡研究。
限制：需要專⽤⽂庫建置試劑盒，且無法檢測⻑ RNA。
建議：⽤於⼩ RNA 專項研究。

單細胞 RNA-Seq：

適⽤場景：分析單細胞或低輸⼊量 RNA。
優點：揭⽰細胞異質性，適合稀有細胞研究。
限制：技術複雜，成本⾼，需專⽤試劑盒（如 10x Genomics）。
建議：適⽤於單細胞轉錄組學研究。

4.2 選擇⽂庫建置⽅法的考慮因素

實驗⽬標：

差異表達分析：Poly-A 富集通常⾜夠。
轉錄組組裝或⾮編碼 RNA 研究：rRNA 去除或總 RNA 測序。
⼩ RNA 研究：⼩ RNA ⽂庫建置。

RNA 質量：

⾼質量 RNA（RIN ≥ 7）：Poly-A 富集或 rRNA 去除。
降解 RNA（如 FFPE 樣本）：rRNA 去除或總 RNA 測序。

起始 RNA 量：

標準量（>100 ng）：⼤多數⽅法適⽤。
低輸⼊量（<10 ng）：單細胞或低輸⼊量專⽤試劑盒。

測序平台：

Illumina：兼容⼤多數⽂庫建置⽅法。
⻑讀⻑測序（如 PacBio、Nanopore）：rRNA 去除或總 RNA 測序更適合。

DNA 污染：

Poly-A 富集對 DNA 污染的影響較⼩，因其特異性結合 poly-A 尾，可排除基因組 DNA。
rRNA 去除或總 RNA 測序受 DNA 污染影響較⼤，需嚴格 DNase 處理。
建議：在 RNA 提取後進⾏ DNase 處理，並通過 qPCR 或 Bioanalyzer 檢查 DNA 污染。

成本與效率：

Poly-A 富集成本較低，適合標準實驗。
rRNA 去除或單細胞 RNA-Seq 成本較⾼，需權衡預算。

4.3 實⽤建議

選擇商業試劑盒（如 Illumina TruSeq、NEBNext）以確保穩定性和重現性。進⾏試驗性⽂庫建置，測試⽂庫質量（如⽚段⼤⼩分佈）。
記錄⽂庫建置參數（如接頭序列、PCR 循環數），便於後續分析。
來源：Illumina RNA-Seq 指南；ENCODE RNA-Seq 指南；Conesa et al., 2016；Kukurba & Montgomery, 2015 (Cold Spring Harbor Protocols, DOI: 10.1101/pdb.top084970)

5. 常⾒實驗設計類型

簡單設計：單因素⽐較（如處理組 vs. 對照組）。
多因素設計：研究多個變量（如處理、時間點、基因型）。
時間序列設計：分析基因表達隨時間的變化。
配對設計：控制個體間變異（如同⼀受試者的治療前後樣本）。
來源：Melbourne Bioinformatics 教程

6. 批次效應管理

定義：由測序批次、試劑或操作⼈員差異引起的變異，可能掩蓋⽣物信號。
策略：

將樣本隨機分配到批次。
若可⾏，將所有樣本置於同⼀批次測序。
在統計模型中將批次作為協變量（如使⽤ DESeq2、limma）。
來源：Melbourne Bioinformatics 教程；Conesa et al., 2016

7. 其他注意事項

7.1 樣本質量

確保 RNA 完整性，建議 RNA 完整性數值（RIN）≥ 7，以避免數據偏差。對於更嚴格的應⽤，RIN ≥ 8 更為理想。
來源：ENCODE RNA-Seq 指南；Illumina RNA-Seq指南

7.2 元數據

記錄樣本的詳細信息（如處理條件、採集時間），便於後續分析。
來源：Melbourne Bioinformatics 教程

7.3 試驗性實驗

進⾏⼩規模試驗性實驗，優化設計參數（如樣本數、測序深度、⽂庫建置⽅法）。
來源：Melbourne Bioinformatics 教程

7.4 ⽣物信息學分析計劃

提前計劃數據分析流程，選擇合適的⼯具（如 DESeq2、edgeR）和統計⽅法。
使⽤模擬數據或公開數據集（如 GEO、ArrayExpress）測試設計可⾏性。
來源：Melbourne Bioinformatics 教程；Conesa et al., 2016

8. 實⽤建議

與⽣物信息學家或統計學家合作，確保設計符合分析需求。
參考公開- 公開資源（如 GEO、ArrayExpress）獲取相似實驗的設計靈感。
採⽤ ENCODE 數據標準進⾏質量控制和分析流程開發。
來源：Melbourne Bioinformatics 教程；ENCODE RNA-Seq 指南

9. 總結

穩健的 RNA-Seq 實驗需重視重複、隨機化、對照組、測序深度及⽂庫建置。每組條件建議 3–5 個⽣物重複，差異表達分析使⽤ 10–30 百萬reads，低表達基因或轉錄組組裝需 50–100 百萬 reads。Scotty 和 RNASeqPower 等⼯具可協助估算樣本數和測序深度。

⽂庫建置⽅法應根據實驗⽬標選擇（如 Poly-A 富集⽤於差異表達，rRNA 去除⽤於轉錄組組裝）。Poly-A 富集對 DNA 污染影響較⼩，但仍需 DNase 處理以確保數據質量。通過隨機化和統計建模控制批次效應，確保樣本質量（RIN ≥ 7）和詳細元數據。

參考⽂獻

1. Melbourne Bioinformatics RNA-Seq 實驗設計教程：

https://www.melbournebioinformatics.org.au/tutorials/tutorials/rna_seq_exp_design/rna_seq_experimental_design/

2. Conesa, A., et al. (2016). A survey of best practices for RNA-seq data analysis. Genome Biology, 17, 13. DOI: 10.1186/s13059-016-0881-8

3. Sims, D., et al. (2014). Sequencing depth and coverage: key considerations in genomic analyses. Nature Reviews Genetics, 15, 121–132. DOI: 10.1038/nrg3642

4. Illumina RNA-Seq 指南：https://www.illumina.com/content/dam/illumina-

marketing/documents/products/illumina_sequencing_introduction.pdf

5. ENCODE RNA-Seq 指南：https://www.encodeproject.org/rna-seq/

6. Kukurba, K. R., & Montgomery, S. B. (2015). RNA sequencing and analysis. Cold Spring Harbor Protocols, 2015(11), pdb.top084970. DOI: 10.1101/pdb.top084970

7. Levin, J. Z., et al. (2010). Comprehensive comparative analysis of strand-specific RNA sequencing methods. Nature Methods, 7(9), 709–715. DOI: 10.1038/nmeth.f.303

生物大數據知識補充小站

4/29/2025