生物大數據知識補充小站: 統計分析之--Principle component analysis (PCA)

5/25/2011

統計分析之--Principle component analysis (PCA)

主成分分析 Principle component analysis 說明
主成份分析所著重的在於如何「轉換」原始變項使之成為一些互相獨立的線性組合變數，而且經由線性組合而得的主成分仍保有原變數最多的資訊，其關鍵在「變異數」問題，利用求特徵值 eigenvalue 及特徵向量 eigenvector 之方法，過濾出佔最大變異數的型態，此即為最主要之型態。

主成分分析的目的

概述變數間的關係
可將原來變數轉換成新的沒有相關的變數
可用來簡化多變量資料的維度，即降低變數個數，但亦會喪失部分資訊
可解決迴歸分析裡共線性問題
可用來作一組變數的綜合指標，如物價指數 …

主成分分析的方法
方法即為找出原有變數之線性組合使其變異數最大

算出共變異數矩陣 S ，或相關矩陣分析 R
求 S 或 R 的特徵值 eigenvalue 及單位特徵向量 eigenvector
將特徵值依大小順序排列，設分別為λ₁ · λ₂ · λ₃ … λ_p
求出對應的單位特徵向量 a₁· a₂ · a₃… a_p，其中 a_i' a_i = 1 且 a_i' a_j = 0，則
y₁ = a₁' x = a₁₁x₁ + a₁₂x₂ + … + a_1px_p　為第一主成分
y₂ = a₂' x = a₂₁x₁ + a₂₂x₂ + … + a_2px_p　為第二主成分
：：︰　　　　　　：：︰
y_p = a_p' x = a_p1x₁ + a_p2x₂ + … + a_ppx_p　為第 p 主成分

簡化多變量資料的變數個數

解釋的變異比例
若只取最大的 q 個主成分代替原有的 p 個變數，則這 q 個主成分解釋的變異比例為

一般以能解釋原有變數變異達 70% 以上為原則
陡坡圖 Scree plot
由特徵值對特徵值的總和 ( 即特徵值的個數 ) 劃散佈圖，找到開始平坦的點，即為所求個數
亦有其他多種統計上正式分析，但並無標準制式規定的分析統計量

主成分分析的注意事項

當變數間共線性低則無須利用主成分分析作簡化
主成分分析可使用共變異數矩陣，亦可用相關矩陣分析，但當變數間單位不同或差異頗大時，應使用相關矩陣進行分析較佳
簡化多變量資料的維度以能解釋原有變數變異達 70% 以上為原則，但最重要須考量喪失部分資訊後損失的問題

資料來源: 統計生活館 http://home.educities.edu.tw/rebecca0924/stat/pca/index.html

No comments:

Subscribe to: Post Comments (Atom)