主成份分析所著重的在於如何「轉換」原始變項使之成為一些互相獨立的線性組合變數,而且經由線性組合而得的主成分仍保有原變數最多的資訊,其關鍵在「變異數」問題,利用求特徵值 eigenvalue 及特徵向量 eigenvector 之方法,過濾出佔最大變異數的型態,此即為最主要之型態。
- 概述變數間的關係
- 可將原來變數轉換成新的沒有相關的變數
- 可用來簡化多變量資料的維度,即降低變數個數,但亦會喪失部分資訊
- 可解決迴歸分析裡共線性問題
- 可用來作一組變數的綜合指標,如物價指數 …
方法即為找出原有變數之線性組合使其變異數最大
- 算出共變異數矩陣 S ,或相關矩陣分析 R
- 求 S 或 R 的特徵值 eigenvalue 及單位特徵向量 eigenvector
- 將特徵值依大小順序排列,設分別為λ1 · λ2 · λ3 … λp
- 求出對應的單位特徵向量 a1· a2 · a3 … ap ,其中 ai' ai = 1 且 ai' aj = 0,則
y1 = a1' x = a11 x1 + a12 x2 + … + a1p xp 為第一主成分
y2 = a2' x = a21 x1 + a22 x2 + … + a2p xp 為第二主成分
::︰ ::︰
yp = ap' x = ap1 x1 + ap2 x2 + … + app xp 為第 p 主成分
- 當變數間共線性低則無須利用主成分分析作簡化
- 主成分分析可使用共變異數矩陣,亦可用相關矩陣分析,但當變數間單位不同或差異頗大時,應使用相關矩陣進行分析較佳
- 簡化多變量資料的維度以能解釋原有變數變異達 70% 以上為原則,但最重要須考量喪失部分資訊後損失的問題
No comments:
Post a Comment