5/25/2011

統計分析之--Principle component analysis (PCA)

image


  • 主成分分析 Principle component analysis 說明
    主成份分析所著重的在於如何「轉換」原始變項使之成為一些互相獨立的線性組合變數,而且經由線性組合而得的主成分仍保有原變數最多的資訊,其關鍵在「變異數」問題,利用求特徵值 eigenvalue 及特徵向量 eigenvector 之方法,過濾出佔最大變異數的型態,此即為最主要之型態。




  • 主成分分析的目的
    1. 概述變數間的關係
    2. 可將原來變數轉換成新的沒有相關的變數
    3. 可用來簡化多變量資料的維度,即降低變數個數,但亦會喪失部分資訊
    4. 可解決迴歸分析裡共線性問題
    5. 可用來作一組變數的綜合指標,如物價指數 …




  • 主成分分析的方法
    方法即為找出原有變數之線性組合使其變異數最大
    1. 算出共變異數矩陣 S ,或相關矩陣分析 R
    2. 求 S 或 R 的特徵值 eigenvalue 及單位特徵向量 eigenvector
    3. 將特徵值依大小順序排列,設分別為λ1 · λ2 · λ3 … λp
    4. 求出對應的單位特徵向量 a1· a2 · a3 … ap ,其中 ai' ai = 1 且 ai' aj = 0,則
      y1 = a1' x = a11 x1 + a12 x2 + … + a1p xp 為第一主成分
      y2 = a2' x = a21 x1 + a22 x2 + … + a2p xp 為第二主成分
      ::︰      ::︰
      yp = ap' x = ap1 x1 + ap2 x2 + … + app xp 為第 p 主成分




  • 簡化多變量資料的變數個數
    1. 解釋的變異比例
      若只取最大的 q 個主成分代替原有的 p 個變數,則這 q 個主成分解釋的變異比例為
       image
      一般以能解釋原有變數變異達 70% 以上為原則
    2. 陡坡圖 Scree plot
      由特徵值對特徵值的總和 ( 即特徵值的個數 ) 劃散佈圖,找到開始平坦的點,即為所求個數
    3. 亦有其他多種統計上正式分析,但並無標準制式規定的分析統計量




  • 主成分分析的注意事項




    1. 當變數間共線性低則無須利用主成分分析作簡化
    2. 主成分分析可使用共變異數矩陣,亦可用相關矩陣分析,但當變數間單位不同或差異頗大時,應使用相關矩陣進行分析較佳
    3. 簡化多變量資料的維度以能解釋原有變數變異達 70% 以上為原則,但最重要須考量喪失部分資訊後損失的問題
    資料來源: 統計生活館 http://home.educities.edu.tw/rebecca0924/stat/pca/index.html

    No comments: