主成分分析- 維基百科,自由的百科全書
文章推薦指數: 80 %
在多元統計分析中,主成分分析(英語:Principal components analysis,PCA)是一種統計分析、簡化數據集的方法。
它利用正交轉換來對一系列可能相關的變數的觀測值進行 ...
主成分分析
維基百科,自由的百科全書
跳至導覽
跳至搜尋
一個高斯分布,平均值為(1,3),標準差在(0.878,0.478)方向上為3、在其正交方向上為1的主成分分析。
黑色的兩個向量是此分布的共變異數矩陣的特徵向量,其長度為對應的特徵值之平方根,並以分布的平均值為原點。
在多元統計分析中,主成分分析(英語:Principalcomponentsanalysis,PCA)是一種統計分析、簡化數據集的方法。
它利用正交轉換來對一系列可能相關的變數的觀測值進行線性轉換,從而投影為一系列線性不相關變數的值,這些不相關變數稱為主成分(PrincipalComponents)。
具體地,主成分可以看做一個線性方程式,其包含一系列線性係數來指示投影方向。
PCA對原始數據的正則化或預處理敏感(相對縮放)。
基本思想:
將坐標軸中心移到數據的中心,然後旋轉坐標軸,使得數據在C1軸上的變異數最大,即全部n個數據個體在該方向上的投影最為分散。
意味著更多的訊息被保留下來。
C1成為第一主成分。
C2第二主成分:找一個C2,使得C2與C1的共變異數(相關係數)為0,以免與C1訊息重疊,並且使數據在該方向的變異數儘量最大。
以此類推,找到第三主成分,第四主成分……第p個主成分。
p個隨機變數可以有p個主成分[1]。
主成分分析經常用於減少數據集的維數,同時保留數據集當中對變異數貢獻最大的特徵。
這是通過保留低維主成分,忽略高維主成分做到的。
這樣低維成分往往能夠保留住數據的最重要部分。
但是,這也不是一定的,要視具體應用而定。
由於主成分分析依賴所給數據,所以數據的準確性對分析結果影響很大。
主成分分析由卡爾·皮爾森於1901年發明[2],用於分析數據及建立數理模型,在原理上與主軸定理(英語:Principalaxistheorem)相似。
之後在1930年左右由哈羅德·霍特林獨立發展並命名。
依據應用領域的不同,在信號處理中它也叫做離散K-L轉換(discreteKarhunen–Loèvetransform(KLT))。
其方法主要是通過對共變異數矩陣進行特徵分解[3],以得出數據的主成分(即特徵向量)與它們的權值(即特徵值[4])。
PCA是最簡單的以特徵量分析多元統計分布的方法。
其結果可以理解為對原數據中的變異數做出解釋:哪一個方向上的數據值對變異數的影響最大?換而言之,PCA提供了一種降低數據維度的有效辦法;如果分析者在原數據中除掉最小的特徵值所對應的成分,那麼所得的低維度數據必定是最優化的(也即,這樣降低維度必定是失去訊息最少的方法)。
主成分分析在分析複雜數據時尤為有用,比如人臉識別。
PCA是最簡單的以特徵量分析多元統計分布的方法。
通常,這種運算可以被看作是揭露數據的內部結構,從而更好地展現數據的變異度。
如果一個多元數據集是用高維數據空間之坐標系來表示的,那麼PCA能提供一幅較低維度的圖像,相當於數據集在訊息量最多之角度上的一個投影。
這樣就可以利用少量的主成分讓數據的維度降低了。
PCA跟因子分析密切相關。
因子分析通常包含更多特定領域底層結構的假設,並且求解稍微不同矩陣的特徵向量。
PCA也跟典型相關分析(CCA)有關。
CCA定義的坐標系可以最佳地描述兩個數據集之間的交叉共變數,而PCA定義了新的正交坐標系,能最佳地描述單個數據集當中的變異數。
目次
1數學定義
2討論
3符號和縮寫表
4主成分分析的屬性和限制
5主成分分析和信息理論
6使用統計方法計算PCA
7組織數據集
8計算經驗均值
9計算平均偏差
10求協方差矩陣
10.1查找協方差矩陣的特徵值和特徵向量
11參見
12注釋
13參考
數學定義[編輯]
PCA的數學定義是:一個正交化線性轉換,把數據轉換到一個新的坐標系統中,使得這一數據的任何投影的第一大變異數在第一個坐標(稱為第一主成分)上,第二大變異數在第二個坐標(第二主成分)上,依次類推[5]。
定義一個n×m的矩陣,XT為去平均值(以平均值為中心移動至原點)的數據,其行為數據樣本,列為數據類別(注意,這裡定義的是XT而不是X)。
則X的奇異值分解為X=WΣVT,其中m×m矩陣W是XXT的特徵向量矩陣,Σ是m×n的非負矩形對角矩陣,V是n×n的XTX的特徵向量矩陣。
據此,
Y
⊤
=
X
⊤
W
=
V
Σ
⊤
W
⊤
W
=
V
Σ
⊤
{\displaystyle{\begin{aligned}{\boldsymbol{Y}}^{\top}&={\boldsymbol{X}}^{\top}{\boldsymbol{W}}\\&={\boldsymbol{V}}{\boldsymbol{\Sigma}}^{\top}{\boldsymbol{W}}^{\top}{\boldsymbol{W}}\\&={\boldsymbol{V}}{\boldsymbol{\Sigma}}^{\top}\end{aligned}}}
當m
延伸文章資訊
- 1成分分析| Composition Analysis | 科安企業
科安公司提供一系列成分分析的解決方案,如遠紅外線(NIR,Near Infrared)可檢測廢棄物中的石綿成份、核磁共振(NMR,Nuclear Magnetic Resonance)技術可準確...
- 2食品營養成分資料庫(新版)_消費者專區
- 3類別主成分分析(CATPCA) - IBM
類別主成分分析也可稱為CATPCA,為categorical principal components analysis 的縮寫。 主成分分析的目的,是要將原始的變數集,縮小為較小的不相關成分集...
- 4產品成分分析| 消費性產品及零售產業 - SGS
產品成分分析PRODUCT COMPOSITION ANALYSIS. SGS 在協助全球客戶驗證化妝品產品成分方面擁有數十年的經驗。 產品成分分析. 我們的產品成分分析讓您放心,對您的產品 ...
- 5component analysis - 成分分析 - 國家教育研究院雙語詞彙
出處/學術領域, 中文詞彙, 英文詞彙. 學術名詞 統計學名詞, 成分分析, component analysis. 學術名詞 教育學名詞-科教名詞, 成分分析, componential an...