主成分分析的概念及應用 - Medium
文章推薦指數: 80 %
簡單來說,主成分分析能將眾多的變數(如5個變數),透過少數幾個變數來描述(如2個主成分)。
例如:將學生的國語、英文、數學、社會、自然等5項 ...
Marketingdatascience關於我們經理人商普筆記資料科學精華共筆文章行銷資料科學實戰案例產業情境數據分析應用熱門課程資訊所有文章檢索到粉專聯絡我們主成分分析的概念及應用行銷資料科學FollowAug23,2019·4minread在這個充滿大數據的時代裡,要蒐集到資料並非一件難事,但如何分析資料,並且找出這些資料背後的價值,是身為行銷人的我們必須學會的技能。
在這項技能的背後,「統計」又扮演著非常重要的角色。
也因此,我們將陸續介紹這些統計工具。
而本篇文章,將介紹「主成分分析(PrincipalComponentAnalysis)」。
簡單來說,主成分分析能將眾多的變數(如5個變數),透過少數幾個變數來描述(如2個主成分)。
例如:將學生的國語、英文、數學、社會、自然等5項成績(即5個變數),透過主成分分析後,得到:「綜合成績」與「文理科成績」兩項指標(如2個主成分)。
接著,將以上兩項指標(主成分)當作X軸與Y軸,還可以畫出「主成份負荷圖」,來呈現各個學生在兩項指標(主成分)上的位置,如圖1所示。
圖1主成份負荷圖(繪圖者:鄭雅馨)資料來源:栗原伸一,丸山敦史,《統計學圖鑑:未來10年的最熱技能,保持領先,必學「極簡統計」!》,譯者:李貞慧,楓葉社文化,2019/05/02主成份分析能夠將一組高度相關的變數,建構出背後的「指標(主成分)」。
例如上述中的學生的國語、英文、數學、社會、自然成績,其指標為:「綜合成績」與「文理科成績」。
或是將棒球隊的一壘安打、二壘安打、三壘安打、全壘打、打點、盜壘次數、四壞球等變數,進行主成份分析,可得到「上壘」、「打擊者」、「安打」等指標。
至於最多能萃取出多少主成分。
理論上,K個變數,最多能萃取出K個主成份,但萃取出K的主成分的意義不大,因為這違反了一開始進行主成分分析的目的—即透過少數變數來描述眾多變數。
此外,經過主成分分析所萃取出的主成份,重要性依序遞減,第一個所萃取出的主成份,解釋力最高。
那到底該萃取出多少主成分?統計上,我們可以利用陡坡圖,根據凱莎(kaiser)準則,保留特徵值大於1的主成份。
另外,就是根據自己的需求來決定。
至於需求數的多寡,在應用上,最常見的是萃取出1個主成分,以及2個主成分。
1.單一主成分通常當我們只想找出一個「總指標」,就會只保留第一個主成份。
例如:將應徵勞動工作者的身高、體重、胸圍、負重跑百米的時間等變數,透過主成分分析,萃取出背後的「體格」指標。
這時,面試官就可透過「體格」這項指標,來進行排序,進而作為甄選的依據。
或是將各種通路商的合作時間、公司成立時間、每年進貨數量、每次進貨數量、應收帳款時間、繳款時間…等變數,透過主成分分析,找出「優質廠商」指標,以作為給予各家廠商折扣多寡的依據。
2.雙主成分在行銷上,「品牌定位」是個重要的議題。
當我們萃取出雙主成分時,就可以根據這兩項主成分,發展出「定位圖」。
舉例來說,透過儀器檢測市場上不同品牌啤酒的各種資料(如乙醛、乙酸乙酯等),透過主成份分析,找出兩項主成分(香醇與酒勁),協助企業發展品牌定位策略,或是做為改善產品的依據。
最後,主成分分析的目的,在透過少數變數來描述眾多變數,應用到資料科學領域,很適合用來「降維」(Dimensionreduction)。
在進行資料分析時,變數太多,會增加分析的複雜度,相對的,所投入的時間與資源也就更多。
而每個變數,就是一個維度,主成分分析能用少數變數來描述眾多變數,亦即能降低變數的維度(如圖2所示)。
舉一個在行銷資料科學上的實際應用—人臉辨識(雖然這項應用早在1991年就被提出),因為人臉辨識所牽涉到的變數很多,透過主成分分析可以萃取出少數的臉部特徵,來減少影像誤判的結果。
圖2降維(繪圖者:陳靖宜)資料來源:MatthiasScholz,Ph.D.thesis透過主成份分析,我們能將眾多的變數,透過少數幾個變數來描述。
進而協助我們分析資料,並且找出這些資料背後的價值。
作者:李宛樺(臺灣行銷研究特約編輯)、蘇宇暉(台科大管研所博士候選人)繪圖者:陳靖宜(臺灣行銷研究特約設計師)、鄭雅馨(臺灣行銷研究特約設計師)歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r您可能有興趣:Marketingdatascience行銷資料科學 — 數據驅動精準行銷。
基礎概念、趨勢、方法和實戰。
100經理人商普筆記行銷資料科學100 claps100Marketingdatascience行銷資料科學 — 數據驅動精準行銷。
基礎概念、趨勢、方法和實戰。
Writtenby行銷資料科學FollowMarketingdatascience.台灣第一個行銷資料科學(MDS)知識部落,本粉絲專頁在探討行銷資料科學之基礎概念、趨勢、新工具和實作,讓粉絲們瞭解資料科學的行銷運用,並開啟厚植數據分析能力之契機。
粉絲專頁:https://www.facebook.com/MarketingDataScienceTMRMarketingdatascience行銷資料科學 — 數據驅動精準行銷。
基礎概念、趨勢、方法和實戰。
延伸文章資訊
- 1R筆記–(7)主成份分析(2012美國職棒MLB) - RPubs
主成份分析; 選擇多少個主成份? 陡坡圖(Scree plot)-凱莎原則; 累積解釋圖(Pareto plot). 線性組合的係數(主成份和原變數的關係). 第一主成份 ...
- 2PCA 主成分分析(Principal Component Analysis) - HackMD
- 3第81 章主成分分析Principal Component Analysis | 醫學統計學
所以,當對樣本測量了很多很多的變量的時候,我們會發現很多變量之間存在內部相關性,於是我們可以通過主成分分析來留下幾個能解釋整體數據的最主要的成分,並且保留數據的 ...
- 4世上最生動的PCA:直觀理解並應用主成分分析 - LeeMeng
主成分分析(Principal Component Analysis, 後簡稱為PCA)在100 年前由英國數學家卡爾·皮爾森發明,是一個至今仍在機器學習與統計學領域中被廣泛用來 ...
- 5主成分分析- SAS Taiwan
在多變量分析中,主成分分析(Principal components analysis, PCA)是一種分析、簡化數據集的技術。利用原有的變數組合成新的變數,以達到資料縮減的 ...