spss案例教程&主成分分析與因子分析及SPSS實現 - 台部落

文章推薦指數: 80 %
投票人數:10人

主成分分析的本質是座標的旋轉變換,將原始的n個變量進行重新的線性組合,生成n個新的變量,他們之間互不相關,稱爲n個“成分”。

同時按照方差最大化的原則 ... 請輸入正確的登錄賬號或密碼 註冊 忘記密碼 首頁 spss 正文 spss案例教程&主成分分析與因子分析及SPSS實現 原創 数据分析支持加Q3304807993 2019-01-1612:51 spss案例教程 原文地址:https://www.ixueshu.com/document/934cf7bb1ff99338318947a18e7f9386.html 主成分分析與因子分析及SPSS實現一、主成分分析(1)問題提出在問題研究中,爲了不遺漏和準確起見,往往會面面俱到,取得大量的指標來進行分析。

比如爲了研究某種疾病的影響因素,我們可能會收集患者的人口學資料、病史、體徵、化驗檢查等等數十項指標。

如果將這些指標直接納入多元統計分析,不僅會使模型變得複雜不穩定,而且還有可能因爲變量之間的多重共線性引起較大的誤差。

有沒有一種辦法能對信息進行濃縮,減少變量的個數,同時消除多重共線性?這時,主成分分析隆重登場。

(2)主成分分析的原理主成分分析的本質是座標的旋轉變換,將原始的n個變量進行重新的線性組合,生成n個新的變量,他們之間互不相關,稱爲n個“成分”。

同時按照方差最大化的原則,保證第一個成分的方差最大,然後依次遞減。

這n個成分是按照方差從大到小排列的,其中前m個成分可能就包含了原始變量的大部分方差(及變異信息)。

那麼這m個成分就成爲原始變量的“主成分”,他們包含了原始變量的大部分信息。

注意得到的主成分不是原始變量篩選後的剩餘變量,而是原始變量經過重新組合後的“綜合變量”。

我們以最簡單的二維數據來直觀的解釋主成分分析的原理。

假設現在有兩個變量X1、X2,在座標上畫出散點圖如下: 可見,他們之間存在相關關係,如果我們將座標軸整體逆時針旋轉45°,變成新的座標系Y1、Y2,如下圖:根據座標變化的原理,我們可以算出:Y1=sqrt(2)/2*X1+sqrt(2)/2*X2Y2=sqrt(2)/2*X1–sqrt(2)/2*X2其中sqrt(x)爲x的平方根。

通過對X1、X2的重新進行線性組合,得到了兩個新的變量Y1、Y2。

此時,Y1、Y2變得不再相關,而且Y1方向變異(方差)較大,Y2方向的變異(方差)較小,這時我們可以提取Y1作爲X1、X2的主成分,參與後續的統計分析,因爲它攜帶了原始變量的大部分信息。

至此我們解決了兩個問題:降維和消除共線性。

對於二維以上的數據,就不能用上面的幾何圖形直觀的表示了,只能通過矩陣變換求解,但是本質思想是一樣的。

二、因子分析(一)原理和方法:因子分析是主成分分析的擴展。

在主成分分析過程中,新變量是原始變量的線性組合,即將多個原始變量經過線性(座標)變換得到新的變量。

因子分析中,是對原始變量間的內在相關結構進行分組,相關性強的分在一組,組間相關性較弱,這樣各組變量代表一個基本要素(公共因子)。

通過原始變量之間的複雜關係對原始變量進行分解,得到公共因子和特殊因子。

將原始變量表示成公共因子的線性組合。

其中公共因子是所有原始變量中所共同具有的特徵,而特殊因子則是原始變量所特有的部分。

因子分析強調對新變量(因子)的實際意義的解釋。

舉個例子:比如在市場調查中我們收集了食品的五項指標(x1-x5):味道、價格、風味、是否快餐、能量,經過因子分析,我們發現了:x1=0.02*z1+0.99*z2+e1x2=0.94*z1–0.01*z2+e2x3=0.13*z1+0.98*z2+e3x4=0.84*z1+0.42*z2+e4x5=0.97*z1–0.02*z2+e1(以上的數字代表實際爲變量間的相關係數,值越大,相關性越大)第一個公因子z1主要與價格、是否快餐、能量有關,代表“價格與營養”第二個公因子z2主要與味道、風味有關,代表“口味”e1-5是特殊因子,是公因子中無法解釋的,在分析中一般略去。

同時,我們也可以將公因子z1、z2表示成原始變量的線性組合,用於後續分析。

(二)使用條件:(1)樣本量足夠大。

通常要求樣本量是變量數目的5倍以上,且大於100例。

(2)原始變量之間具有相關性。

如果變量之間彼此獨立,無法使用因子分析。

在SPSS中可用KMO檢驗和Bartlett球形檢驗來判斷。

(3)生成的公因子要有實際的意義,必要時可通過因子旋轉(座標變化)來達到。

三、主成分分析和因子分析的聯繫與區別聯繫:兩者都是降維和信息濃縮的方法。

生成的新變量均代表了原始變量的大部分信息且互相獨立,都可以用於後續的迴歸分析、判別分析、聚類分析等等。

區別:(1)主成分分析是按照方差最大化的方法生成的新變量,強調新變量貢獻了多大比例的方差,不關心新變量是否有明確的實際意義。

(2)因子分析着重要求新變量具有實際的意義,能解釋原始變量間的內在結構。

SPSS沒有提供單獨的主成分分析方法,而是混在因子分析當中,下面通過一個例子來討論主成分分析與因子分析的實現方法及相關問題。

 一、問題提出 男子十項全能比賽包含100米跑、跳遠、跳高、撐杆跳、鉛球、鐵餅、標槍、400米跑、1500米跑、110米跨欄十個項目,總分爲各個項目得分之和。

爲了分析十項全能主要考察哪些方面的能力,以便有針對性的進行訓練,研究者收集了134個頂級運動員的十項全能成績單,將通過因子分析來達到分析目的。

 二、分析過程 變量視圖: 數據視圖(部分):菜單選擇(分析->降維->因子分析):打開因子分析的主界面,將十項成績選入”變量“框中(不要包含總分),如下:點擊”描述“按鈕,打開對話框,選中”係數“和”KMO和Bartlett球形度檢驗“:上圖相關解釋:”係數“:爲變量之間的相關係數陣列,可以直觀的分析相關性。

”KMO和Bartlett球形度檢驗“:用於定量的檢驗變量之間是否具有相關性。

點擊”繼續“,回到主界面,點擊”抽取“,打開對話框。

”方法“=>”主成分“,”輸出“=>”未旋轉的因子解“和”碎石圖“,”抽取“=>”基於特徵值“,其餘選擇默認。

解釋:①因子抽取的方法:選取默認的主成分法即可,其餘方法的計算結果可能有所差異。

②輸出:”未旋轉的因子解”極爲主成分分析結果。

碎石圖有助於我們判斷因子的重要性(詳細介紹見後面)。

③抽取:爲抽取主成分(因子)的方法,一般是基於特徵值大於1,默認即可。

點擊”繼續“,回到主界面,點擊”確定“,進入分析。

輸出的主要表格如下:(1)相關性檢驗因子分析要求變量之間有相關性,所以首先要進行相關性檢驗。

首先輸出的是變量之間的相關係數矩陣:可以直觀的看到,變量之間有相關性。

但需要檢驗,接着輸出的是相關性檢驗:上圖有兩個指標:第一個是KMO值,一般大於0.7就說明不了之間有相關性了。

第二個是Bartlett球形度檢驗,P值<0.001。

綜合兩個指標,說明變量之間存在相關性,可以進行因子分析。

否則,不能進行因子分析。

(2)提取主成分和公因子接下來輸出主成分結果:這就是主成分分析的結果,表中第一列爲10個成分;第二列爲對應的”特徵值“,表示所解釋的方差的大小;第三列爲對應的成分所包含的方差佔總方差的百分比;第四列爲累計的百分比。

一般來說,選擇”特徵值“大於1的成分作爲主成分,這也是SPSS默認的選擇。

在本例中,成分1和2的特徵值大於1,他們合計能解釋71.034%的方差,還算不錯。

所以我們可以提取1和2作爲主成分,抓住了主要矛盾,其餘成分包含的信息較少,故棄去。

下面,輸出碎石圖,如下:碎石圖來源於地質學的概念。

在岩層斜坡下方往往有很多小的碎石,其地質學意義不大。

碎石圖以特徵值爲縱軸,成分爲橫軸。

前面陡峭的部分特徵值大,包含的信息多,後面平坦的部分特徵值小,包含的信息也小。

由圖直觀的看出,成分1和2包含了大部分信息,從3開始就進入平臺了。

接下來,輸出提取的成分矩陣:上表中的數值爲公因子與原始變量之間的相關係數,絕對值越大,說明關係越密切。

公因子1和9個運動項目都正相關(注意跑步運動運動的計分方式,時間越短,分數越高),看來只能稱爲“綜合運動”因子了。

公因子2與鐵餅、鉛球正相關,與1500米跑、400米跑負相關,這究竟代表什麼意思呢?看來只能成爲“不知所云”因子了。

(三)因子旋轉前面提取的兩個公因子一個是大而全的“綜合因子”,一個不知所云,得到這樣的結果,無疑是分析的失敗。

不過,不要灰心,我們可以通過因子的旋轉來獲得更好的解釋。

在主界面中點擊“旋轉”按鈕,打開對話框,“方法”=>“最大方差法”,“輸出”=>“旋轉解”。

點擊“繼續”,回到主界面點擊“確認”進行分析。

輸出結果如下:這是選擇後的成分矩陣。

經過旋轉,可以看出:公因子1得分越高,所有的跑步和跨欄成績越差,而跳遠、撐杆跳等需要助跑類項目的成績也越差,所以公因子1代表的是奔跑能力的反向指標,可稱爲“奔跑能力”。

公因子2與鐵餅和鉛球的正相關性很高,與標槍、撐杆跳等需要上肢力量的項目也正相關,所以該因子可以成爲“上肢力量”。

經過旋轉,可以看出公因子有了更合理的解釋。

(四)結果的保存在最後,我們還要將公因子儲存下來供後續使用。

點擊“得分”按鈕,打開對話框,選中“保存爲變量”,方法採用默認的“迴歸”方法,同時選中“顯示因子得分系數矩陣”。

SPSS會自動生成2個新變量,分別爲公因子的取值,放在數據的最後。

同時會輸出一個因子係數表格:由上圖,我們可以寫出公因子的表達式(用F1、F2代表兩個公因子,Z1~Z10分別代表原始變量):F1=-0.16*Z1+0.161*Z2+0.145*Z3+0.199*Z4-0.131*Z5-0.167*Z6+0.137*Z7+0.174*Z8+0.131*Z9-0.037*Z10F2同理,略去。

注意,這裏的變量Z1~Z10,F1、F2不再是原始變量,而是標準正態變換後的變量。

將教程和案例整合在一起了,方便大家學習 發表評論 登录 所有評論 還沒有人評論,想成為第一個評論的人麼?請在上方評論欄輸入並且點擊發布. 相關文章 利用SPSS做數據分析②之數據處理1 SPSS數據處理有六個步驟,分別是: 數據導入 數據清洗 數據抽取 數據合併 數據分組 數據標準化 數據處理是根據數據分析的目的,將收集到的數據,用適當的處理方法進行加工、整理,形成適合數據分析的要求樣式,它是數據分析前必 糖潮丽子 2020-06-2920:08:27 利用SPSS做數據分析①(瞭解SPSS) 話不多說,上才藝,BGM,BGM,BGMBGM。





哈哈哈哈 不鬧了,接下來讓我們一起認識一個非常好用的數據分析工具:SPSS 1、SPSS是什麼? SPSS是廣大統計愛好者和數據分析師最熟悉的名字,它是一款在市場研究、醫學統計 糖潮丽子 2020-06-2719:36:21 SPSS——非參數檢驗——1-SampleK-S單個樣本(Kolmogorov-Smirnov)柯爾莫哥洛夫-斯米諾夫檢驗 簡介 K-S檢驗是以兩位蘇聯數學家Kolmogorov和Smirnov的名字命名的,它是一個擬合優度檢驗,研究樣本觀察值的分佈和設定的理論分佈是否吻合,通過對兩個分佈差異的分析確定是否有理由認爲樣本的觀察結果來自所假定的理論分佈總 会编程的大白熊 2020-06-2422:33:14 數據不符合正態分佈怎麼處理呢 在實際研究中,很多時候都需要數據滿足正態分佈纔可以。

比如說迴歸分析,其實做迴歸分析有一個前提條件即因變量需要滿足正態分佈性。

也比如說方差分析,其有一個潛在的前提假定即因變量Y需要滿足正態分佈。

還有很多種情況,比如T檢驗,相關分析等等。

但 spssau 2020-07-0507:10:07 SPSS學習筆記--相依樣本t檢驗 注:參考書籍《SPSS其實很簡單》 相依樣本t檢驗,又稱:配對樣本t檢驗,重複測量t檢驗,匹配樣本t檢驗 相依樣本t檢驗的關鍵在於:兩樣本間在某一方面存在自然聯繫。

比如:兩樣本可能包含同一個人在不同時刻進行測量或者兩個有聯繫的 萝卜丝皮尔 2020-07-0323:26:51 利用SPSS做數據分析②之數據處理2 接着上一篇數據處理的內容,我們今天一起來學習【數據合併、分組、標準化】: 1、數據合併(記錄合併) 記錄合併也叫縱向合併,是將具有共同的數據字段、結構,不同的數據表記錄,合併到一個新的數據表中。

現在有兩張表,一張“用戶明細-男 糖潮丽子 2020-07-0315:11:51 【RedHat-7.7】上初次搭建與配置SPSS 【RedHat-7.7】上初次搭建與配置 IBMSPSSAnalyticServer 簡介 SPSS,StatisticalProductandServiceSolutions,包括一系列軟件,包括: IBMSPSSSt qu6zhi 2020-07-0308:56:31 SPSS常見數據分析方法比較彙總 SPSS作爲一款成熟的數據分析工具,其主要特點就是將各種各樣的統計分析方法流程化模塊化。

一、SPSS常用多變量分析技術比較彙總表注: 卡方分析:定量兩個定性變量的關聯程度 簡單相關分析:計量兩個計量變量的相關程度 獨立樣本T檢驗: aurorayqz 2020-06-3014:14:08 從頭學計量-T檢驗和方差檢驗 T檢驗 t檢驗的價值:需要有固定又客觀的標準用以判斷兩個羣體的數值是否有差異,而不是主觀題斷。

  獨立樣本t檢驗的前提條件         sig=0.000拒絕原假設,所以有差別,又小於0.001,所以顯著 方差分析:可 Data_Designer 2020-06-2802:30:24 從頭學計量-SPSS實操迴歸分析 目錄   一元迴歸分析 迴歸前可以先進行數據預處理 多元迴歸 二次項迴歸 分類變量回歸(自變量爲分類變量) ​ 一元迴歸分析   迴歸前可以先進行數據預處理 數據的標準化不會影響實驗的顯著性 數據中心化=原始數據-均值   多 Data_Designer 2020-06-2802:30:24 從頭學計量-中介效應理論介紹 中介效應理論         Process插件沒有檢驗總效應的Bootstrap,可以在用迴歸中的自助抽樣進行檢驗。

      解釋流程   多重中介效應     鏈式中介   Data_Designer 2020-06-2802:30:24 SPSS——非參數檢驗——2RelatedIndependentsample兩個相關樣本檢驗 簡介 在總體分佈未知的條件下對樣本來自的兩相關配對總體是否具有顯著差異進行的檢驗,可以判斷兩個相關的樣本是否來自相同分佈的總體 檢驗方法 符號檢驗 符號檢驗是一種利用正、負號的數目對某種假設作出判定的非參數檢驗方法。

符號檢驗的 会编程的大白熊 2020-06-2422:33:14 SPSS——非參數檢驗——Chi-square卡方檢驗 簡介 不需要對總體分佈作任何事先的假設(如正態分佈) 從檢驗內容上說,也不是檢驗總體分佈的某些參數,而是檢驗總體某些有關的性質,所以稱爲非參數檢驗 前面進行的假設檢驗和方差分析,大都是在數據服從正態分佈或近似地服從正態分佈的條 会编程的大白熊 2020-06-2422:33:14 IBMSPSSStatisticsSubscription新版本發佈 IBMSPSSStatistics是世界領先的統計分析軟件,至今已經有40多年的發展歷程,廣泛地應用於各個行業的分析領域,它的專業性及易用性,深受使用者的喜愛,在統計分析領域一直處於領導者地位。

2017年3月7日,IBMSPSS 数控小J 2020-06-2421:57:26 從頭學計量-SPSS攻克常見信度檢驗1 目錄   頻次分析 數據標準化 皮爾森相關係數 內部一致性信度Cronbachα檢驗 組合信度,CR 共同方法偏差CMB 頻次分析 注意結果的導出: excel中排版,再複製到word中   數據標準化     皮爾森相關係數 Data_Designer 2020-06-2406:45:34 数 数据分析支持加Q3304807993 24小時熱門文章 最新文章 數學建模服務 基於粒子羣算法的線性規劃+帶約束條件的求解+物流選址 spss案例教程&主成分分析與因子分析及SPSS實現 提供技術支持 評價類(模糊綜合評價+層次分析法模型) 最新評論文章 加賴690023高挑性感蕾蕾可吸可舔可69可吞精時間長互動好基本沒有任何限制超讚! 簡單脈搏波波形分析系統設計與實現 觸摸板增強神器BetterTouchTool中文設置教程 奮鬥者ENFP深度解析、職業方向推薦及人際關係 centos7mysql8安裝和卸載 深切緬懷 2021年年終總結和2022年展望 Java認證考試OCAJP經驗總結 Appbundle打包簽名、安裝調試 5G/NR/LTE學習筆記:事件測量



請為這篇文章評分?