【實驗目的】

學會統計指標的計算及統計函數的使用方法和“數據分析”中的“描述統計”工具的應用。

【實驗內容】

【例3-1】 仍使用第二章實驗一的原始數據(見表2-1)。

要求:計算眾數、中位數、均值、截尾平均數、方差、標準差、標準偏差、離散係數、偏態和峰度。參見數據文件:Excel 2-1.xls。

【實驗步驟與實驗結果】

1.利用統計函數分別計算各統計分析指標(見表3-1)

表3-1 相關統計函數表達式表

現以眾數為例說明實驗步驟:

(1)輸入數據,可以采用手工輸入函數名稱及參數方式計算眾數,單擊任一單元格,輸入“=MODE(A1:I12)”,回車後即可得眾數為235(見圖3-1)。

圖3-1 手動輸入MODE函數名稱計算眾數

(2)通過“公式”菜單中的“插入函數”子菜單,選擇統計函數MODE,填寫MODE對話框,點擊“確定”按鈕,得到眾數為:235(見圖3-2)。其他指標計算可采用類似方法,此處不再贅述。

圖3-2 “MODE函數”對話框

2.利用數據分析中的“描述統計”工具計算各指標

(1)輸入數據,注意:需將所有數據輸入在一列或者一行單元格(本例中數據輸入區域為A1~A108)。

(2)點擊“數據”菜單的“數據分析”子菜單,用鼠標雙擊數據分析工具中的“描述統計”選項或者選擇“描述統計”選項後點擊“確定”按鈕(見圖3-3)。

(3)填寫“描述統計”對話框,填寫數據輸入區域、輸出選項、彙總統計,第K大值,第K小值等有關選項,在輸入區域中輸入$A$1:$A$108,在輸出選項中選擇$C$1(或者其他空白單元格),其他複選框可根據需要選定:選擇彙總統計,可給出一係列描述統計量的合計數;選擇平均數置信度,會給出用樣本平均數估計總體平均數的置信區間長度的一半,即抽樣極限誤差;第K大值和第K小值會給出樣本中第K個大值和第K個小值(見圖3-4)。對話框填寫好後點擊“確定”按鈕,完成描述統計的輸出(見圖3-5)。

圖3-3 “數據分析”對話框

圖3-4 “描述統計”對話框

圖3-5 描述統計輸出結果

圖3-5結果中,“平均”指樣本均值;“標準誤差”指樣本平均數的標準差,即抽樣平均誤差;“標準差”指的是失去一個自由度的標準偏差;“區域”指的是極差,或稱全距;“求和”指的是所有數據的合計數;“置信度95%”指的是區間估計時的概率,對應的值為抽樣極限誤差,抽樣極限誤差計算采用的是t分布,t的臨界值是按照自由度為n-1,顯著性水平為5%計算的, Excel中可用TINV函數計算。

實驗二 分布數列特征的描述

【實驗目的】

學會編輯公式計算統計數據特征描述指標。

【實驗內容】

【例3-2】 使用第二章實驗一形成的統計分布數列。

要求:根據整理後的次數分布表(見表2-2),構建工作表,計算算術平均數、方差、標準差、離散係數。參見數據文件:Excel 2-1.xls。

【實驗步驟與實驗結果】

對於經過統計整理後形成的分布數列,Excel沒有提供相應函數或者其他工具直接處理,此時可通過單元格編輯公式進行計算分析,具體步驟如下:

(1)輸入要分析的數據(見圖3-6中A1~C10)。

(2)構建工作表,在相應的單元格中編寫計算算術平均數、方差、標準差、離散係數各步驟所需的計算公式。編輯計算公式時可采用第二章實驗一介紹的方法,先在一個單元格將公式編輯好後,其他單元格算法相同的,采用光標進行拖拽複製計算公式,計算公式編寫方法如表3-2所示。

表3-2 單元格計算公式編輯表

相關公式編輯好後,點擊回車得到相關指標的計算結果,如圖3-6所示。

圖3-6 分布數列計算過程及結果

本章小結

1.對於未分組的原始數據,掌握使用統計函數方法和描述統計工具的方法計算統計數據特征的描述指標,包括算術平均數、眾數、中位數、全距、平均差、方差、標準差等。

2.對於經過整理後形成的分布數列,理解計算公式的編輯方法,掌握構建工作表,計算算術平均數、方差、標準差、離散係數等。

思考與練習

1.有顧客反映某火車站售票處售票的速度太慢,為此,該火車站售票處收集了100位顧客購票時所花費時間的樣本數據(分鍾),參見數據文件:Excel 3-1.xls。

要求:對該樣本數據進行適當的分析,回答下列問題。

(1)根據原始數據,計算眾數、中位數、均值、方差、標準差、離散係數、偏態和峰度,對總體均值進行區間估計。

(2)對數據進行適當的分組,編製次數分布表,並繪製直方圖、折線圖、累計次數分布圖。

(3)根據分組後的次數分布數列,構建工作表計算算術平均數、方差、標準差、離散係數。

2.某連鎖企業為了給所屬門店製定經營年收入目標,對135個門店某年的收入額(萬元)作了統計,參見數據文件:Excel 3-2.xls。

要求:對135個門店某年的收入額數據進行適當的分析,回答下列問題。

(1)根據原始數據,計算眾數、中位數、均值、方差、標準差、離散係數、偏態和峰度。

(2)對數據進行適當的分組,編製次數分布表,並繪製直方圖、折線圖、累計次數分布圖。

(3)根據分組後的次數分布數列,構建工作表計算算術平均數、方差、標準差、離散係數 。

微信掃碼查看

第4章 相關分析和回歸分析

本章主要介紹利用Excel中的圖表、統計函數、“數據分析”等工具,實現對數據的相關分析與回歸分析。

實驗一 相關分析

【實驗目的】

掌握相關分析的原理及實際運用。

【實驗內容】

【例4-1】 2015年我國31個省區市的地區生產總值和全社會固定資產投資額數據資料,如表4-1所示。

表4-1 2015年我國31個省區市的地區生產總值和全社會固定資產投資數據表(單位:億元)

續表

資料來源:江蘇省統計局,江蘇省統計年鑒2016, http:\/\/www.jssb.gov.cn\/tjxxgk\/tjsj\/tjnq\/nj2016\/index_212.html。

要求:

(1)繪製地區生產總值與全社會固定資產投資兩變量的散點圖;

(2)計算地區生產總值與全社會固定資產投資兩變量的相關係數。

【實驗步驟與實驗結果】

1.散點圖的繪製

(1)輸入數據(見圖4-1)。

(2)選中31個省區市的地區生產總值和全社會固定資產投資所在區域,點擊“插入”菜單的“散點圖”子菜單,選擇散點圖樣式(本例選擇第一個),繪製散點圖。

注意:本例中的地區生產總值為自變量,用橫軸表示,全社會固定資產投資額為因變量,用縱軸表示(見圖4-1)。

圖4-1 數據輸入及散點圖繪製

(3)圖形的修改、完善(見圖4-2),步驟同第二章實驗二折線圖繪製類似,此處不再贅述。

圖4-2 地區生產總值和全社會固定資產投資散點圖

2.相關係數的計算

方法一 利用統計函數CORREL計算相關係數

(1)輸入數據(見圖4-1)。將光標移至任一空白單元格,點擊“公式”菜單,選擇“插入函數”子菜單,選擇統計函數CORREL。

(2)填寫統計函數CORREL對話框,“Array1”中輸入地區生產總值所在區域,“Array2”中輸入全社會固定資產投資所在區域,點擊“確定”按鈕(見圖4-3),得到相關係數為0.879 300 019,說明兩變量為高度正相關。

圖4-3 “CORREL函數”對話框

方法二 利用“數據分析”子菜單計算相關係數

(1)鼠標點擊工作表中待分析數據的任一單元格。

(2)選擇“數據”菜單的“數據分析”子菜單,用鼠標點擊“數據分析”,選擇“相關係數”選項後點擊“確定”按鈕(見圖4-4)。

圖4-4 “數據分析”對話框

(3)填寫“相關係數”對話框有關內容,“輸入區域”為地區生產總值和全社會固定資產投資所在區域,分組方式使用默認的“逐列”,輸出選項可選擇一空白單元格(本例輸出區域為E1),點擊“確定”按鈕輸出結果(見圖4-5),相關係數為0.879 300 019。

圖4-5 “相關係數”對話框

實驗二 回歸分析

【實驗目的】

掌握回歸分析的原理及實際運用。

【實驗內容】

【例4-2】 仍以實驗一數據為例(見表4-1)。

要求:用最小平方法在地區生產總值與全社會固定資產投資兩變量間建立一元線性回歸方程,並對方程有效性進行統計檢驗。

【實驗步驟與實驗結果】

1.根據散點圖建立一元線性回歸方程

(1)輸入數據,繪製散點圖(步驟同相關分析)。將光標移至散點圖中的坐標點,單擊線性關係明顯(散點分布比較集中)的坐標點,當這些坐標點四周有圓圈環繞時點擊鼠標右鍵,選擇“添加趨勢線(R)”並點擊,出現“設置趨勢線格式”對話框。

(2)填寫“設置趨勢線格式”對話框,“趨勢線選項”默認為線性,本例從散點圖觀測為線性關係,故采用默認設置。最下方的“顯示公式”及“顯示R平方值”兩個選項打鉤,點擊“關閉”按鈕(見圖4-6)。

圖4-6 “設置趨勢線格式”對話框

(3)“設置趨勢線格式”對話框填寫完成後,散點圖中添加了一條回歸線,並且顯示線性回歸方程表達式以及判定係數R平方值(見圖4-7)。

圖4-7 散點圖添加線性模型

2.根據統計函數建立一元線性回歸方程

Excel提供了9個函數用於建立回歸模型和預測。這9個函數分別如下:

(1)INTERCEPT,返回線性回歸模型的截距;

(2)SLOPE,返回線性回歸模型的斜率;

(3)RSQ,返回線性回歸模型的判定係數;

(4)FORECAST,返回一元線性回歸模型的預測值;

(5)STEYX,計算估計的標準誤;

(6)TREND,計算線性回歸線的趨勢值;

(7)GROWTH,返回指數曲線的趨勢值;

(8)LINEST,返回線性回歸模型的參數;

(9)LOGEST,返回指數曲線模型的參數。

本例為一元線性回歸方程,可使用INTERCEPT和SLOPE兩個函數分別確定截距與斜率(回歸係數),具體步驟如下:

第一步,輸入數據,用鼠標點擊工作表中輸出截距結果的空白單元格,點擊“公式”菜單的“插入函數”子菜單,選擇“統計”中的“INTERCEPT”,點擊“確定”按鈕。填寫“函數參數”INTERCEPT對話框有關內容,“Known_y''''s”中輸入因變量全社會固定資產投資所在區域,“Known_x''''s”中輸入自變量地區生產總值所在區域,點擊“確定”按鈕輸出結果,截距β∧0為4 646.585 292(見圖4-8)。

圖4-8 “INTERCEPT函數”對話框

第二步,計算斜率(回歸係數,見圖4-9),其操作步驟同上類似,此處不再贅述,回歸係數β∧1為0.569 979 595,表示地區生產總值每增加1元,全社會固定資產投資平均增加0.569 979 595元。

圖4-9 “SLOPE函數”對話框

3.利用數據分析子菜單進行回歸分析

(1)輸入數據,點擊“數據”菜單,點擊“數據分析”子菜單,選擇“回歸”選項後點擊“確定”按鈕(見圖4-10)。

圖4-10 “數據分析”對話框

(2)填寫“回歸”對話框有關內容(見圖4-11)。“Y值輸入區域”中輸入因變量全社會固定資產投資所在區域,“X值輸入區域”中輸入自變量地區生產總值所在區域,置信度指的是參數區間估計時使用的概率,殘差選項可根據需要進行選擇,填好後點擊“確定”按鈕輸出結果。

圖4-11 “回歸”對話框

(3)輸出結果含義(見圖4-12)。采用“回歸”處理結果比較全麵,包括以下幾個部分:回歸統計部分,“R”表示相關係數,“R Squar”表示判定係數,“Adjusted R Square”表示調整後的判定係數,標準誤差指的是估計標準誤差。方差分析部分,df表示自由度;SS指的誤差平方和,回歸分析對應的是ESS,即回歸誤差平和;殘差對應的是RSS,即殘差平方和;總計對應的是SST,即總誤差平方和,TSS=ESS+RSS; MS是SS\/df的結果,通常稱為均方誤差;F指的是 F 檢驗時的 F值;“Significance F”指的是 F 檢驗時的 P 值。回歸方程的參數在“Coefficients”列,第一個為截距,第二個為斜率,標準誤差指的是兩個參數的標準誤差,“t Stat”指的是對參數進行t檢驗時的t值,P-value指的參數進行t檢驗的P值,“Lower 95% Upper 95%”指的是95%的概率下對參數所做的區間估計的下限與上限。其他部分為Y的預測值和殘差,輸出的圖形為Y的實際觀察值與預測值。

圖4-12 回歸結果輸出

本章小結

1.運用Excel中的圖表、統計函數、“數據分析”中的“相關分析”工具對兩個變量進行相關分析,繪製圖形及計算相關係數等。

2.運用Excel中的圖表、統計函數、“數據分析”中的“回歸分析”工具對兩個變量進行回歸分析,包括繪製圖形及回歸方程建立、方程有效性檢驗等。

思考與練習

1.一元線性回歸實驗數據,數據文件Excel 4-1.xls為江蘇省13個市2015年的工業用電量(億千瓦小時)與規模以上工業總產值(億元)資料。

要求:進行相關分析與回歸分析。

2.多元線性回歸實驗數據,數據文件Excel 4-2.xls為某商業銀行下屬30個分行的有關數據資料。

要求:在不良貸款(億元)、各項貸款餘額(億元)、本年累計應收貸款(億元)、貸款項目個數(個)、本年固定資產投資額(億元)幾個變量之間用最小平方法建立多元線性回歸方程,並進行相關統計檢驗。

3.非線性回歸實驗數據,某企業集團下屬12個生產同類產品企業的月產量和單位產品成本的數據資料,如數據文件Excel 4-3.xls所示。

要求:

(1)繪製月產量和單位產品成本之間的散點圖;

(2)用最小平方法建立指數曲線回歸方程 。

微信掃碼查看

第5章 時間序列分析

本章主要介紹Excel中的圖表、統計函數、公式編輯、“數據”菜單中的“假設分析”子菜單中的單變量求解等工具,用圖形展示時間序列,計算動態水平分析指標和速度分析指標,並借助“數據分析”中的“移動平均”、“指數平滑”、“回歸”等分析工具分析時間序列的長期趨勢。

實驗一 時間序列分析指標的計算

【實驗目的】

學會用統計圖展示時間序列及分析指標的計算。

【實驗內容】

【例5-1】 表5-1為江蘇省2000—2015年財政總收入數據。

要求:用圖形展示時間序列,並計算動態水平分析指標和速度分析指標。

表5-1 江蘇省2000—2015年財政總收入 (單位:億元)

【實驗步驟與實驗結果】

1.用圖形展示時間序列

(1)輸入要分析的數據(見圖5-3)。

(2)時間序列的圖形展示主要采用柱形圖(見圖5-1)、散點圖(見圖5-2)等,具體繪製方法與第二章實驗二類似,此處不再贅述。

圖5-1 2000—2015年江蘇省財政總收入柱形圖

圖5-2 2000—2015年江蘇省財政總收入散點圖

2.動態水平分析指標和速度分析指標的計算

(1)構建工作表(見圖5-3)。

(2)在相應的單元格中編寫動態水平分析和速度分析指標的計算公式(見表5-2)。

表5-2 動態水平分析和速度分析指標的計算公式

(3)輸出結果(見圖5-3)。

圖5-3 動態水平分析和速度分析指標計算結果

(4)平均發展速度的計算。

①水平法(幾何平均法)。可利用GEOMEAN函數進行計算,填寫“函數參數”對話框,“Number1”輸入環比發展速度所在區域,點擊“確定”按鈕(見圖5-4),得到平均發展速度為1.223 567 255。

圖5-4 “GEOMEAN函數”對話框

②累計法(方程式法)。可通過“數據”菜單中的“假設分析”子菜單中的“單變量求解(G)”工具進行計算。具體步驟為:

第一步,利用單元格計算出(本例為149.109 121 4,單元格D22),確定可變單元格,指的是平均發展速度的輸出單元格(本例為D23),最初水平a0所在單元格為B2(見圖5-3)。

第二步,編輯目標單元格的計算公式,目標單元格指的是一元高次方程表達式所在單元格(本例為E22)。E22單元格的計算公式(一元高次方程表達式)為“=D23+D23^2+D23^3+D23^4+D23^5+D23^6+D23^7+D23^8+D23^9+D23^10+D23^11+D23^12+D23^13+D23^14+D23^15”。

第三步,將光標移至任一空白單元格點擊後,點擊“數據”菜單,再點擊“假設分析”子菜單中的“單變量求解(G)”,按上述設定的單元格填寫“單變量求解對話框”,“目標值”需要手動輸入,點擊“確定”按鈕(見圖5-5)。

圖5-5 “單變量求解”對話框及求解狀態

結果輸出(見圖5-3)。

說明:D23單元格結果為用方程式法計算的平均發展速度(本例為1.259 083 528), E22為根據求解的平均發展速度計算出的,與實際值149.109 121 4有點誤差。因為單變量求解使用的是迭代法,即按照一個精度值進行窮舉,直到找到最優的計算結果為止,這也是使用“單變量求解”計算結果有誤差的原因。

實驗二 時間序列的長期趨勢分析

【實驗目的】

學會時間序列的長期趨勢分析。

【實驗內容】

【例5-2】 仍以表5-1江蘇省2000—2015年財政總收入數據為例。

要求:

(1)對地區財政總收入時間序列計算移動平均數(移動項數用戶可分別選擇4、5項),采用移動平均法分析長期趨勢;

(2)采用指數平滑法分析長期趨勢;

(3)采用數學模型法分析長期趨勢。

【實驗步驟與實驗結果】

1.移動平均法分析長期趨勢

(1)輸入數據,點擊“數據”菜單,點擊“數據分析”子菜單,選擇“移動平均”選項後點擊“確定”按鈕(見圖5-6)。

圖5-6 “數據分析”對話框

(2)填寫“移動平均”對話框有關內容,“輸入區域”中輸入財政總收入所在區域,“間隔”中輸入4(采用幾項移動就輸入幾,本例以4項移動為例說明), “輸出區域”根據需要選擇,填好後點擊“確定”按鈕輸出結果(見圖5-7)。

圖5-7 “移動平均”對話框

在偶數項移動平均中,第一次移動結果與原數列錯開半期,需要對第一次移動結果進行二次移動。進行第二次移動時需注意:“輸入區域”應輸入第一次移動結果所在區域,“間隔”中輸入2。如果是奇數項移動,隻需一次移動即可。具體分析處理時可以根據需要對工作表中的輸出結果進行重新調整排列,結果如圖5-8所示。

圖5-8 移動平均計算結果

2.指數平滑法分析長期趨勢

(1)輸入數據,點擊“數據”菜單,點擊“數據分析”子菜單,選擇“指數平滑”選項後,點擊“確定”按鈕。

(2)填寫“指數平滑”對話框有關內容,“輸入區域”中輸入財政總收入所在區域。阻尼係數為1-α(平滑係數),如果重視最新數據信息,α較大,阻尼係數選擇較小值(本例取0.1,見圖5-9),輸出區域根據需要選擇,點擊“確定”按鈕輸出結果。

圖5-9 “指數平滑”對話框

實際分析中可以取不同的阻尼係數(本例分別取0.1、0.3、0.8進行計算),輸出結果(見圖5-10)。從誤差角度看,阻尼係數為0.1,與實際值誤差較小,效果更好。

圖5-10 指數平滑法計算結果

3.數學模型法分析長期趨勢

從前麵實驗一的散點圖觀測,財政總收入隨著時間推移大致呈現出線性變化趨勢,可采用最小平方法配合直線趨勢線方程,具體步驟為:

(1)輸入數據,點擊“數據”菜單,點擊“數據分析”子菜單,選擇“回歸”選項後,點擊“確定”按鈕。

(2)填寫“回歸”對話框有關內容,“Y值輸入區域”中輸入財政總收入所在區域,“X值輸入區域”中輸入時間變量所在區域,可以是具體年份(本例為具體年份),也可事先將具體年份設置成年份代號輸入,其他步驟及結果含義與第四章實驗二類似,此處不再贅述,結果如圖5-11所示。

圖5-11 回歸結果

本章小結

1.運用Excel中的圖表、統計函數、公式編輯、“數據”菜單中的“假設分析”子菜單中的單變量求解等工具,用圖形展示時間序列並計算動態水平分析指標和速度分析指標。

2.運用Excel“數據分析”中的“移動平均”、“指數平滑”、“回歸”等分析工具分析時間序列的長期趨勢。

思考與練習

1.數據文件Excel 5-1.xls為江蘇省2000—2015年金融機構存貸款數據資料(單位:億元)。

要求:

(1)用圖形展示2000—2015年的存貸款時間序列,並計算相關的動態水平分析指標和速度分析指標;

(2)采用移動平均法對存款時間序列進行長期趨勢分析(移動項數可分別選擇4、5項);

(3)采用指數平滑法對存款時間序列進行長期趨勢分析;

(4)采用數學模型法對貸款時間序列進行長期趨勢分析。

2.某貿易公司為了合理組織貨源,需要了解產品外銷定單的變化情況,數據文件Excel 5-2.xls是其2011—2015年各月份的外銷定單金額(單位:萬元)。

要求:

(1)根據各年的月份數據繪製趨勢圖,說明該時間數列的特點;

(2)采取按月平均法計算各月的季節指數(構建工作表進行計算);

(3)預測2016年各月的外銷定單金額 。

微信掃碼查看

第二部分 提高篇

第6章 SPSS統計分析軟件概述

社會科學統計軟件包(Statistical Package for Social Science,簡稱SPSS)是世界著名的統計分析軟件之一。20世紀60年代末,美國斯坦福大學的三位研究生研製開發了最早的統計分析軟件SPSS,並於1975年在芝加哥成立了SPSS公司。20世紀80年代,Microsoft公司發布Windows操作係統後,SPSS迅速向Windows移植,隨後幾乎每年推出一個更新版本。2000年,為適應軟件應用範圍的擴大和服務的深入開發,SPSS 公司將該軟件更名為Statistical Product and Service Solution。2009年,SPSS 公司將4大係列產品(Statistics Family、Modeling Family、Data Collection Family、Deployment Family)整合成一個綜合分析平台,把4類產品統一加上PASW(為Predictive Analysis Software的首字母)前綴,喻義SPSS產品的發展方向為預測分析領域。此後,SPSS把正在發行的SPSS 17統計分析軟件正式更名為PASW Statistics 17,從此開始有了多國語言版本,有了官方的中文界麵及使用手冊。隨後,SPSS公司被IBM收購,SPSS統計分析產品更名為IBM SPSS Statistics。本書以IBM SPSS Statistics 22 For Windows為藍本,結合統計學知識,對各領域常見統計分析案例進行分析講述。

1.1 SPSS的界麵

SPSS的界麵中主要有5類窗口,分別為數據編輯窗口、結果輸出窗口、結果編輯窗口、語法編輯窗口和腳本編輯窗口。

1.數據編輯窗口

數據編輯窗口是SPSS軟件中最常用的窗口,這個窗口主要用來處理數據和定義數據類型。它分為兩個視圖:一個是用於顯示和處理數據的數據視圖(Data View),另一個是用於變量定義和查看的變量視圖(Variable View)。

數據視圖,如圖6-1所示,提供類似Excel電子表格的編輯窗口,在該窗口中可以創建、編輯、瀏覽數據文件,其操作和Excel非常相似。在SPSS中允許打開多個數據文件名進行編輯、瀏覽,正在編輯的數據文件稱為活動數據文件,隻有活動數據文件的數據才能被分析處理。SPSS的數據以表格的形式呈現,表的每一行表示一個觀察個案,每一列表示一個變量,表的大小由變量數和觀察個案數確定。一般情況下,分析的數據應以SPSS數據文件的形式保存,最常用的SPSS數據文件擴展名為“*.sav”,保存數據文件的同時也保存了變量屬性和變量值。

變量視圖的功能是定義數據集的數據字典,它用來定義、顯示和修改數據集中的變量信息,變量視圖如圖6-2所示。SPSS的功能主要通過菜單和工具欄實現,工具欄是常用菜單項的快捷方式,下麵介紹菜單的主要功能,如表6-1所示。

圖6-1 數據視圖

圖6-2 變量視圖

表6-1 主窗口菜單及其功能

2.結果輸出窗口

SPSS的結果窗口也稱為結果視圖或者結果瀏覽窗口,該窗口用於存放SPSS的操作日誌及分析結果,如圖6-3所示。整個窗口分為兩個區:左邊為目錄區,是SPSS分析結果的目錄;右邊是內容區,顯示與目錄對應的內容。在結果瀏覽窗口內可以瀏覽、編輯輸出結果,改變輸出顯示順序等。

SPSS的結果輸出可以保存為“*.SPV”的文件格式,還可以將全部或選定部分結果導出為Html、Word、PPT、PDF等多種格式的文件。

圖6-3 結果輸出窗口

3.結果編輯窗口

結果編輯窗口是編輯分析結果的窗口。在結果視圖中,選擇要編輯的內容,雙擊或者單擊右鍵選擇“編輯內容”,選中的圖表可以在單獨的窗口中進行編輯,對於表格還可以直接在結果窗口中編輯。圖表編輯器窗口,如圖6-4所示。

圖6-4 “圖表編輯”窗口

4.語法編輯窗口

SPSS除了提供菜單操作外,還提供語法編程方式。語法編程除了能夠完成窗口操作所能完成的所有任務外,還能完成許多窗口操作所不能完成的其他工作,實現分析和控製自動化。語法編輯窗口是編寫、調試和運行SPSS程序的窗口,如圖6-5所示。

圖6-5 “語法編輯”窗口

5.腳本編輯窗口

在SPSS數據編輯窗口或結果瀏覽窗口中,執行“文件”→“新建”→“腳本”命令,出現如圖6-6所示的宏程序編輯窗口。在該窗口中可以用語言編程,實現用戶特殊的需要。

圖6-6 腳本編輯窗口

1.2 利用SPSS進行數據分析的步驟

1.數據分析的一般步驟

統計學通常被定義為用以收集數據、整理數據、分析數據和由數據得出結論的一組概念、原則和方法。因此,在數據分析的實踐中,用統計學的理論指導應用是極為重要的。數據分析一般經過收集數據、加工和整理數據、分析數據3個主要階段。

(1)明確數據分析目標。

明確數據分析目標是數據分析的出發點。明確數據分析目標就是要明確本次數據分析要研究的主要問題和預期的分析目標等。隻有明確了數據分析的目標,才能正確地製定數據釆集方案。

(2)正確收集數據。

正確收集數據是指應從分析目標出發,排除幹擾因素,正確收集服務於既定分析目標的數據。正確的數據對於實現數據分析目標起到關鍵性的作用。在收集數據的過程中,經常會獲得一些與分析目標無關或者對分析目標起相反作用的幹擾數據,排除這些數據是數據收集的重要環節。采用恰當的抽樣調查方式是保證正確收集數據的重要手段。

(3)數據的加工整理。

在明確數據分析目標的基礎上,收集到的數據往往還需進行必要的加工整理,才能真正用於分析建模。通過數據的加工整理,人們能夠大致掌握數據的總體分布特征,這是今後進一步深入分析和建模的基礎。數據的加工整理通常包括數據的缺失值處理、數據的分組、基本描述統計量的計算、基本統計圖形的繪製、數據取值的轉換、數據的正態化處理等。

(4)選擇恰當的統計分析方法進行分析。

數據加工整理完成後,一般就可做進一步的數據分析了。分析時應切忌濫用和誤用統計分析方法。濫用和誤用統計分析方法主要是由於對方法能解決哪類問題、方法適用的前提、方法對數據的要求不清等原因造成的。另外,統計軟件的不斷普及以及應用中的不求甚解也會加重這種現象。在明確了統計方法的含義和適用範圍後,選擇幾種統計分析方法對數據進行探索性的反複分析也是極為重要的。每一種統計分析方法都有自己的特點和局限性,因此一般需要選擇幾種方法反複進行分析,僅依據一種分析方法的結果就斷然做出結論是不科學的。

(5)正確解釋分析結果。

數據分析的直接結果是統計指標和統計參數。正確理解這些指標和參數的統計含義是一切分析結論的基礎。同時,將統計指標和統計參數與實際問題相結合也是非常重要的。但客觀地說,統計方法僅僅是一種有用的數量分析工具,它絕不是萬能的。隻有將各學科的專業知識與統計指標和統計參數相結合,才能得出令人滿意的分析結論。

2.SPSS數據分析的一般步驟

利用SPSS進行數據分析也應遵循數據分析的一般步驟,主要的工作集中在以下四個階段。

(1)SPSS數據的準備階段。

按照SPSS的要求,利用SPSS提供的功能準備數據文件,其中包括在數據編輯窗口中定義數據的結構、錄入和修改數據等。

(2)SPSS數據的加工整理階段。

對數據編輯窗口中的數據進行必要的預處理。例如,將數據的缺失值補齊,對數據進行排序、拆分等。

(3)SPSS數據的分析階段。

選擇正確的統計分析方法,對數據編輯窗口中的數據進行分析建模。由於SPSS能夠自動完成數據建模中的數學計算並給出計算結果,使分析人員無須記憶數學公式,這無疑給統計分析方法和SPSS的廣泛應用鋪平了道路。

(4)分析結果的解釋。

讀懂SPSS輸出窗口中的分析結果,明確其統計含義,並結合應用背景知識做出切合實際的合理解釋。

本章小結

1.熟悉SPSS軟件的界麵,主要有5類窗口,分別為數據編輯窗口、結果輸出窗口、結果編輯窗口、語法編輯窗口和腳本編輯窗口。

2.理解SPSS軟件進行數據分析的一般步驟 。

微信掃碼查看

第7章 SPSS數據文件的建立與預處理

如何將資料轉變為SPSS能夠識別、統計的數據文件,為數據整理和分析做好準備工作,這就必須將數據進行預處理。數據預處理是指在數據正式整理之前對數據進行選擇、排序、轉置、合並、拆分、加權處理、分類彙總、變量計算等處理工作。本章就介紹數據文件的建立與編輯,掌握運用SPSS數據加工方法與操作。

實驗一 建立數據文件

【實驗目的】

1.理解建立數據文件的原理和方法。

2.掌握數據文件的特點以及變量結構定義。

3.熟悉SPSS數據的錄入方式。

【相關知識】

1.SPSS數據文件的特點

SPSS是一個有別於其他文件的特殊格式的文件,SPSS數據文件是一種有結構的數據文件,它由數據結構和內容兩部分組成。其中,數據結構記錄數據變量的名稱、類型、變量寬度、小數位數、變量名標簽、變量值標簽、缺失值、顯示寬度、對齊方式和度量尺度等必要信息,數據的內容才是那些待分析的具體數據。

基於上述特點,建立SPSS數據文件時應完成兩項任務,即描述數據的結構和錄入編輯數據。一個典型的SPSS數據文件,如表7-1所示。

表7-1 SPSS數據文件結構

在表7-1中,應熟悉以下的概念:

(1)個案。在數據處理中,一個研究對象就是一個個案,在數據表格中表現為“一行”。

(2)樣本。樣本是指具有共同屬性的所有研究對象,在數據表格裏表現為“n行”。

(3)變量。SPSS中的變量相當於數據庫中的“字段”,在數據表格中表現為“一列”。例如,表7-1中,“姓名”、“性別”、“年齡”等都是變量名。

(4)變量值。在SPSS係統裏,單元格中的數值就是變量值。

2.數據的變量結構定義

(1)數據的結構定義。

打開SPSS之後,進入數據編輯窗口,數據編輯窗口分為數據視圖窗口和變量視圖窗口。要建立新的SPSS數據文件首先需要定義數據文件的結構,即定義新的變量,左鍵單擊左下方的變量視圖標簽,得到如圖7-1所示的變量定義窗口。SPSS數據的結構是對SPSS每列變量及其相關屬性的描述,主要包括變量名、數據類型、變量寬度、變量名標簽、變量值標簽、顯示寬度、缺失值、對齊方式、度量尺度等信息。

圖7-1 變量定義窗口

下麵具體介紹變量定義窗口中各項的含義與設置。

①變量名。

變量名是變量訪問和分析的唯一標誌。在定義SPSS數據結構時,應首先給出每列變量的變量名。變量的命名規則如下:

✧字符長度不超過64個(即32個漢字),首字必須是字母或漢字,隨後的字節是除了標點符號以外的字符,變量名的結尾不可以是圓點或者下劃線。

✧變量名不區分大小寫字母。

✧ SPSS有默認的變量名,以字母“VAR”開頭,後麵補足5位數字,如 VAR00001、VAR00012等。變量名不能與 SPSS內部特有的具有特定含義的保留字同名,如ALL、BY、AND、NOT、OR等。

✧變量名最好與其代表的數據含義相對應,每個變量名必須具有唯一性。

②數據類型。

數據類型是指每個變量取值的類型。左鍵單擊“類型”欄後的 按鈕,彈出如圖7-2所示的對話框。SPSS中有三種基本數據類型:數值型、字符型和日期型。

圖7-2 “變量類型”對話框

進一步細化基本的變量類型,SPSS的數據類型一共有9種,如表7-2所示。

表7-2 SPSS變量類型說明

③變量寬度。

設置變量數字位數或字符個數。一般無須調整,直接采取默認值。它的大小可通過“寬度”欄右邊的微調按鈕來實現,也可通過圖7-2的“寬度”選項進行調整。

④小數。

若變量類型為數值型,則可設置變量中的小數位數,其他類型的變量不能設置。小數位數默認為兩位,可通過圖7-2的“小數位”選項進行調整。

⑤標簽。

標簽是對變量名含義的進一步解釋說明,它可以增強變量名的可視性和統計分析結果的可讀性。變量名標簽可用中文,總長度可達120個字符,但在統計分析結果的顯示中一般不能顯示如此長的變量名標簽信息。

⑥值。

變量值標簽是對變量取值含義的解釋說明信息,對於定類型數據尤為重要。比如1代表男性,2代表女性,它不但明確了數據的含義,也增強了最後統計分析結果的可讀性。變量值標簽可以用中文。

⑦缺失。

數據中存在明顯錯誤或明顯不合理的數據或漏填數據項時,統計學上稱為不完全數據或缺失數據。數據中如果存在缺失數據,分析時通常不能直接采用,要進行說明。SPSS中說明缺失數據的方法是指定用戶缺失值。這樣,SPSS在分析時,就能夠將這些缺失值與正常的數據區分開來,並依據用戶指定的缺失值處理策略對其進行處理或分析。SPSS還有一類默認的缺失值,稱為係統缺失值,數值型變量用圓點表示,字符型用空格表示。

SPSS中說明缺失數據的基本方法是指定用戶缺失值。用戶缺失值可以是:

✧沒有缺失值:即對缺失值不做處理,不指定缺失值。

✧離散缺失值:對字符型或數值型變量,用戶缺失值可以是1至3個特定的離散值。

✧範圍加上一個可選離散缺失值:對一個數值型變量,用戶缺失值可以在一個連續的閉區間內並同時再附加一個區間以外的離散值。

⑧列。

定義變量在數據窗口的寬度,列寬度隻影響數據編輯器中的值顯示,更改列寬不會改變變量已定義的寬度。

⑨對齊。

定義顯示對齊方式,對齊方式分為右對齊、左對齊和中間對齊。係統中,數值型變量默認為右對齊,字符型變量默認為左對齊。

⑩度量標準。

統計學依據數據的度量尺度將數據劃分為三大類:間隔尺度數據,變量的取值是連續的區間,如身高、體重;定序型數據,是對事物之間等級或順序差別的一種測量,如職稱、職務、對某事物的讚同程度;定類型數據(也叫名義尺度),僅是一種標誌,用於區分變量的不同值,沒有次序關係,如民族、宗教信仰、性別、黨派。定距型數據通常指連續型數據;定序型數據具有內在固有大小或高低順序,但它又不同於定距型數據,一般可以用數值或字符表示;定類型數據沒有內在固有大小或高低順序,一般是以數值或字符表示的分類數據。

圖7-3 “角色”設置對話框

⑪角色。

在統計分析的某些對話框支持可用於預先選擇分析變量的預定義角色,當打開其中一個對話框時,滿足角色要求的變量將自動顯示在目標列表中。在“角色”欄單擊 按鈕時,彈出圖7-3所示的下拉列表,該菜單中列出了“角色”屬性中可以設置的選項。

各選項的作用如下:

✧輸入:變量將用作輸入(如預測變量、自變量)。

✧目標:變量將用作輸出或目標(如因變量)。

✧兩者:變量將同時用作輸入和輸出。

✧無:變量沒有角色分配。

✧分區:變量用於將數據劃分為單獨的訓練、檢驗和驗證樣本。

✧拆分:設定此角色是為與SPSS Modeler相互兼容,具有此角色的變量不會在SPSS Statistics中用作拆分文件變量。

(2)SPSS數據的錄入。

①錄入數據的一般方法。

定義好SPSS數據結構後,可將具體的數據輸入到SPSS中,最終形成SPSS數據文件。單擊數據編輯窗口的“數據視圖”標簽,即可在數據視圖中輸入數據。其操作方法與EXCEL基本類似,也是以電子表格的方式進行錄入。錄入帶有變量值標簽的數據時,可以直接輸入變量值,也可以在下拉按鈕中的值標簽列表中選擇一個作為輸入。

②數據的定位。

數據的定位的目的是將當前數據單元定位到某個特定的單元中。有兩種定位方式:一種是按個案序號定位。按“編輯”→“轉向個案”順序單擊鼠標,打開“轉到”對話框的“個案”選項卡,在“轉向個案數”欄中輸入要查找的觀測號,單擊“轉向”按鈕;另一種是按變量值進行定位。按“編輯”→“轉向變量”順序單擊鼠標,打開“轉到”對話框的“變量”選項卡,單擊“轉向變量”欄中向下按鈕,選某一變量值,其列所有值被加深顯示,不關閉對話框還可以繼續查找。

③插入和刪除一個個案。

插入一個個案,可以將指針置於要插入觀測的一行的任意單元格中,單擊鼠標。單擊“編輯”→“插入個案”命令,結果在選中的一行上增加一個空行,可以在此行上輸入該觀測的各變量值。

刪除一個個案,在欲刪除的個案號碼上單擊鼠標左鍵,於是待刪除的個案數據全部反向顯示;單擊鼠標右鍵,從彈出菜單中選擇“清除”選項。

④插入和刪除一個變量。

插入一個變量,即在數據編輯窗口的某個變量前插入一個新變量。在“數據視圖”窗口中將指標置於要插入新變量的列中任意單元格上,單擊鼠標左鍵;或者在“變量視圖”窗口中,單擊新變量要占據的那一行的任意位置。

刪除一個變量,在欲刪除的變量名上單擊鼠標左鍵,於是待刪除的數據全部反向顯示;單擊鼠標右鍵,從彈出菜單中選擇“清除”選項。

【實驗內容】

【例7-1】 一次抽樣調查的數據如data7-1.sav所示,定義的各變量及其主要屬性如下表7-3所示。(參考資料:鄧維斌,SPSS 19統計分析實用教程,電子工業出版社,2012。參見數據:data7-1.sav)

表7-3 各變量主要屬性

【實驗步驟與實驗結果】

第1步 變量定義

在變量定義窗口中建立數據文件所涉及的各變量及屬性,如圖7-4所示。左鍵單擊“值”一欄右邊的 按鈕,彈出值標簽對話框。在“值”欄中輸入1, “標簽”欄中輸入對應變量值的標簽“通信學院”。當這兩欄裏輸入了內容後,左邊第一個按鈕“添加”由灰色不可用變為可用,單擊它可將輸入的值標簽添加到最下麵的文本框中。用相同的方法,可添加其餘的值標簽。輸入完所有的變量值標簽後,單擊“確定”按鈕使對變量值標簽的設置有效。

圖7-4 “值標簽”對話框

圖7-5 “值標簽”設置

定義完變量值標簽後,在SPSS主窗口的菜單欄中選擇“視圖”→“值標簽”,如圖7-5所示,“值標簽”一項前的複選框被選中,則在SPSS主窗口中經過變量值標簽定義的數值型變量顯示為所定義的標簽。

定義好各變量及其屬性,如圖7-6所示。

圖7-6 定義變量屬性對話框

第2步 錄入數據文件

單擊“數據視圖”,按行或列錄入數據,如圖7-7所示。

圖7-7 “數據視圖錄入數據”對話框

第3步 從其他數據文件導入數據建立數據文件

SPSS可以直接打開很多類型的數據文件,選擇菜單“文件”→“打開”→“數據”,彈出“打開文件”對話框,左鍵單擊“文件類型”,即可看到SPSS所能打開的數據文件類型,如圖7-8所示。

圖7-8 SPSS能直接打開的數據文件類型

SPSS能直接打開的數據文件類型很多,其中導入EXCEL類型的數據文件在實際操作中用得比較多。

實驗二 數據文件的編輯

【實驗目的】

1.掌握數據文件的合並。

2.掌握數據文件的拆分。

3.掌握數據文件的選取。

4.掌握數據文件的加權。

【相關知識】

1.數據文件的合並

SPSS可以對多個數據文件進行合並,合並方式有兩種:對個案的合並和對變量的合並。

(1)對個案的合並。對觀測量的合並要求兩個數據文件至少有一對屬性相同的變量,而變量名稱可以有所不同。

(2)對變量的合並,則不需要兩個文件有相同變量。

2.數據文件的拆分

在進行數據分析的時候,有時需要對數據文件進行拆分。數據文件的拆分,是將原始數據進行重新排序,使得某一選定變量取值相同的個案集中排列在一起。在進行統計分析時,經常要對文件中的觀測進行分組,然後按組分別進行分析。

3.數據的選取

數據選取就是根據分析的需要,從已收集到的大批量數據(總體)中按照一定的規則抽取部分數據(樣本)參與分析的過程,通常也稱為抽樣。

SPSS可根據指定的抽樣方法從數據編輯窗口中選出部分樣本以實現數據選取,這樣後麵的分析操作就隻針對選出的數據,直到用戶取消這種選取為止。

4.數據的加權

權重是統計學的重要概念之一。在記錄有大量數據的文件裏,可能多次測量到同一觀測量值。所謂權重,是指同一個觀測量值在所有的觀測量裏出現的次數或頻率。統計分析中的加權處理是極為常見的,如計算加權平均數等。

例如,希望掌握菜市場某天蔬菜銷售的平均價格。如果僅用各種蔬菜銷售單價的平均數作為平均價格就很不合理,還應考慮到銷售量對平均價格的影響。因此,以蔬菜的銷售量為權數計算各種蔬菜銷售單價的加權平均數,就能夠較準確地反應平均價格水平。

【實驗內容】

內容2-1:將數據文件data7-2.sav和data7-3.sav、data7-2.sav和data7-4.sav進行合並。

內容2-2:將數據文件data7-5.sav,按所屬地區進行分組。

內容2-3:對數據文件data7-5.sav的數據,隻選取地區生產總值大於50 000億元的省份。

內容2-4:對數據文件data7-5.sav的數據,以人口為權重計算各省人均生產總值的平均值。

【實驗步驟與實驗結果】

實驗內容2-1 數據文件的合並

第1步 打開“合並文件”→“添加個案”對話框

打開數據文件data7-2.sav和data7-3.sav,選擇菜單“數據”→“合並文件”→“添加個案”,出現如圖7-9所示的對話框。打開有兩個可選合並方式,選擇“打開的數據集”,單擊目標文件;另一個選擇“外部SPSS Statistics數據文件”表示從外部數據進行讀取。

圖7-9 對觀測值合並的個案添加的對話框

第2步 選擇需添加的觀測值

圖7-10 “添加個案”對話框

單擊“繼續”按鈕,出現如圖7-10所示的窗口。左邊“非成對變量”表框將顯示兩個文件中不匹配的變量名,如果要強行合並不匹配的兩個變量,則先在左側列表框中選中兩個變量,單擊中間的“配對”按鈕,便可將兩個變量進行合並。在右側有一個選項“將個案源表示為變量”,表示將在合並後的文件中生成一個新變量,標明每個記錄的來源,0表示來自源文件,1表示來自被合並文件。在本案例中,隻有“年份”和“第一產業國內生產總值”為共同變量,因此係統默然將這兩個變量拉入右側“新的活動數據集中的變量”列表框中。單擊“確定”按鈕,完成合並操作,出現如圖7-11所示的數據視圖。

圖7-11 觀測值合並完成界麵

第3步 打開“合並文件”→“添加變量”對話框

打開data7-2和data7-4,選擇菜單“數據”→“合並文件”→“添加變量”,出現如圖7-12所示的對話框。打開有兩個可選合並方式,選擇“打開的數據集”,單擊目標文件;另一個選擇“外部SPSS Statistics數據文件”表示從外部數據進行讀取。

圖7-12 打開數據的對話框

第4步 選擇需添加的變量

單擊“繼續”按鈕,出現如圖7-13所示的窗口。左邊的“已排除的變量”列表框將顯示不出現在合並後的文件中的變量,右邊的“新的活動數據集”將顯示出現在最終合並後的文件中的變量。單擊“確定”按鈕即可完成合並操作,並在當前數據編輯窗口顯示合並後的數據文件。如圖7-14所示。

圖7-13 “添加變量”對話框

圖7-14 合並完成界麵

實驗內容2-2 數據文件的拆分

第1步 拆分文件的設置

打開數據data7-5.sav,選擇菜單“數據”→“拆分文件”,出現如圖7-15所示的對話框。該對話框提供了3種方式:“分析所有個案,不創建組”對全部觀測進行分析,不進行拆分;“比較組”在輸出結果中將各組的分析結果放在一起進行比較;“按組織輸出”按組排列輸出結果,即單獨顯示每一分組的分析結果。

第2步 選擇拆分方式

按照所屬地區拆分文件,選擇“比較組”,激活“分組方式”欄,選中“所屬地區”變量移入其中。單擊“確定”按鈕,完成拆分操作,SPSS數據視圖窗口顯示如圖7-16所示,各指標已經按照所屬地區進行分組。

圖7-15 “拆分文件”對話框

圖7-16 拆分文件完成界麵

實驗內容2-3 數據的選取

第1步 數據組織

打開整理好的數據文件data2-5.sav。

第2步 打開“選擇個案”對話框

選擇“數據”→“選擇個案”命令,彈出如圖7-17所示的對話框。

圖7-17 “選擇個案”對話框

第3步 指定選擇個案的方式

係統提供了幾種選擇觀測量的方法,有以下幾種:

(1)所有個案:所有的個案都選擇。該選項可用於解除原來的個案選擇。

(2)如果條件滿足:按指定條件選擇個案。

SPSS要求用戶以條件表達式給出數據選取的條件,SPSS將自動對數據編輯窗口中的所有個案進行條件判斷。那些滿足條件的個案,即條件判斷為真的個案將被自動選取出來,而那些條件判斷為假的個案則不被選中。

(3)隨機個案樣本:即對數據編輯窗口中的所有個案進行隨機篩選,包括如下兩種方式:

第一,近似抽樣。

近似抽樣要求用戶給出一個百分比數值,SPSS將按照這個比例自動從數據編輯窗口中隨機抽取相應百分比數目的個案。

第二,精確抽樣。

精確抽樣要求用戶給出兩個參數。第一個參數是希望選取的個案數,第二個參數是指定在前幾個個案中選取。SPSS自動在數據編輯窗口的前若幹個個案中隨機精確地抽出相應個數的個案來。

(4)基於時間或個案全距:即選取數據編輯窗口中樣本號在指定範圍內的所有個案,要求給出這個範圍的上、下界個案號碼。

(5)使用過濾變量:即依據過濾變量的取值進行樣本選取。要求指定一個變量作為過濾變量,變量值為非0或非係統缺失值的個案將被選中。這種方法通常用於排除包含係統缺失值的個案。

第4步 設置選中個案的輸出形式

“過濾掉未選定的個案”是默認設置,通常選擇此默認設置。

各輸出形式的含義如下:

(1)過濾掉未選定的個案:表示在未被選中的個案號碼上打一個“\/”標記,在當前數據文件中自動生成一個名為filter_$的新變量,取值為0或1,1表示個案被選中,0表示未被選中。

(2)將選定個案複製到新數據集:表示將選中的個案輸出到新的數據文件中,設置新數據文件的文件名即可。

(3)刪除未選定個案:表示將未被選中的個案從數據編輯窗口中刪除。

第5步 設置選擇個案的條件。

單擊“選擇”中的“如果條件滿足”選項,單擊“如果”按鈕,彈出如圖7-18所示的“條件設置”對話框。從左側列表欄中選中“地區生產總值”,將其拉入右側計算框中,在數字鍵盤中輸入“>50000”,單擊“繼續”,個案選擇如圖7-19所示。

圖7-18 “選擇個案:If”對話框

圖7-19 個案選擇結果

經過以上步驟的操作後,以後的統計分析隻會針對“地區生產總值>50000”的個案,若要取消以上的個案選擇,隻需打開“選擇個案”對話框,選擇其中的“所有個案”即可。

實驗內容2-4 數據的加權

第1步 分析

在數據data7-5中,需要計算各省人均生產總值的平均值。如果僅根據31個省的人均生產總值進行算術平均的計算,存在的一定的不合理性,原因是各省人口數會對人均生產總值產生影響。因此,本案例需要以人口為權重計算各省人均生產總值的平均值,這樣才合理。

第2步 加權變量的設置

單擊“數據”→“加權個案”,出現如圖7-20所示的對話框。右側中選擇“加權個案”,將左側的“總人口”變量拉入右側“頻率變量”框中作為加權變量。單擊“確定”按鈕,完成加權操作。經過加權操作的各省人均生產總值的均值為42 774.40元,未加權的各省人均生產總值為431 80.97元。一旦指定了加權變量,在以後的分析處理中加權便一直有效,直到取消加權為止。

圖7-20 “加權個案”設置對話框

實驗三 SPSS數據加工

【實驗目的】

1.掌握數據變量的計算。

2.掌握數據可視分箱化。

3.掌握數據重新編碼。

【相關知識】

1.數據變量的計算

SPSS變量計算是在原有數據的基礎上,根據用戶給出的SPSS算術表達式以及函數,對所有個案或滿足條件的部分個案,計算產生一係列新變量。

(1)變量計算是針對所有個案(或指定的部分個案)的,每個個案都有自己的計算結果。

(2)變量計算的結果應保存到一個指定變量中,該變量的數據類型應與計算結果的數據類型相一致。

2.數據可視分箱化

SPSS提供的數據可視分箱化功能可將連續的數值型數據按由小到大的順序加以分組(測量值由最低分至最高分分組),其功能在於將連續數值數據分割為不同區段,區段的編碼中最低分至第一個臨界值的水平數值為1,第二個區段的水平數值為2,第三個區段的水平數值為3,等等。第一個區段的水平數值一定是測量值中最低數值的那個區段,其水平數值內定為1。

3.數據重新編碼

數據的重新編碼是指將每個變量的觀測值重新賦予一個新的值來描述它們的屬性,並把相同的值分為一組,所以也稱為變量的分組。變量的重新賦值有兩種方式:一種是對變量自身重新賦值,對變量自身重新賦值不產生新變量,變量的新值直接在原來位置替代變量的原值;另一種是賦值生成新的變量,賦值生成新的變量操作會將變量的新值作為一個新的變量進行保存。與SPSS“可視分箱化”不同,“可視分箱化”提供的功能隻能將最低點至第一個臨界值的水平數值賦值為1,不能為其他賦值。但數據重新編碼可實現此功能。

【實驗內容】

內容2-5:利用SPSS提供的變量計算功能,計算出各省的城鎮人口比例。(參見數據文件:data2-5.sav)

內容2-6:將居民消費水平進行分組,規定居民消費水平在0~10 000元的,屬於低消費水平;在10 000~20 000元的,屬於較低消費水平,在20 000~30 000的,屬於中等消費水平;超過30 000元的,為高消費水平。(參見數據文件:data2-5.sav)

內容2-7:將居民消費水平進行分組,規定居民消費水平在0~10 000元的,為4;在10 000~20 000元的,為3;在20 000~30 000的,為2;超過30 000元的,為1。(參見數據文件:data2-5.sav)

【實驗步驟與實驗結果】

實驗內容2-5 數據變量的計算

第1步 打開“計算變量”窗口

選擇“轉換”→“計算變量”,彈出“計算變量”的對話框。

第2步 選擇目標變量

在“目標變量”框中輸入目標變量名“城鎮人口比例”,即存儲計算結果的變量。單擊“類型與標簽”按鈕,在這裏設置目標變量的類型和添加標簽。

第3步 設置新變量的生成表達式

從源變量列表中選擇生成新變量所依據的變量,單擊 按鈕將選中的變量選入“數字表達式”列表中參與模型表達式的構建;如果要用公式計算新變量,則先從“函數組”列表中選擇相應的函數類型,“函數與特殊變量”列表中會顯示出具體的函數類型與特殊變量,用戶可以選擇相應的函數並單擊 按鈕將其選入“數字表達式”列表中參與表達式的構建,再選擇生成新變量的各變量。可以利用“數字表達式”下方的鍵盤進行數字與符號的輸入。本案例中,從左邊的變量列表窗口中選擇用於計算的變量並加入“數學表達式”框中,並進行相應的計算。如圖7-21所示。

圖7-21 “計算變量”窗口

設置個案選擇條件。單擊“如果”按鈕,打開“計算變量:If個案”對話框。選擇“包括全部個案”,則表示變量中的全部個案均參與計算;選擇“如果個案滿足條件則包括”單選按鈕,則激活個案選擇條件設置部分,該部分與新變量的生成表達式的設置方法基本相同,在此不再贅述。

單擊“確定”按鈕,完成計算操作,SPSS數據視圖顯示結果如圖7-22所示,操作結果以新變量“城鎮人口比例”顯示。

圖7-22 計算完成界麵

實驗內容2-6 數據可視分箱化

第1步 打開“可視分箱化”的對話框

單擊“轉換”→“可視分箱化”,出現“可視分箱”對話框,選擇要離散的變量“居民消費水平”,單擊繼續,出現7-23所示的“可視分箱”對話框。

圖7-23 “可視分箱的變量選擇”對話框

第2步 生成分割點和標簽。

(1)在“分箱化的變量”框中輸入新變量名“等級”。

(2)在“上端點”框中選擇“排除<”,表示將已確定的分組斷點的上限值歸入下一個分組中。

(3)單擊“生成分割點”按鈕,出現三組分組方法。“等寬度間隔”,即按照變量值等間距劃分。“基於已掃描個案的等百分位”,即按相等比例的觀測值數目進行分組劃分;在“分隔點數量”欄內輸入斷點的數目,係統將每組觀測值數目的比例輸出到“寬度”欄內。“基於已掃描個案的平均和選定標準差處的分割點”,即基於變量的均值和標準差來產生組段劃分。這一選項下3個複選框,分別指將斷點設在以均值為中心以+\/-1、+\/-2、+\/-3為標準差的斷點。無論是否選擇3個複選框,係統都將隻產生一個斷點,就是變量值的均值點。選擇“等寬度間隔”選項,在“第一個分割點的位置”輸入第一個斷點處的取值為10 000,也就是將最小值到10 000之間的數作為第一個分組組段。在“寬度”欄內輸入一個組段內變量值得長度10 000,在單擊“分隔點數量”一欄,根據當前居民消費水平計算出分割點的數量為3,單擊“應用”按鈕返回到圖7-24所示的對話框。

圖7-24 “生成分割點”對話框

(4)生成標簽。在“值”一欄將出現各斷點處的值,在“值”一欄內可設置變量的值標簽,如圖7-25所示。

圖7-25 分隔點設置好後的界麵

(5)完成分組設置。單擊“確定”按鈕,提示“將創建一個新的變量”,確定以後在數據窗口創建一個變量“等級”,其結果如圖7-26所示。

圖7-26 創建分組變量的對話框

實驗內容2-7 數據重新編碼

第1步 打開“重新編碼為其他變量”對話框

打開數據文件,選擇“轉換”→“重新編碼為不同變量”,打開“重新編碼為其他變量”對話框,在輸出變量框中輸入新變量的名稱“新等級”,單擊“更改”按鈕。

第2步 設置編碼轉換規則

單擊“舊值和新值”按鈕,彈出如圖7-27所示的對話框。在對話框中舊值的設置有7項選擇,新值的設置有3項。根據轉換規則,選擇舊值的範圍,再設置相對應的新值,單擊“添加”按鈕到“舊→新”列表框中,有幾條轉換的規則就應添加幾次,設置好的轉換規則如圖7-28所示。單擊“繼續”按鈕返回到圖7-27的對話框中,單擊“確定”按鈕,生成7-29所示的重新編碼結果。

圖7-27 “重新編碼為其他變量”對話框

圖7-28 舊值轉換為新值的設置

圖7-29 重新編碼結果

本章小結

1.理解SPSS內部函數的含義,運用“計算變量”功能和調用SPSS內部函數計算算術函數、統計函數和概率函數值。

2.變量重新編碼可以將連續型變量進行重新編碼,以便變量分組或分類進行數據分析。

思考與練習

1.以下是問卷調查表中的3個問題,調查結果如表7-4所示,請根據該調查表建立SPSS數據文件,並錄入問卷調查結果,要求建立變量值標簽。

(1)您的性別是:男-1,女-2。

(2)您的家庭月收入大約是(單選):

1 000元以下-1 1 000~2 000元-2 2 000~3 000元-3 3 000~4 000元-4

4 000~5 000元-5 5 000~6 000元-6 6 000 7 000元7 7 000~8 000元8

8 000~9 000元-9 9 000~10 000元-10 10 000元以上-11

(3)您的教育程度(單選):

小學-1 初中-2 高中\/中專\/技校-3 大專-4 大學本科-5

研究生及以上-6

表7-4 調查結果

2.江蘇省1990—2015年地區生產總值與從業人數如數據data7-6.sav所示,請完成以下內容:

(1)計算人均生產總值,並計算從業人員大於4 500萬人的人均生產總值。

(2)計算地區生產總值的環比發展速度、定基發展速度。

(3)將“地區生產總值”重新編碼:10 000億元以下-1,10 000~20 000億元-2,20 000~30 000億元-3,30 000~40 000億元-4,40 000~50 000億元-5,50 000~60 000億元-6, 60 000億元以上-7。

(4)將“地區生產總值”編碼為:10 000億元以下-7,10 000~20 000億元-6,20 000~30 000億元-5,30 000~40 000億元-4,40 000~50 000億元-3,50 000~60 000億元-2, 60 000億元以上-1。

3.已知data7-7.sav包括起始工資、工齡、年齡和目前工資4個變量,data7-8.sav包括工作態度、工作業績、公司效益、學曆和職務5個變量。

數據文件data7-7.sav和data7-8.sav是企業職工的兩組模擬調查數據。(資料來源:吳培樂,經濟管理數據分析實驗教程SPSS 18.0操作與應用,科學出版社,2012 )

要求:

(1)合並data7-7.sav和data7-8.sav兩個數據文件。

(2)按是否有職務把調查數據拆分成兩個部分。

(3)選擇出高學曆的職工。

(4)分類計算出有職務和沒職務職工目前工資的平均數。

微信掃碼查看

第8章 統計圖形的製作與編輯

大量的統計數據顯得紛繁複雜,研究者很難看出其中所蘊含的信息,而借助於圖表,很容易看出圖表所體現的數據的分布規律、發展趨勢、數量多少和相互關係等信息。SPSS製圖功能很強,可以繪製許多種統計圖形,包括條形圖、線圖、餅圖、箱圖、直方圖以及人口金字塔圖等。SPSS提供了多種繪製統計圖形的工具,本章將結合實際問題有選擇地進行介紹。通過本章的學習,可以熟練掌握常用統計圖形的SPSS繪製方法和操作技巧,並能靈活選用各種統計圖形表現實際問題中的數據特征。

實驗一 條形圖及其製作

【實驗目的】

1.掌握條形圖的特點、分類及應用範圍。

2.熟練應用SPSS軟件進行條形圖的繪製。

3.培養運用繪製條形圖解決實際問題的能力。

【相關知識】

1.基本概念

條形圖用等寬直條的長短表現非連續型數據的特征,適用於描繪分類變量的取值大小、頻數分布等。

2.分類

(1)簡單條形圖。

簡單條形圖也稱為單式條形圖,是反映一個變量頻數分布和多個變量數值比較的圖形。

(2)分類條形圖。

分類條形圖也稱為群集條形圖或複式條形圖,是反映多個變量交叉頻數分布特征的統計圖,也可用於反映多個總體(樣本)的變動趨勢。

(3)堆積條形圖。

堆積條形圖也稱為分段條形圖,是以條形的全長代表某個變量的整體,條形內部的各分段代表各組成部分在整體中所占比例的統計圖,用來顯示部分與整體的關係。

【實驗內容】

【例8-1】 對2014年各地區人口數及人口自然變動情況,繪製地區和人口出生率之間的簡單條形圖和地區與人口出生率、死亡率之間的複式條形圖。(數據來源:中國統計年鑒2015;參見數據文件:data8-1.sav)

【實驗步驟與實驗結果】

實驗內容1-1 簡單條形圖的製作

第1步 打開“圖表構建器”對話框

選擇菜單“圖形”→“圖表構建器”,彈出如圖8-1所示的“圖表構建器”對話框,該對話框由以下7個部分組成。

圖8-1 “圖表構建器”對話框

(1)候選變量框,即左側變量列表框。如果所選的變量為分類變量,則其下麵的“類別”列表會顯示該變量的已定義類別。右鍵單擊候選變量框中的某一變量,可以臨時更改變量的測量級別、排序規則,顯示變量名稱或標簽名稱。

(2)畫布:畫布在“圖表構建器”對話框的右邊,是生成和預覽圖表的區域。需要注意的是,畫布裏的圖表不是數據視圖裏的數據,而是隨機產生的數據。

(3)庫:即“庫”選項卡,裏麵預定義了各種常見類型圖表,或用戶收藏的圖表,是常用、高效的作圖選擇。庫裏有條形圖、折線圖、麵積圖、餅圖\/極坐標圖、直方圖、高-低圖、箱圖、雙軸圖等類別,每一類別又包含了多種圖表,通過雙擊或拖放操作,可將圖表放置在畫布中,供用戶進一步添加軸變量或分類變量。

(4)基本元素:當圖庫選項卡提供的圖表不能滿足用戶的特殊需求時,“基本元素”選項卡提供了從最基本的圖表元素作圖的素材。

(5)組\/點ID:該選項卡對變量進行聚類、分組設置、行\/列麵板設置及ID標簽指定等。行\/列麵板變量設置就是在行\/列上展示多個圖表,以便進行對比。

(6)標題\/腳注:該選項卡對圖表進行各級標題、子標題和腳注設置。

(7)元素屬性:單擊該按鈕打開“元素屬性”對話框,當最初從圖庫或基本元素將圖表放入畫布時,“元素屬性”對話框也會自動打開。該對話框對圖表元素(軸、條、線等)的屬性進行設置,如統計量、標簽、排序、樣式等。

第2步 選擇圖庫

選擇“庫”選項卡,雙擊“條形圖”類別中的第一項“簡單條形圖”圖標,或者直接將“簡單條形圖”圖標拖到畫布區域。

第3步 設置圖表變量

要分析的是地區的人口出生率,所以應按“地區”分類,在變量列表框中選擇“地區”,將其拖到畫布中“是否為X軸?”藍色虛線框中作為條形圖的X軸,並作為分類變量。

因為要比較人口出生率,所以條形圖的條高(即Y軸)就是人口出生率的指標值,所以將“指標值”拖放到“計數”藍色虛線框中,如圖8-2所示。

圖8-2 “畫布設置”對話框

第4步 設置元素屬性

圖表及變量設置好後,各圖表元素屬性都是係統默認值,還要根據圖表實際需求來修改元素屬性,比如統計量、圖形樣式、排序方式、刻度類型等。

如果“元素屬性”對話框沒打開,則單擊“元素屬性”按鈕打開,如圖8-3所示。選擇需要編輯的元素,根據不同類別的元素,對話框下麵顯示不同的屬性值或選項。根據需要,修改相應的屬性,也可以單擊元素列表右邊紅色的“”刪除元素。

圖8-3 “元素屬性”對話框

本例元素屬性全部采用默認值,不做修改。

實驗內容1-2 群集條形圖的製作

第1步 打開“圖表構建器”對話框

群集條形圖的製作第1步與簡單條形圖的製作一樣。此處不再贅述。

第2步 選擇圖庫

選擇“庫”選項卡,雙擊“條形圖”類別中的第一項“群集條形圖”圖標,或者直接將“群集條形圖”圖標拖到畫布區域。

第3步 設置圖表變量

要分析的是地區的人口出生率與死亡率比較,所以應按“地區”分類,在變量列表框中選擇“年份”,將其拖到畫布中“是否為X軸?”藍色虛線框中作為條形圖的X軸,並作為分類變量。

因為要比較人口出生率與死亡率,所以條形圖的條高(即Y軸)就是人口出生率、死亡率的指標值,所以將“指標值”拖放到“計數”藍色虛線框中。

由於每個地區又有不同指標的統計值,所以將“指標”變量作為複合分類變量,即在“地區”分類基礎上再做分類,將“指標”拖放到畫布右上角的“X軸上的分群:設置顏色”藍色虛線框中。複合分類元素還可以通過“組\/點ID”選項卡添加或取消,如圖8-4所示。

圖8-4 “畫布設置”對話框

【實驗結果與分析】

運行結果,如圖8-5和圖8-6所示。

1.簡單條形圖

簡單條形圖,如圖8-5所示。從圖可以看出,2014年河北省的人口出生率最高,天津市最低。

2.複式條形圖

複式條形圖,如圖8-6所示。2014年人口出生率和死亡率的對比,從圖中可以看出河北省的差距最大,天津市差距最小。

圖8-5 簡單條形圖

圖8-6 複式條形圖

實驗二 直方圖及其製作

【實驗目的】

1.掌握直方圖的特點。

2.熟練應用SPSS軟件進行直方圖的繪製。

3.培養運用繪製直方圖解決實際問題的能力。

【相關知識】

1.直方圖的概念

直方圖是用矩形的寬度和高度來表示連續型變量的取值分布特征的圖形,主要用於表現組距式分組數據的頻數分布狀況。在平麵直角坐標係中,用橫軸表示數據的分組,縱軸表示頻數或頻率,各組與相應的頻數就形成了一個矩形,即直方圖。

2.直方圖與條形圖的區別

條形圖是用條形的長度或高度表示各類頻數的多少,其寬度是固定的;直方圖是用麵積表示各組頻數的多少,圖形的高度表示每一組的頻數或百分比,寬度則表示各組的組距,其寬度和高度均有意義。從圖形特征上看,直方圖的各矩形通常是連續的,條形圖則是分開排列的。

【實驗內容】

【例8-2】 對家庭月收入和受教育程度分別做直方圖。參見數據文件:data8-2.sav。

【實驗步驟】

圖表的製作可以通過“圖形”→“圖表構建器”來製作,也可以通過“使用舊對話框創建”。

第1步 打開“舊對話框”

選擇“圖形”→“舊對話框”→“直方圖”,彈出如圖8-7所示的對話框。

圖8-7 “直方圖”對話框

第2步 對初始直方圖進行編輯

單據“確定”按鈕,係統輸出初始直方圖。雙擊初始直方圖,進入圖形編輯狀態,添加數據標簽;打開直方圖“屬性”對話框,單擊“分箱化”按鈕,彈出如圖8-8所示的對話框。在此對話框的“X軸”框中依次選擇“定製”、“區間寬度”選項,並在區間寬度後的活動框中輸入合適的區間寬度值(直方圖每個矩形的寬度值)。

圖8-8 “直方圖調整”對話框

同理,可以完成“受教育”的直方圖。

【實驗結果與分析】

運行結果如圖8-9和8-10所示。從圖8-9可以看出,家庭收入同正態分布相比右偏;從圖8-10可以看出,受教育左偏,都不具明顯的正態分布。

圖8-9 “收入”直方圖

圖8-10 “教育”直方圖

本章小結

1.創建圖表,可以通過三種方式:一是通過“圖表構建器”創建;二是通過“使用圖形畫板模板選擇程序創建”;三是通過“舊對話框”創建。

2.創建圖表後,還可以在結果瀏覽窗口裏雙擊圖表,啟動圖表編輯窗口,對圖表進行進一步編輯和探索。

思考與練習

1.數據data8-3.sav是國民經濟與社會發展總量指標中第一、第二、第三產業在幾年中的產值,請完成以下內容:

(1)試繪製條形圖對比幾年中各產業產值發展趨勢及比重。

(2)試繪製第三產業的直方圖。

2.數據data8-4.sav是一組企業職工情況模擬調查數據,請完成以下內容:

(1)繪製學曆的簡單條形圖。

(2)繪製學曆和職務的集群條形圖。

(3)繪製目前工資的直方圖 。

微信掃碼查看

第9章 描述性統計分析

前麵幾章都是在為統計分析做準備。從本章開始,我們將正式進入統計分析的學習。描述性統計分析是統計分析的第一步。其目的是研究數據的基本特征和整體分布形態,並輔助於SPSS提供的圖形功能,進而進行統計推斷和數據建模工作。本章學習描述性統計分析及其在SPSS中的實現,具體內容包括:頻數分析、描述性分析、探索性分析以及交叉列聯表分析。

實驗一 頻數分析

【實驗目的】

1.理解頻數分析的目的和基本任務。

2.熟練應用SPSS軟件進行頻數分析。

3.培養運用頻數分析方法解決實際問題的能力。

【相關知識】

1.目的

基本統計分析往往從頻數分析開始。通過頻數分析能夠了解變量取值的狀況,對把握數據的分布特征是非常有用的。

2.基本任務

(1)頻數分析的第一個基本任務是編製頻數分布表。

✧頻數(Frequency):即變量值落在某個區間(或某個類別)中的次數。

✧百分比(Percent):即各頻數占總樣本數的百分比。

✧有效百分比(Valid Percent):即各頻數占有效樣本數的百分比,這裏有效樣本數=總樣本-缺失樣本數。

✧累計百分比(Cumulative Percent):即各百分比逐級累加起來的結果。最終取值為100。

(2)頻數分析的第二個任務是繪製統計圖

✧條形圖(Bar Chart):用寬度相同的條形的高度或長短來表示頻數分布變化的圖形,適用於定序和定類變量的分析。

✧餅圖(Pie Chart):用圓形及圓內扇形的麵積來表示頻數百分比變化的圖形,以利於研究事物內在結構組成等問題。

✧直方圖(Histograms):用矩形的麵積來表示頻數分布變化的圖形,適用於定距型變量的分析。

3.基本描述性統計量簡介

常見的基本描述統計量有三大類:

✧刻畫集中趨勢的統計量。

✧刻畫離中趨勢的統計量。

✧刻畫分布形態的統計量。

(1)刻畫集中趨勢的描述統計量。

集中趨勢是指一組數據向某一中心值靠攏的傾向。

✧均值:即算術平均數,是反映某變量所有取值的集中趨勢或平均水平的指標,如某企業職工的平均月收入。其計算公式為:

✧中位數:即一組數據按升序排序後,處於中間位置上的數據值。

✧眾數:即一組數據中出現次數最多的數據值。

✧總和:即某變量所有值的和。

✧百分位數:將樣本數據按升序排列後,排在前麵p%的數據的右端點的值成為樣本的p分位數。常用的有四分位數,指將數據分為四等分,分別位於25%、50%和75%處的分位數。

(2)刻畫離散程度的描述統計量。

離散程度是指一組數據遠離其“中心值”的程度。

如果數據都緊密地集中在“中心值”的周圍,數據的離散程度較小,說明這個“中心值”對數據的代表性好;相反,如果數據僅是比較鬆散地分布在“中心值”的周圍,數據的離散程度較大,則此“中心值”說明數據特征是不具有代表性的。

常見的刻畫離散程度的描述統計量如下:

✧方差:表示變量取值離散程度的統計量,是各變量值與算數平均數離差平方的算術平均數。其計算公式為:

✧標準差:表示變量取值距離均值的平均離散程度的統計量。將方差開方後的統計量稱為樣本標準差。標準差值越大,說明變量值之間的差異越大,距均值這個“中心值”的離散趨勢越大。

✧均值標準誤差:描述樣本均值與總體均值之間的平均差異程度的統計量。其計算公式為:

✧全距(Range):也稱極差,是數據的最大值(Maximum)與最小值(Minimum)之間的絕對離差。

(3)刻畫分布形態的描述統計量。

數據的分布形態主要指數據分布是否對稱,偏斜程度如何,分布陡峭程度等。

刻畫分布形態的統計量主要有偏度和峰度兩種:

✧偏度(Skewness):描述變量取值分布形態對稱性的統計量。

當分布為對稱分布時,正負總偏差相等,偏度值等於0;當分布為不對稱分布時,正負總偏差不相等,偏度值大於0或小於0。偏度值大於0,表示正偏差值大,稱為正偏或右偏;偏度值小於0,表示負偏差值大,稱為負偏或左偏。偏度絕對值越大,表示數據分布形態的偏斜程度越大。

✧峰度(Kurtosis):描述變量取值分布形態陡峭程度的統計量。

當數據分布與標準正態分布的陡峭程度相同時,峰度值等於0;峰度大於0,表示數據的分布比標準正態分布更陡峭,為尖峰分布;峰度小於0,表示數據的分布比標準正態分布平緩,為平峰分布。

所以,可以利用偏度和峰度的值是否接近0作為檢驗是否是正態分布的重要依據。偏態與峰態分布的形狀,如圖9-1所示。

圖9-1 偏態與峰態分布的形狀

【實驗內容】

【例9-1】 針對所提供的數據“所屬地區”,進行頻數分析。(參見數據文件:data9-1.sav)

【實驗步驟】

第1步 頻數分析設置

選擇菜單“分析”→“描述統計”→“頻率”, SPSS將彈出“頻率”對話框,如圖9-2所示。

圖9-2 “頻率”對話框

在該對話框中,同樣可以通過單擊按鈕從左邊的原變量中選擇一個或者幾個變量進入右邊的“變量”列表框中。

對話框底部有一項“顯示頻率表格”複選框,SPSS默認選擇此項。選擇此項後,輸出結果將顯示頻數分布表,否則隻顯示直方圖,不顯示頻數分布表。

第2步 “統計量”選擇:確定要輸出的統計量

單擊圖9-2中的“統計量(S)...”按鈕,出現“頻率:統計”對話框,按圖9-3所示進行設置。

圖9-3 “頻率:統計”對話框

在該對話框中,用戶可以選擇所要統計的統計量。對話框中各選項的具體意義如下:

(1)“百分位值”複選項,在此欄中可選擇多項。

✧四分位數:設置是否顯示分析變量的四分位數。

✧分割點:設定將數據平均分為所設定的相等等份,並在結果中顯示。

✧百分位數:選擇此項,在後麵的文本框中輸入數值,可以有選擇地顯示百分位數。在文本框中可以輸入0到100之間的數,輸入後,單擊“添加”按鈕,將對應的百分位數添加到方框內的列表框中,利用“更改”按鈕和“刪除”按鈕,可以對列表框中的選項進行修改和刪除。

(2)“離散”複選項:標準偏差、最小值、方差、最大值、範圍、平均值的標準誤差(S.E. Mean)。

(3)“集中趨勢”複選項:平均值、中位數、眾數、合計。

“集中趨勢”欄下方有一個“值為組的中點”複選框,如果假設數據已經分組,而且數據取值為初始分組的中點,選擇此項,將計算百分位數統計和數據的中位數。

(4)“分布”複選項:偏度(Skewness)、峰度(Kurtosis)。

用戶在“頻率:統計”對話框中單擊選中所要統計的統計量後,單擊“繼續”按鈕,即可返回對話框。

第3步 “圖表”選擇:確定要輸出的統計圖形。

單擊“圖表(C)...”按鈕,打開“頻率:圖表”對話框,如圖9-4所示。

圖9-4 “頻率:圖表”對話框

在該對話框中,用戶可以選擇頻數分析的圖表類型。該對話框中各選項的具體意義如下:

(1)圖表類型:無(係統默認選項)、條形圖、餅圖、直方圖。

如果選擇輸出“直方圖”,可以選擇是否在輸出的直方圖中添加正態分布曲線。如果需要輸出正態分布曲線,則可勾選“帶正態曲線”複選框。

(2)圖表值:可選擇圖形中分類值的表現形式。

✧頻率:如果圖表類型是直方圖,則直方圖的縱軸為頻數;如果圖表類型是餅形圖,則餅形圖中每塊表示屬於該組觀測值的頻數。

✧百分比:如果圖表類型是直方圖,則直方圖的縱軸為百分比;如果圖表類型是餅形圖,則餅形圖中每塊表示該組的觀測量數占總數的百分比。

用戶在“頻率:圖表”對話框中選擇圖表類型和圖表分類值後,單擊“繼續”按鈕,即可返回對話框。

第4步 “格式”選擇:確定要輸出的數據格式

單擊“格式”按鈕,打開“頻率:格式”對話框,如圖9-5所示。

圖9-5 “頻率:格式”對話框

在該對話框中,用戶可以設置頻率分布表的輸出格式。對話框中各選項的意義如下:

(1)排序方式,用戶可以選擇頻數分布表中數值及其對應頻率的排列順序。

✧按值的升序排序:係統默認選項,頻數分布表中將按照數值從小到大排列。

✧按值的降序排序:頻數分布表中將按照數值從大到小排列。

✧按計數的升序排序:頻數分布表中將按照計數從小到大排列。

✧按計數的降序排序:頻數分布表中將按照計數從大到小排列。

如果用戶在“頻率:圖表”對話框中選擇輸出直方圖,頻數分布表將按照數值順序排列。

(2)多個變量,當“頻率”對話框的“變量”列表框中有多個變量時,利用“多個變量”欄可以設置表格的顯示方式。

✧比較變量:係統默認選項,SPSS將所有變量的描述統計的結果顯示在同一張表格中,方便用戶進行比較分析。

✧按變量組織輸出:SPSS將對應每個變量分別輸出單獨的描述統計表格。

在“頻率:格式”對話框的底端,有一個“最大類別數”文本框。通過輸入數值,確定頻數表輸出的方位,即輸出數據的組數不得大於窗口中輸入的數值。分類數最大參數的默認值是10。

用戶在“頻率:格式”對話框中進行選擇後,單擊“繼續”按鈕,即可返回“頻率”對話框。一般情況下,對“頻率:格式”對話框的選項都默認為係統默認值,不作調整。

單擊“確定”按鈕,即可在結果輸出窗口中得到頻數分布表、描述性統計分析輸出表格和用戶選擇的對應的輸出圖形。

【實驗結果與分析】

運行結果如表9-1、表9-2及圖9-6所示,各表和圖的具體意義分析如下。

(1)表9-1為所屬地區的變量值基本信息。有效的個案數、百分位數、偏度和峰度。

表9-1 統計量表

(2)表9-2給出所屬地區變量的頻數分布表,即每一個變量值的頻數、百分比、有效百分比、累積百分比。從表中可以看出屬於東部地區、中部地區、西部地區、東北地區的省份分別有10、6、12和3個。所屬西部地區的數量最多。

表9-2 所屬地區頻數分布表

圖9-6是所屬地區的頻數直方圖,從圖上看,同正態分布相比有點左偏。

圖9-6 所屬地區的直方圖

實驗二 描述性分析

【實驗目的】

1.理解描述性分析的基本概念和統計原理。

2.熟練應用SPSS軟件進行描述性分析。

3.培養運用描述性分析方法解決實際問題的能力。

【相關知識】

頻數分布是對數據的總體分布的把握,在此基礎上,需要進一步對數據進行更精確的描述性分析。描述性分析主要用於計算並輸出變量的各類描述性統計量的值。通過上節的學習可知,頻數分析同樣可以做到,兩者都以計算數值型變量的統計量為主。描述性統計分析沒有圖形功能,也不能生成頻率表。但可以將原始數據標準化為z分數,在當前數據文件中添加新變量,用於保存相應的z標準分數,其變量名為相應變量名前加字母z。標準化後的數據更方便之後的對比和統計分析。

Z變換的公式為:

其中,xi是變量的樣本值;x-是樣本均值;s是樣本標準差。

通過標準化,可以將原變量轉化成均值為0、標準差為1的新變量。

【實驗內容】

【例9-2】 針對所提供的數據,對各變量進行描述性分析。(參見數據文件:data9-1.sav)

【實驗步驟】

第1步 描述性分析設置

選擇菜單“分析”→“描述統計”→“描述”, SPSS將彈出“描述性”對話框,如圖9-7所示。

圖9-7 “描述性”對話框

在該對話框中,用戶可以通過單擊按鈕從左邊原變量中選擇一個或者幾個變量進入右邊的“變量”列表框中。

對話框底部有一個“將標準化得分另存為變量”複選框。選擇該項,將對“變量”列表框中被選中變量的數據進行標準化,然後將標準化的結果保存到新變量中。新變量的變量名為原變量的變量名前麵添加字母“z”,並被添加在數據編輯窗口中變量的最後一列。

第2步 “選項”選擇,用於確定要輸出的統計量

單擊“選項(O)...”按鈕,將打開“描述:選項”對話框,如圖9-8所示。

圖9-8 “描述:選項”對話框

在該對話框中,用戶可以選擇所要統計的統計量和圖表輸出方式。具體對話框中各選項的意義如下:

(1)最上麵一行是平均值和合計。

(2)“離散”欄中的統計量包括:標準偏差、最小值、方差、最大值、範圍、平均值的標準誤差(S.E.Mean)。

(3)“分布”欄中的統計量包括:峰度、偏度。

(4)“顯示順序”欄中,用戶可以自行選擇輸出變量的排序方式。

✧變量列表:在結果輸出窗口中,用戶選擇輸出的變量將按照變量在數據編輯窗口中原來的排列順序進行排列。

✧字母順序:在結果輸出窗口中,用戶選擇輸出的變量將按照變量名的字母排列順序進行排列。

✧按均值的升序排序:SPSS將計算每個輸出變量的平均值,並按照平均值從小到大對輸出變量的順序進行排列。

✧按均值的降序排序:SPSS將計算每個輸出變量的平均值,並按照平均值從大到小對輸出變量的順序進行排列。

用戶可在“描述:選項”對話框第一行、離散欄和分布欄中,選中所需統計的統計量(可多項選擇)。SPSS默認的描述統計量包括平均值、標準偏差、最小值、最大值。在顯示順序欄,用戶隻可選擇一種變量排序方式,SPSS的默認選項為“變量列表”。

進行選擇後,單擊“繼續”按鈕,即可返回“描述性”對話框。單擊“確定”按鈕,即可在結果輸出窗口中得到描述性統計分析結果輸出表格。

【實驗結果與分析】

運行結果,如表9-3所示。

表9-3 描述性分析統計量

該結果包括變量值的個數、極值、平均值、標準差、偏度和峰度信息。輸出統計量中,方差和標準差越小越好,越小說明該組數據越趨於穩定。

實驗三 探索性分析

【實驗目的】

1.理解探索性分析的基本概念和統計原理。

2.熟練應用SPSS軟件進行探索性分析。

3.培養運用探索性分析方法解決實際問題的能力。

【相關知識】

探索性分析是在對數據的基本特征統計量有初步了解的基礎上,對數據進行的更為深入詳細的描述性觀察分析。它在一般描述性統計指標的基礎上,增加了有關數據其他特征的文字與圖形描述,顯得更加細致與全麵,有助於用戶思考對數據進行進一步分析的方案。主要的分析如下:

(1)觀察數據的分布特征:通過繪製箱線圖、直方圖和莖葉圖等圖形,直觀地反映數據的分布形式和數據的一些規律,包括考察數據中是否存在異常值等。過大或過小的數據均有可能是奇異值、影響點或錯誤數據。尋找異常值,並分析原因,然後決定是否從分析中刪除這些數據。因為奇異值和影響點往往對分析的影響較大,不能真實地反映數據的總體特征。

(2)正態分布檢驗:檢驗數據是否服從正態分布。很多檢驗能夠進行的前提即總體數據分布服從正態分布。因此,檢驗數據是否符合正態分布,就決定了它們是否能用隻對正態分布數據適用的分析方法。

(3)方差齊性檢驗:用Levene檢驗比較各組數據的方差是否相等,以判定數據的離散程度是否存在差異。

【實驗內容】

【例9-3】 針對所提供的數據,對所屬地區的地區生產總值進行探索性分析。(參見數據文件:data9-1.sav)

【實驗步驟】

第1步 探索分析設置

選擇菜單“分析”→“描述統計”→“探索”, SPSS將彈出“探索”對話框,如圖9-9所示。

圖9-9 “探索”對話框

在“探索”對話框中,左邊的變量列表為原變量列表,通過單擊按鈕可選擇一個或者幾個變量進入右邊的“因變量列表”框、“因子列表”框和“標注個案”列表框。

“因變量列表”是用於所研究的目標變量,可以同時選擇多個變量(選擇的變量必須是數值型變量)。

“因子列表”是影響因變量的因素,如分組變量。可以沒有因子變量,也可有多個因子變量。如果有多個分組變量進入“因子列表”列表框中,那麼會以分組變量的各種取值進行組合分組。如兩個分組變量各有2種取值,那麼輸出的結果就會有4種組合分組。

“標注個案”是區分每個觀測量的變量,用於選擇標簽變量,隻能選一個。

在對話框下端的“輸出”框中有三個選項:

✧兩者都:默認選項,表示同時輸出描述統計量的統計表格和圖形。

✧統計量:表示隻輸出統計表格,不輸出圖表。

✧圖:表示隻輸出圖表,不輸出統計表格。

第2步 “統計量”選擇:用於探索性分析結果中將要輸出的統計量

單擊圖9-9的“統計量(S)...”按鈕,打開“探索:統計”對話框,如圖9-10所示。

該對話框主要由以下幾部分組成。

(1)描述性:選擇此項,將生成描述性統計表格。表中顯示樣本數據的描述統計量,包括平均值、中位數、5%調整平均數、標準誤、方差、標準差、最大值、最小值、組距、四分位數、峰度、偏度及峰度和偏度的標準誤。此項為默認選項,在下麵的“均值的置信區間”文本框中,用戶還可輸入數值指定均值的置信區間的置信度,係統默認的置信度為95%。

圖9-10 “探索:統計”對話框

(2)M-估計量:選擇此項,將計算並生成穩健估計量。M估計在計算時對所有觀測量賦予權重,隨觀測量距分布中心的遠近而變化,通過給遠離中心值的數據賦予較小的權重來減小異常值的影響。對於長尾對稱分布或數據有極端異常值時,利用穩健估計量估計總體均值比用樣本均值或中位數有更好的穩定性;根據樣本值的權重不同,可以得到不同的估計量,主要有4種,包括Huber(穩健估計量)、Hample(非降穩健估計量)、Andrew(波估計量)、Turkey (複權估計量)。

(3)界外值:選擇此項,將輸出分析數據中的5個最大值和5個最小值作為異常嫌疑值。

(4)百分位數:選擇此項,將計算並顯示指定的百分位數,包括5%、10%、25%、50%、75%、90%和95%等。

第3步 “繪製”選擇:用於確定探索性分析輸出的統計圖形

圖9-11 “探索:圖”對話框

單擊“繪製”,打開“探索:圖”對話框,如圖9-11所示。

“探索:圖”對話框中有如下4個選擇組:

(1)箱圖:箱圖,又稱箱線圖。如果用戶在“探索”對話框的“因變量列表”框中輸入了多個變量名,則在此選擇組中進行選擇,可確定箱線圖的生成方式。箱線圖中,底部的水平線段是數據的最小值(異常點除外),頂部的水平線段是數據的最大值(異常點除外),中間矩形箱子的底所在的位置是數據的第一個四分位數(即25%分位數),箱子頂部所在位置是數據的第三個四分位數據(即75%分位數),箱子中間的水平線段刻畫的是數據的中位數(即50%分位數)。

✧按因子級別分組(係統默認):選擇此項,將為每個因變量創建一個箱線圖,在每個箱線圖內根據分組變量的不同水平的取值創建箱形單元。

✧不分組:選擇此項,將為每個分組變量的水平創建一個箱線圖,在每個箱線圖內用不同的顏色區分不同因變量所對應的箱形單元,方便用戶進行比較。

✧無:選擇此項,不創建箱圖。

(2)描述性:選擇該組內的選項,可以生成莖葉圖和(或)直方圖。在箱圖組內選擇的選項不同,則生成的莖葉圖和直方圖也不相同。選擇“按因子水平分組”單選按鈕時,在創建莖葉圖和(或)直方圖時,首先會根據因變量的不同進行分類,為每一個因變量對應的不同分組變量的不同水平創建一個莖葉圖和(或)直方圖;選擇“不分組”單選按鈕時,在創建莖葉圖和(或)直方圖時,則首先根據不同分組變量水平的不同,為每一個因變量創建一個莖葉圖和(或)直方圖。

✧莖葉圖(係統默認):莖葉圖主要由3個部分組成,即頻率、莖和葉,在圖中按從左到右的順序依次排列,在圖的底端,注明了莖的寬度和每一葉所代表的觀測量數。莖葉圖中,莖表示數據的整數部分,葉表示數據的小數部分(小數位數隻有一位,頻數的數值有多大,則對應的小數就有多少個),將莖和葉的數值組合起來再乘以莖寬,便是該數據的值。莖葉圖不僅僅能表示數據的頻數分布,還能近似地表示數據的大小,因此它比直方圖表達的信息更全麵。

✧直方圖:直接繪製直方圖。

(3)帶檢驗的正態圖:選擇此項,將進行正態性檢驗,並生成標準Q-Q概率圖和趨降標準Q-Q概率圖。

(4)伸展與級別Levene:用於對數據轉換所得散布水平圖的設置。對所有的散布水平圖進行方差齊性檢驗和數據轉換,同時輸出回歸直線的斜率及方差齊性的Levene檢驗,但如果沒有指定分組變量,則此選項無效。

✧無(係統默認):不進行Levene檢驗。選擇此項,SPSS將不產生回歸直線的斜率和方差齊性檢驗。

✧冪估計:對每組數據產生一個中位數的自然對數及四個分位數的自然對數的散點圖,同時在每組中數據方差相等的條件下對數據進行冪變換的估計。

✧已轉換:變換原始數據,用戶可在後麵的參數框中選擇數據變換類型。

✧未轉換:不變換原始數據時選擇此項。

第4步 “選項”選擇:用於確定分析過程中對缺失值的處理方式

單擊“選項”按鈕,打開“探索:選項”對話框。

在該對話框中,可選擇缺失值的處理方式,SPSS提供了3種處理方式:

✧按列表排除個案(係統默認):選擇此項,對所有的分析過程剔除分組變量和因變量中所有帶有缺失值的觀測量數據。

✧按對排除個案:同時剔除帶缺失值的觀測量及與缺失值有成對關係的觀測量。在當前分析過程中用到的變量數據中剔除帶有缺失值的觀測量數據,在其他分析過程中可能包含缺失值。

✧報告值:選擇此項,將分組變量的缺失值單獨分為一組,在輸出頻數表的同時輸出缺失值。

【實驗結果與分析】

運行結果如表9-4~表9-7及圖9-12~圖9-14所示。

(1)表9-4是探索性分析的數據摘要,表中給出參與分析的變量或變量分組的個案數、缺失信息等。在本例中,無缺失值。

表9-4 探索性分析個案處理摘要

(2)表9-5中輸出的是描述性統計量。分別給出了四個不同地區各自的描述統計量。

表9-5 描述性統計量表

續表

(3)表9-6給出了數據的M估計值。在SPSS中,根據權重係數的不同,共提供了4種估計方法,表9-6下方的注釋分別給出了4種方法的加權常量。通常,對於有異常或極端值的數據,M均值估計法有很好的穩定性,用M估計值替代均值或中位數,結果更準確。因此,如果探索性分析中描述性統計量中的均值和M均值有較大的差距,那麼用戶就應當注意數據中是否有異常值了。

表9-6 M估計量

a.加權常量為1.339。

b.加權常量為4.685。

c.加權常量為1.700、3.400和8.500。

d.加權常量為1.340*pi。

(4)表9-7是探索性分析的正態性檢驗結果表。

分別利用Kolmogorov-Smirnov檢驗和Shapiro-Wilk檢驗兩種方法來確定變量是否服從正態分布。其中df代表自由度,Sig.代表顯著性水平。一般來說,Sig.>0.05,表示接受原假設,即接受變量服從正態分布的假設。正常情況下,兩種方法的檢驗結論應該一致;某些時候,當以上兩種檢驗方法結論矛盾時,大樣本以k-s為準,小樣本以s-w為準。(樣本數<30為小樣本)

表9-7 正態性檢驗

*.這是真正顯著性的下限。

a.Lilliefors顯著性校正。

(5)圖9-12所示為按所屬地區分組後的箱圖。因為在分析過程中的“繪製”對話框中選擇的是“按因子水平分組”,所以所屬地區分成的四個分組的箱圖繪製在同一張圖上,可方便地對比各地區的發展水平。每一個箱體上方那條線的取值代表最大值,下方那條線的取值代表最小值。箱體自身的三條線從上到下分別代表3\/4分位點、中位點、1\/4分位點的取值。從圖中可以看出,所屬地區的四個分組中均沒有離群值;若有離群值,則會在圖中用“。”號標注出來。

(6)探索性分析的標準Q-Q概率圖和趨降標準Q-Q概率圖。

標準Q-Q概率圖可以檢驗數據是否服從某種分布,在標準Q-Q概率圖中,檢驗數據是否較好地服從給定分布的標準有兩個:一方麵看標準Q-Q概率圖上的數據點與直線的重合度;另一方麵看趨降標準Q-Q概率圖上的點是否關於直線Y=0在較小的範圍內上下波動。

探索性分析中生成的標準Q-Q概率圖以及趨降標準Q-Q概率圖用於檢驗數據是否服從正態分布。以西部地區的標準Q-Q概率圖(見圖9-13)和趨降標準Q-Q概率圖(見圖9-14),從圖中可以看出,兩個變量的數據都很好地服從正態分布。

圖9-12 箱圖