對數值變量資料進行統計分析的一般步驟,是先對觀察測量得到的變量值(即觀察值)進行統計描述,再在此基礎上進行深入的統計推斷。統計描述的工作主要是在編制頻數表的基礎上描述資料的集中位置和離散程度。
一、數值變量資料的頻數表
1. 頻數表(frequency table)的編制方法:
(1)找出觀察值中的最大值(largest value)、最小值(smallest value)和極差(range)。
(2)據極差大小確定組段和組距(class interval),將其分為10個左右的組段。
(3)列表劃記落在各組段內的觀察值個數即可得頻數表。
根據編制出的頻數表即可了解該數值變量資料的頻數分布特征。
2. 頻數分布的特征及類型:
(1)兩個特征:集中趨勢(central tendency)和離散趨勢(tendency of dispersion)
(2)兩種類型:對稱分布(symmetric distribution)和偏態分布(skewed distribution),偏態分布又有正偏態(positively skewed)和負偏態(negatively skewed)之分。
3. 頻數表的用途:
(1)描述資料的分布特征和分布類型。
(2)進一步計算有關指標或進行統計分析。
(3)發現特大、特小的可疑值。
(4)據此繪制頻數分布圖。
二、集中位置的描述
描述一組觀察值集中位置或平均水平的指標稱為平均數(average)。它能使人對資料有個簡明概括的印象,并能進行資料間的比較。常用的平均數有算術均數、幾何均數和中位數。
1. 算術均數(arithmetic mean)
簡稱均數(mean),有總體均數和樣本均數之分,分別用希臘字母miu(音)和英文字母x bar(音)表示。
(1)計算方法
不分組資料用直接法。即所有觀察值的累積和除以觀察值個數, 相同觀察值較多或分組資料常用加權法(weighting method)。
(2)均數的應用
適用于對稱分布,特別是正態分布的資料,不適用于偏態分布的資料。如有數據3、4、5、6、17,可見數據多在3-6之間,但均數為7,顯然不能代表這組數據的中心位置,此時應用幾何均數或中位數描述其集中趨勢。
2. 幾何均數(geometric mean ,G)
適用于呈倍數關系的等比資料或對數正態分布的資料,應用中應注意觀察值不能同時有正有負,同一資料算得的幾何均數小于算術均數。
3. 中位數(median)
中位數是一組觀察值的位置平均數,直接由原始數據計算中位數時,若n為奇數,則中位數為將觀察值從小到大排序后中間位置那個觀察值,若n為偶數,中位數為將觀察值從小到大排序后中間兩個觀察值的算術均數。用頻數表計算中位數時先據頻數表計算累計頻數(cumulative frequency)和累計頻率,百分之五十分位數即為中位數。
中位數用于描述偏態分布資料的集中位置,它不受兩端特大、特小值的影響,當分布末端無確切數據時也可計算。
百分位數(percentile)是資料分布數列的的百等份分割值,百分位數用于描述樣本或總體觀察值序列某百分位置的水平,應用中注意,樣本例數不夠多時,兩端的百分位數不穩定。百分位數還用于確定參考值范圍(reference range)
三、離散程度的描述
多組資料均數相同,只說明其集中趨勢相同,各組數據內部觀察值參差不齊的程度可能不同。此時,常用極差、
四分位數間距、方差、標準差和變異系數等指標來描述資料的離散程度。
1. 極差(range,R)
又稱全距,即最大和最小觀察值之間的間距,用極差描述資料的離散程度簡單明了,但它不能反映觀察值的整個變異度,樣本的例數越多,極差越大,不夠穩定。
2. 四分位數間距
四分位數( quartile, Q) 是特定的百分位數,其中P25為下四分位數Ql,P75為上四分位數Qu。四分位數間距即Qu-Ql。四分位數間距比極差穩定,但仍未考慮每個觀察值的變異度。
3. 方差(variance,Var)
怎樣一個指標才能反映整個資料的變異程度呢?
離均差的絕對值之和或離均差平方和(sum of squares, SS)可用來描述資料的變異度。SS的均數(即方差)不受觀察值個數的影響,用來描述資料的離散程度較離均差的絕對值之和或離均差平方和更好。方差也有總體方差和樣本方差之分。
4. 標準差(standard deviation)
因方差的單位是原單位的平方,所以使用仍不方便。方差的算術平方根,即標準差,是一個更好的指標。相應的,標準差也有總體標準差和樣本標準差之分,分別用希臘字母xigema(音)和英文s表示
標準差可用于描述變量值的離散程度,與均數結合還可描述資料的分布情況,此外還可用于求參考值范圍和計算標準誤。
5. 變異系數(coefficient of variance, CV)
當比較多組資料的變異度,而這幾組資料的單位不同或均數相差懸殊時,用標準差就不合適。此時需要用到變異系數又稱離散系數(coefficient of dispersion)來比較,它實際上是標準差占均數的百分比例。
SPC知識理論
SPC應用案例
SPC數據分析
SPC數據采集
IQC來料質量管理
IPQC制程質量管理
質量管理教學
質量改善工具
設備巡檢
維護保養
精益生產
MES系統
IE工業工程
5S管理
企業后勤管理
儀器儀表
測量知識
數據采集