- 相關推薦
統計學基礎知識之數據離散程度描述
集中趨勢指標是數據的一個特征,數據的另一個特征是離散程度指標。在統計分析中,離散程度指標可以說明集中趨勢指標的代表性如何,還可在統計推斷時用來計算誤差的大小。另外,離散程度指標還被用來說明事物在發展變化過程中的均衡性、節奏性和穩定性等問題。例如,有兩組數據,第一組是19,20,21,第二組是15,20,25。如果只根據均值(兩組的均值都是20)我們將無法區別兩組數據有什么不同。但顯然兩組數據是有區別的。在這種情況下,就需要使用離散程度的指標來描述那一組分散的程度更大一些。下面是yjbys小編為大家帶來的關于數據離散程度描述的知識,歡迎閱讀。
離散程度指標的種類很多,下面介紹的是常用的幾種。
全距(Range)又稱極差,是指數據中最大值和最小值的差值。如果用R表示全距,用Xmax,Xmin,分別表示數據的最大值、最小值,則全距公式為:R = Xmax- Xmin。例如,前面提到的兩組數據中,第一組數據的全距R = 21 – 19 = 2,第二組數據的全距R = 25 – 15 = 10。通過全距的數值我們可以確定第二組數據的離散程度更大。由此,我們可以記住一個一般性結論:離散指標的數據越小,說明數據的變異程度就越小;數值越大,則說明數據的變異程度越大。當然,這個結論只有在同類離散指標相比較時才會有意義。
全距指標的應用問題
全距指標的含義容易理解,計算也很簡便。因此,在某些場合具有特殊的用途。例如,要說明一個地區的溫度情況,沒有比用溫差說明更好的指標了。在描述一種股票的波動情況時,最高價和最低價的差是常使用的特征值。另外,在成品質量控制方法中,R控制圖也是全距的一種應用。但是,全距在計算上只與兩個極端值有關,因此它不能反應其他數據的分散情況,就這一點來說,全距只是一個比較粗糙的測度指標。如果需要全面、精確地說明數據離散程度時,就不宜使用全距。
平均差(Mean Absolute Deviation)就是各項數值與其均值之差絕對值之和的平均數。用MAD表示平均差,其公式為:
所謂離散,是個相對概念,需要用一個標準來衡量。因為均值是最重要也是最常用的指標,所以就成為衡量離散程度的一個常用標準。方法就是用各項數據與與均值相減,通常將這個差值稱為離差(Deviation)。離差數值的大小就可以說明數據的偏離程度。但是,可以證明
因為相對于均值的正、負偏差之和是相等的。為了解決離差正、負值抵消的問題,統計學家使用了絕對值的方法,如平均差,更多使用的是平方的方法,如方差,然后再用平均的方法,消除掉由于數據項數多少給離差值帶來的影響,即從指標的含義來看,平均差的數值代表了所有數據離均值的平均距離,使用該數據說明數據的離散程度,比較容易理解。
平均差的應用問題
雖然平均差簡單易懂,但因為使用了絕對值,不便于進一步計算,所以在實際應用中不如其他離散指標應用那樣廣泛。但在預測領域,還常常使用該指標用于誤差的說明。
方差(Variance)就是全部數據離差平方的平均數?傮w方差表示,計算公式為:
方差克服了平均差絕對值的問題,成為描述離散程度的一個重要指標。但是,在方差數值含義的解釋上卻遇到困難。因為方差的單位是數據單位的平方,夸大了數據的離散程度,使人不易直觀理解數值意義。因此,通常取方差的算數平方根作為描述離散程度的指標,即標準差(StandardDeviation)?傮w標準差的公式表示如下:
如果用上面的數據計算,對于這個數據,我們就很容易理解它的含義了。=方差、標準差的應用問題總體方差表示,總體標準差用
表示,而樣本方差用S2表示,樣本標準差用S表示,不能混淆。樣本方差與標準差的計算公式如下:
可以看到,樣本方差及標準差與總體方差和標準差的計算公式略有不同。樣本方差和標準差的分母是n-1而不是n。因為樣本的方差和標準差在使用中,經常作為總體方差和標準差的估計量,分母除以n-1而不是n,可以得到總體方差和標準差的較好的估計量。
離散系數(Coefficient Of Variation)就是標準差與均值的比值。一般用V表示?傮w的離散系數表示:
樣本的離散系數表示為:
離散系數的應用問題
離散系數實質上是標準差相對于均值的大小。因此,如果比較均值不相同的兩組數據相對離散程度時,使用離散系數,要比使用標準差更準確。例如,假定有甲、乙兩個工人,甲平均每小時生產40個零件,標準差是5件。乙平均每小時生產80個零件,標準差為6件。那么那個工人的穩定性比較好呢?根據標準差的定義,標準差越小,離散性就越小,所以甲生產要比乙穩定。但是,我們看到乙的標準差雖然比甲略高,但其生產的能力確實甲的2倍(80/40)。也就是說,6相對于80的變化要小于5相對于40的變化,這個含義就是離散系數。計算過程如下:
由此可見,乙的離散系數小于甲,所以乙的生產要比甲相對穩定。離散系數是個無名數,這是它與其他離散指標的最大區別。全距、平均差還有標準差,它們都是有名數,其單位與原始數據的單位一致。離散系數的這一特點使其不僅可以說明同類事物的相對離散程度,還可以說明不同類事物的相對離散程度。例如,當我們有興趣比較一群人的身高離散程度大,還是體重離散程度大時,其他離散指標都不能用于比較,因為身高與體重的單位不一致。而離散系數就可以比較,因為它完全消除了單位的影響。
【統計學基礎知識之數據離散程度描述】相關文章:
統計學基礎知識匯總06-27
oracle數據庫基礎知識01-21
日語口語對話之描述物體07-18
音樂基礎知識之河北民歌07-09
雅思口語人物類話題之性格描述08-06
笑容程度10-28
股票入門基礎知識之什么是箱體理論09-26
對外漢語基礎知識之語法單位08-14