2013-06-22 16:40:29解讀統計與研究

中央極限定理與信賴區間與大數法則與常態分配假設

中央極限定理與信賴區間的關係 請反覆看懂它們 然後理解許多的統計推論為何聚焦於"平均數"

Central Limit Theorem

For samples of size n, the distribution of sample means

  1. is normal.
  2. has a mean of μ.
  3. has a standard deviation of  sigma/sqrt(n).

where μ and σ represent the mean and the standard deviation of the population from which the sample came. 

以上法則不侷限於常態分配母體

 

Confidence LevelConfidence Interval
90%90% Confidence Interval 
95%95% Confidence Interval 
99%99% Confidence Interval 

 

Confidence Level

90%95%99%
z* = 1.645

The area between
-1.645 and 1.645
is
0.90
z* = 1.960

The area between
-1.960 and 1.960
is
0.95
z* = 2.576

The area between
-2.576 and 2.576
is
0.99

source:http://dsearls.org/courses/M120Concepts/ClassNotes/Statistics/530_inferential_stats.htm

 

然後理解為何在統計學的世界裡母體的常態分配"假設"(assumption of normal distribution)是如此地被強調: 

 

 

                

 註:左圖的兩個分配(藍色常態 紅色正偏斜)具有相同的平均數 右圖(紅色正偏斜 深藍負偏斜)也是一樣情況(具有相同的平均數)

source:http://www.psychology.nottingham.ac.uk/staff/pal/stats/C82MST/C82MST%20Lecture%202a%20Notes.htm

這裡讀者會遇到一個問題 中央極限定理所謂的樣本量(n)到底要多大才能得到想要的"樣本平均數常態分配"呢? 這個n經常被武斷地定義為30(我曾經看過有學者主張25) 當然 如果母體分配是高度地偏斜或具有很奇怪的離群值 那麼更多一點的n是被期待的

感謝中央極限定理 讓我們抓到了n 然後我們可以再套用大數法則(樣本越大 樣本平均數就更接近母體平均數) 使得n為大數法則的最低可接受樣本數 因為中央極限定理告訴我們樣本平均數的平均數等於母體平均數

結合了中央極限定理與大數法則
我們就可以使用常態分配假設進行特定的統計檢定 也因此你會看見使用樣本量30來滿足"所謂的"常態分配假設

所以 在得到統計結果之後 研究者要了解這些都是平均數之間的比較 我們確實不清楚母體分配是否常態 我們只知道運用中央極限定理的統計技術所能達到的"平均數" 而這也來自於樣本的推論而已 所以最初的抽樣程序實在是馬虎不得