抽樣淺談

Thomas JH Lin
3 min readOct 24, 2018

--

這篇要談抽樣(sampling),在談之前,先說為什麼要抽樣而不直接對母體做普查(census)?原因有許多,例如:

  • 錢不夠
  • 沒時間(想瞭解今年的情況,但普查完已過了一年⋯⋯)
  • 調查會造成樣本損壞(例如測試某產品的耐用極限)

也許還有其他未涵蓋的原因,總之所以我們要抽樣,那抽樣該怎麼做?

好的抽樣應該讓母體中每個個體被選入樣本的機率相同,也就是所謂的簡單隨機抽樣(simple random sample:SRS),即使是對不同性質的個體感興趣而做了分層(stratifying),各層內仍是做簡單隨機抽樣,這麼做的優點是不偏(unbiased)。

什麼是不偏?要說明什麼是不偏,不如說明什麼是有偏(biased),有偏是指結果總是往某個方向偏,反之就是不偏,而由於抽樣是為了協助我們對整個母體做出結論(母體參數),所以我們需要抽樣是不偏的。

有偏的抽樣是如何造成的?例如:

  • 總是抽最容易取得的樣本,稱為方便抽樣(convenience sampling),像是只在公司附近找人、只問看起來好親近的人,或者只驗最上層的貨⋯⋯等等,都是違背了前述每個個體被選入樣本的機率相同的前提,我們便懷疑抽出的樣本很可能無法代表母體。
  • 樣本如果是基於對某訴求的回應而自然形成的,稱自發性回應樣本(voluntary response sample),也有人稱此為自我選樣偏誤(self-selection bias),像是電視節目的call-in或是主動填寫意見這種write-in,這樣的樣本可能來自於特別不滿的人或是狂熱的支持者,顯然不利於我們對整個母體做出結論,即很有可能造成偏誤。
  • 家用電話訪談,比較有可能在家接到電話的人跟其他人會不會有不同呢?還記得家用電話長什麼樣子嗎?

(前述例子中,如果感興趣的對象本來就只有這類型的人,就另當別論了)同樣地,還有許多其他未涵蓋到的造成有偏的抽樣方式,然而有些偏誤來源則與「抽樣」這個動作本身無關,像是:

  • 題目敘述誤導(經常是故意的,特別是某些利益團體,例如護X盟)
  • 資料key錯
  • 受訪者記錯真實情況或者謊報
  • 不回應的人比例偏高,此時我們懷疑在我們感興趣的問題上,不回應的人跟其他人的表現是否不同(比方說支持某議題但風向錯誤而不敢表態)

族繁不及備載,總之,我們可以用隨機抽樣處理偏誤(bias)的問題,除了偏誤之外,抽樣誤差還有另一個來源,就是變異(variation),指的是多次抽樣的結果之間差距很大,這個問題可以透過增加樣本來處理,至於增加樣本是否很困難,就case by case囉,今天就先整理到這,晚安!

(本篇整理自《統計,讓數字說話》)

--

--