2010-06-19 09:59:02知識終結者

﹝市場調查026﹞這種交叉表數據怎麼看?



圖/文::邱高生 2010/06/19  

一張這麼簡單的交叉表,就是如圖一這樣的一張交叉表,相信在市場調查的實務中一定是最常遇到,但要如何分析呢?恐怕也沒有那麼簡單,這其中也是有很多令人困擾之事必需處理,總要有一些想法,不然光看那些百分比,又能說什麼?又能看出什麼有意義的訊息,而最嚴重的也有可能誤解其意,因而妄下斷言,不可不慎也,在此圖一中的數據依然是假想數據,並不是實際市場調查獲得之資料,但不會因此影響我們對此一交叉表的說明,在橫軸為13-19、20-29、30-39、40-49、50-59、60-69共6個年齡層,每一年齡層的調查樣本數為100,縱軸則為最常吃口香糖的品牌,從A品牌到P品牌共有16個品牌,再加上不吃口香糖者,縱軸總共有17個選項,當然在台灣現在的市場並沒有這麼多口香糖品牌,反正只是舉例說明,在很多時候縱軸的項目會比這個多,20幾個都會有,搞不好還可用長尾理論論之,在此就先不管那長尾理論,而像圖一這樣的二維交叉表要怎麼看呢?

在圖一所列之百分比皆為縱百分比(Column Percentage),也就是每一交叉格內的人數除以最上面那一排樣本數再乘以100所得之百分比,所以,最為左邊「總計」那一欄就是不分年齡層總的百分比,也就是說在這600個調查樣本中,各品牌最常吃的人數除以600再乘以100所得之百分比,因為最常吃的品牌是單選(SA,Single Answer),故,在總計這一欄的所有品牌從A到P之百分比,再加上沒有吃口香糖者之百分比,就是會獲得一個100.0%的結果,同時我們也可以看到各個口香糖品牌「最常吃」的比例百分比有多少,在圖一中是依各品牌此一百分比之大小,由大至小排下來,不吃口香糖者之百分比不參與排列,但我們將之排在最前面一個,是也可以排在最後一個。都沒有關係,在其他各年齡層也可以這樣算出6組百分比,在此我們也可以比較一下,一個一個看,各品牌在各年齡層上的縱百分比之比較,這一定沒問題可以看出一些端倪。而在圖一中的A品牌,在年齡層間的百分比比較,30-39歲的比例40.0%最高,當然我們也可以用A品牌各年齡層的縱百分比推算每一年齡層吃A品牌口香糖的人口數會有多少,但在此會有一個問題出現,如圖一的M品牌,在總計這一欄的縱百分比為0.8%這麼小,各年齡層交叉所得之縱百分比也是很小,依次為0.8、1.6、3.2、0.2、0.1、0.1,像這麼小的縱百分比有意義嗎?如果說1.6是0.8的兩倍,這有意義嗎?

在此我們還是要用一下統計機率的觀點討論之,當然又要請出那中央極限定理(Central Limit Theorem),當樣本數足夠大的時候,抽樣分配(Sampling Distribution)會趨近於常態分配(Normal Distribution),而在樣本數為30之時,這種逼近(Approximate)就會相當良好,所以,理論上而言,我們是希望整個調查訪問的樣本數能夠更大,不是那1068,而是好幾萬,使得在一個交叉表中,不論是幾維的交叉,各個交叉格的樣本數都能夠大於30,但在實務上,一般我們很難獲取這麼大的樣本進行這麼細分化的分析,所以,在實務上分析交叉表之時,萬一交叉格中的樣本數小於30,這種資料不是不能用,而是其數據的穩定度會比較低,當有此一警覺性,在實務上的使用當更為謹慎下斷言。所以,在圖一中總計欄M品牌的人數以0.8%反推也才5個,故其各年齡層交叉的縱百分比0.8、1.6、3.2、0.2、0.1、0.1間的比較,應該是僅供參考也,不易下這樣的定論,20-29歲的1.6是13-19歲0.8的兩倍。

就理論上論之,在圖一中也就只有那ABCD這四個品牌在總計這一欄的人數有超過30,至少等於30,這樣的交叉表資料若看總計這一欄應該還可接受其組內百分比大小之比較,在D品牌之後的百分比會較不穩定就是了,越往下越不穩定,而D品牌之後的各年齡層交叉數據則會更不穩定,所以,這種交叉表的分析還是要先看看交差格內的人數是不是大於30,當然是越多越好,而在小於30的情況下,當更為謹慎處裡之就是了。