要研究天鵝的顏色,我們不可能去觀察每一只天鵝(總體),我們只能投機(jī)取巧,通過(guò)觀察其中的一部分(樣本)來(lái)推斷。這就帶來(lái)一個(gè)巨大的風(fēng)險(xiǎn),可能我們看到100000只天鵝都是白色的,但你怎么知道剩下的更多的天鵝中就沒(méi)有黑色的?
因此,選擇誰(shuí)來(lái)觀察,就成了一個(gè)技術(shù)活,這就是我們今天的主角——抽樣(sampling)。
通常我們以為:樣本越大就越好,大樣本等于好樣本;其實(shí)不然,樣本最重要的是:
代表性!(一遍)
代表性!(兩遍)
代表性!(三遍)
舉個(gè)栗子:我想研究一下某所大學(xué)最受歡迎的電影,我有時(shí)間、有精力、有資金,我調(diào)查10000名同學(xué),調(diào)查結(jié)論是《泰坦尼克》;而我的同事只調(diào)查了10名同學(xué),他的結(jié)論卻是《泰坦尼克》和《碟中諜》兩個(gè)。我因?yàn)榘凑账奚針浅闃樱哉{(diào)查的恰好都是女生;我的同事則是在男女生中各調(diào)查了5個(gè)人。
誰(shuí)更可信?
看來(lái)樣本容量固然重要(how many),但更重要的還是抽樣方案(how)。一般來(lái)說(shuō),方案分為概率抽樣(隨機(jī)抽樣)和非概率抽樣兩大類(lèi)。兩者的根本區(qū)別就是前者完全是經(jīng)“上帝的手”在選擇,比較公平、公正、公開(kāi);后者還有“凡人的手”在幫忙,當(dāng)然有時(shí)是幫倒忙。
因?yàn)楦怕食闃又械拿總(gè)個(gè)體都有一個(gè)確定的可能性(概率)被抽中,所以概率和統(tǒng)計(jì)技術(shù)就有了用武之地,我們可以計(jì)算出抽樣帶來(lái)的誤差,對(duì)總體給出相當(dāng)準(zhǔn)確的推斷。
01 非概率抽樣(Non-probability sampling)
又稱(chēng)非隨機(jī)抽樣,指根據(jù)一定主觀標(biāo)準(zhǔn)抽取樣本,令總體中每個(gè)個(gè)體的被抽取不是依據(jù)其本身的機(jī)會(huì),而是完全決定于調(diào)研者的意愿。
其特點(diǎn)為不具有從樣本推斷總體的功能,但能反映某類(lèi)群體的特征,是一種快速、簡(jiǎn)易且節(jié)省的數(shù)據(jù)收集方法。當(dāng)研究者對(duì)總體具有較好的了解時(shí)可以采用此方法,或是總體過(guò)于龐大、復(fù)雜,采用概率方法有困難時(shí),可以采用非概率抽樣來(lái)避免概率抽樣中容易抽到實(shí)際無(wú)法實(shí)施或“差”的樣本,從而避免影響對(duì)總體的代表度。
常用的非概率抽樣方法有以下四類(lèi):
▷ 方便抽樣(Convenience sampling)
指根據(jù)調(diào)查者的方便選取的樣本,以無(wú)目標(biāo)、隨意的方式進(jìn)行。例如:街頭攔截訪問(wèn)(看到誰(shuí)就訪問(wèn)誰(shuí));個(gè)別入戶項(xiàng)目誰(shuí)開(kāi)門(mén)就訪問(wèn)誰(shuí)。
優(yōu)點(diǎn):適用于總體中每個(gè)個(gè)體都是“同質(zhì)”的,最方便、最省錢(qián);可以在探索性研究中使用,另外還可用于小組座談會(huì)、預(yù)測(cè)問(wèn)卷等方面的樣本選取工作。
缺點(diǎn):抽樣偏差較大,不適用于要做總體推斷的任何民意項(xiàng)目,對(duì)描述性或因果性研究最好不要采用方便抽樣。
▷ 判斷抽樣(Judgment sampling)
指由專(zhuān)家判斷而有目的地抽取他認(rèn)為“有代表性的樣本”。例如:社會(huì)學(xué)家研究某國(guó)家的一般家庭情況時(shí),常以專(zhuān)家判斷方法挑選“中型城鎮(zhèn)”進(jìn)行;也有家庭研究專(zhuān)家選取某類(lèi)家庭進(jìn)行研究,如選三口之家(子女正在上學(xué)的);在探索性研究中,如抽取深度訪問(wèn)的樣本時(shí),可以使用這種方法。
優(yōu)點(diǎn):適用于總體的構(gòu)成單位極不相同而樣本數(shù)很小,同時(shí)設(shè)計(jì)調(diào)查者對(duì)總體的有關(guān)特征具有相當(dāng)?shù)牧私猓靼籽芯康木唧w指向)的情況下,適合特殊類(lèi)型的研究(如產(chǎn)品口味測(cè)試等);操作成本低,方便快捷,在商業(yè)性調(diào)研中較多用。
缺點(diǎn):該類(lèi)抽樣結(jié)果受研究人員的傾向性影響大,一旦主觀判斷偏差,則根易引起抽樣偏差;不能直接對(duì)研究總體進(jìn)行推斷。
▷ 配額抽樣(Quota sampling)
指先將總體元素按某些控制的指標(biāo)或特性分類(lèi),然后按方便抽樣或判斷抽樣選取樣本元素。
相當(dāng)于包括兩個(gè)階段的加限制的判斷抽樣。在第一階段需要確定總體中的特性分布(控制特征),通常,樣本中具備這些控制特征的元素的比例與總體中有這些特征的元素的比例是相同的,通過(guò)第一步的配額,保證了在這些特征上樣本的組成與總體的組成是一致的。在第二階段,按照配額來(lái)控制樣本的抽取工作,要求所選出的元素要適合所控制的特性。例如:定點(diǎn)街訪中的配額抽樣。
優(yōu)點(diǎn):適用于設(shè)計(jì)調(diào)查者對(duì)總體的有關(guān)特征具有一定的了解而樣本數(shù)較多的情況下,實(shí)際上,配額抽樣屬于先“分層”(事先確定每層的樣本量)再“判斷”(在每層中以判斷抽樣的方法選取抽樣個(gè)體);費(fèi)用不高,易于實(shí)施,能滿足總體比例的要求。
缺點(diǎn):容易掩蓋不可忽略的偏差。
▷ 滾雪球抽樣(Snowball sampling)
指先隨機(jī)選擇一些被訪者并對(duì)其實(shí)施訪問(wèn),再請(qǐng)他們提供另外一些屬于所研究目標(biāo)總體的調(diào)查對(duì)象,根據(jù)所形成的線索選擇此后的調(diào)查對(duì)象。
第一批被訪者是采用概率抽樣得來(lái)的,之后的被訪者都屬于非概率抽樣,此類(lèi)被訪者彼此之間較為相似。例如:如在目前中國(guó)的小轎車(chē)車(chē)主等。
優(yōu)點(diǎn):可以根據(jù)某些樣本特征對(duì)樣本進(jìn)行控制,適用尋找一些在總體中十分稀少的人物。
缺點(diǎn):有選擇偏差,不能保證代表性。
02 概率抽樣(Probability sampling)
又稱(chēng)隨機(jī)抽樣,指在總體中排除人的主觀因素,給予每一個(gè)體一定的抽取機(jī)會(huì)的抽樣。
其特點(diǎn)為,抽取樣本具有一定的代表性,可以從調(diào)查結(jié)果推斷總體;操作比較復(fù)雜,需要更多的時(shí)間,而且往往需要更多的費(fèi)用。
常用的有以下六種類(lèi)型:
▷ 簡(jiǎn)單抽樣(Simple sampling)
簡(jiǎn)單隨機(jī)抽樣(simple random sampling)又稱(chēng)純隨機(jī)抽樣,是概率抽樣的最基本形式。它是按等概率原則直接從含有N個(gè)元素的總體中隨機(jī)抽取n個(gè)元素組成樣本(N>n)。
常用的辦法類(lèi)似于抽簽,即把總體的每一個(gè)單位都編號(hào),將這些號(hào)碼寫(xiě)在一張張小紙條上,然后放入一容器(如紙盒、口袋)中,攪拌均勻后,從中任意抽取,直到抽夠預(yù)定的樣本數(shù)目。這樣,由抽中的號(hào)碼所代表的元素組成的就是一個(gè)簡(jiǎn)單隨機(jī)樣本。
比如,某系共有學(xué)生300人,系學(xué)生會(huì)打算采用簡(jiǎn)單隨機(jī)抽樣的辦法,從中抽取出60人進(jìn)行調(diào)查。為了保證抽樣的科學(xué)性,他們先從系辦公室得到一份全系學(xué)生的名單,然后給名單中的每個(gè)學(xué)生都編上一個(gè)號(hào)(從001到300)。抽樣框編好后,他們又用300張小紙條分別寫(xiě)上001,002,…,300。他們把這300張寫(xiě)好不同號(hào)碼的小紙條放在一個(gè)盒子里,攪亂后,隨便摸出60張小紙條。然后,他們按這60張小紙條上的號(hào)碼找到總體名單上所對(duì)應(yīng)的60位同學(xué)。這60位同學(xué)就構(gòu)成了他們本次的樣本。這種方法簡(jiǎn)便易學(xué)。但當(dāng)總體元素很多時(shí),寫(xiě)號(hào)碼的工作量就很大,攪拌均勻也不容易,因而此法往往在總體元素較少時(shí)使用。
對(duì)于總體元素很多的情形,我們則采用隨機(jī)數(shù)表來(lái)抽樣。本書(shū)后就附有一張隨機(jī)數(shù)表,表中的數(shù)碼和排列都是隨機(jī)形成的,沒(méi)有任何規(guī)律性(故也稱(chēng)為亂數(shù)表)。利用隨機(jī)數(shù)表進(jìn)行抽樣的具體步驟是:
-
先取得一份總體所有元素的名單(即抽樣框);
-
將總體中所有元素一一按順序編號(hào);
-
根據(jù)總體規(guī)模是幾位數(shù)來(lái)確定從隨機(jī)數(shù)表中選幾位數(shù)碼;
-
以總體的規(guī)模為標(biāo)準(zhǔn),對(duì)隨機(jī)數(shù)表中的數(shù)碼逐一進(jìn)行衡量并決定取舍;
-
根據(jù)樣本規(guī)模的要求選擇出足夠的數(shù)碼個(gè)數(shù);
-
依據(jù)從隨機(jī)數(shù)表中選出的數(shù)碼,到抽樣框中去找出它所對(duì)應(yīng)的元素。
▷ 系統(tǒng)抽樣(Systematic random sampling)
將總體中的各單元先按一定順序排列,并編號(hào),然后按照不一定的規(guī)則抽樣。其中最常采用的是等距離抽樣,即根據(jù)總體單位數(shù)和樣本單位計(jì)算出抽樣距離(即相同的間隔),然后按相同的距離或間隔抽選樣本單位。例如:從1000個(gè)電話號(hào)碼中抽取10個(gè)訪問(wèn)號(hào)碼,間距為100,確定起點(diǎn)(起點(diǎn)<間距)后每100號(hào)碼抽一訪問(wèn)號(hào)碼。
系統(tǒng)抽樣的具體步驟是:
-
給總體中的每一個(gè)個(gè)體按順序編號(hào),即制定出抽樣框。
-
計(jì)算出抽樣間距。計(jì)算方法是用總體的規(guī)模除以樣本的規(guī)模。假設(shè)總體規(guī)模為N,樣本規(guī)模為n,那么抽樣間距K就由下列公式求得:
-
K(抽樣間距)=N(總體規(guī)模)n(樣本規(guī)模)
-
在最前面的K個(gè)個(gè)體中,采用簡(jiǎn)單隨機(jī)抽樣的方法抽取一個(gè)個(gè)體,記下這個(gè)個(gè)體的編號(hào)(假設(shè)所抽取的這個(gè)個(gè)體的編號(hào)為A),它稱(chēng)做隨機(jī)的起點(diǎn)。
-
在抽樣框中,自A開(kāi)始,每隔K個(gè)個(gè)體抽取一個(gè)個(gè)體,即所抽取個(gè)體的編號(hào)分別為A,A+K,A+2K,…,A+(n-1)K。
-
將這n個(gè)個(gè)體合起來(lái),就構(gòu)成了該總體的一個(gè)樣本。
優(yōu)點(diǎn):兼具操作的簡(jiǎn)便性和統(tǒng)計(jì)推斷功能,是目前最為廣泛運(yùn)用的一種抽樣方法。如果起點(diǎn)是隨機(jī)確定的,總體中單元排列是隨機(jī)的,等距抽樣的效果近似簡(jiǎn)單抽樣;與簡(jiǎn)單抽樣相比,在一定條件下,樣本的分布較好。
缺點(diǎn):抽樣間隔可能遇到總體中某種未知的周期性,導(dǎo)致“差”的樣本;未使用可能有用的抽樣框輔助信息抽取樣本,可能導(dǎo)致統(tǒng)計(jì)效率低。
▷ 分層抽樣(Stratified random sampling)
是把調(diào)查總體分為同質(zhì)的、互不交叉的層(或類(lèi)型),然后在各層(或類(lèi)型)中獨(dú)立抽取樣本。例如:調(diào)查零售店時(shí),按照其規(guī)模大小或庫(kù)存額大小分層,然后在每層中按簡(jiǎn)單隨機(jī)方法抽取大型零售店若干、中型若干、小型若干;調(diào)查城市時(shí),按城市總?cè)丝诨蚬I(yè)生產(chǎn)額分出超大型城市、中型城市、小型城市等,再抽出具體的各類(lèi)型城市若干。
優(yōu)點(diǎn):適用于層間有較大的異質(zhì)性,而每層內(nèi)的個(gè)體具有同質(zhì)性的總體,能提高總體估計(jì)的精確度,在樣本量相同的情況下,其精度高于簡(jiǎn)單抽樣和系統(tǒng)抽樣;能保證“層”的代表性,避免抽到“差”的樣本;同時(shí),不同層可以依據(jù)情況采用不同的抽樣框和抽樣方法。
缺點(diǎn):要求有高質(zhì)量的、能用于分層的輔助信息;由于需要輔助信息,抽樣框的創(chuàng)建需要更多的費(fèi)用,更為復(fù)雜;抽樣誤差估計(jì)比簡(jiǎn)單抽樣和系統(tǒng)抽樣更復(fù)雜。
在實(shí)際運(yùn)用分層抽樣的方法時(shí),研究者需要考慮下列兩個(gè)方面的問(wèn)題
(1)分層的標(biāo)準(zhǔn)問(wèn)題。同一個(gè)總體可以按照不同的標(biāo)準(zhǔn)進(jìn)行分層,或者說(shuō),根據(jù)不同的標(biāo)準(zhǔn)可以將一個(gè)總體分成不同的類(lèi)別或?qū)哟巍D敲矗趯?shí)際抽樣中究竟應(yīng)該按什么標(biāo)準(zhǔn)來(lái)分層呢?通常采用的原則有:
第一,以所要分析和研究的主要變量或相關(guān)的變量作為分層的標(biāo)準(zhǔn)。比如,若要研究居民的消費(fèi)狀況和消費(fèi)趨向,可以以居民家庭人均收入作為分層標(biāo)準(zhǔn);又如,要了解社會(huì)研究中不同職業(yè)的人員對(duì)社會(huì)經(jīng)濟(jì)改革的看法,就可以以人們的職業(yè)作為分層的標(biāo)準(zhǔn)。
第二,以保證各層內(nèi)部同質(zhì)性強(qiáng)、各層之間異質(zhì)性強(qiáng)、突出總體內(nèi)在結(jié)構(gòu)的變量作為分層變量。比如在工廠進(jìn)行,可以以工作性質(zhì)作為分層標(biāo)準(zhǔn),將全廠職工分為干部、工人、技術(shù)人員、勤雜人員等幾類(lèi)來(lái)進(jìn)行抽樣。
第三,以那些已有明顯層次區(qū)分的變量作為分層變量。比如在社會(huì)研究中,性別、年齡(當(dāng)然是分段以后,如老、中、青)、文化程度、職業(yè)等等,就經(jīng)常被用作分層的標(biāo)準(zhǔn);其他如學(xué)生按年級(jí)、專(zhuān)業(yè)、學(xué)校類(lèi)型分層,城市按人口規(guī)模分層等等。
(2)分層的比例問(wèn)題。分層抽樣中有按比例和不按比例分層兩種方法。按比例分層抽樣是指按總體中各種類(lèi)型或?qū)哟蔚谋壤齺?lái)抽取子樣本的方法。即在單位多的類(lèi)型或?qū)哟沃兴榈淖訕颖揪痛笠恍趩挝簧俚念?lèi)型或?qū)哟沃兴榈淖訕颖揪托∫恍1热纾硰S有工人600人,按性別分層則有男工500人,女工100人。總體中兩類(lèi)工人人數(shù)的比例為5∶1。因此,若要抽60人作樣本,那么,按比例的抽法就是根據(jù)上述比例,分別從500名男工中隨機(jī)抽取50人,而從100名女工中隨機(jī)抽取10人。這樣,樣本中男女工人之比與總體中男女工人之比完全相同,均為5∶1。可以說(shuō),樣本的性別結(jié)構(gòu)是總體中性別結(jié)構(gòu)的一種縮影。
采取按比例分層抽樣的方法,可以確保得到一個(gè)在某種特征上與總體結(jié)構(gòu)完全一樣的樣本。但是,在有些情況下,又不宜采用這種方法。例如,有時(shí)總體中有的類(lèi)型或?qū)哟蔚膯挝粩?shù)目太少,若以按比例分層的方法抽樣,則有的層次在樣本中個(gè)案太少,不便于了解各個(gè)層次的情況,這時(shí)往往要采取不按比例抽樣的方法。比如上例中,樣本中女工人數(shù)過(guò)少,此時(shí)我們可以采取不按比例抽樣的方法,在500名男工中抽30人,在100名女工中也抽30人。這樣,樣本就能較好地反映出男女兩類(lèi)工人的一般狀況,我們也能很好地對(duì)男女兩類(lèi)工人的情況進(jìn)行比較和分析。
需要但注意的是,我們采用不按比例分層抽樣的方法,主要是便于對(duì)不同層次的子總體進(jìn)行專(zhuān)門(mén)研究或進(jìn)行相互比較,但若要用樣本資料推斷總體時(shí),則需要先對(duì)各層的數(shù)據(jù)資料進(jìn)行加權(quán)處理,即通過(guò)調(diào)整樣本中各層的比例,使數(shù)據(jù)資料恢復(fù)到總體中各層實(shí)際的比例結(jié)構(gòu)。比如上例中,若要用30個(gè)男工、30個(gè)女工的收入資料去推斷全廠工人的平均收入時(shí),就需要在男工的收入后乘以5/3,而在女工的收入后乘以1/3,再加總平均,否則就會(huì)導(dǎo)致推斷的偏誤。
▷ 整群抽樣(Cluster sampling)
是先將調(diào)查總體分為群,然后從中抽取群,對(duì)被抽中群的全部單元進(jìn)行調(diào)查。例如:入戶調(diào)查,按地塊或居委會(huì)抽樣,以地塊或居委會(huì)等有地域邊界的群體為第一抽樣單位,在選出的地塊或居委會(huì)實(shí)施逐戶抽樣;市場(chǎng)調(diào)查中,最后一級(jí)抽樣時(shí),從居委會(huì)中抽取若干戶,然后調(diào)查抽中戶家中所有18歲以上成年人。
優(yōu)點(diǎn):適用于群間差異小、群內(nèi)各個(gè)體差異大、可以依據(jù)外觀的或地域的差異來(lái)劃分的群體。
缺點(diǎn):群內(nèi)單位有趨同性,其精度比簡(jiǎn)單抽樣為低。
▷ 多級(jí)抽樣(Multistage sampling)
也叫多階段抽樣或階段抽樣,以二級(jí)抽樣為例,二級(jí)抽樣就是先將總分組,然后在第一級(jí)和第二中分別隨機(jī)地抽取部分一級(jí)單位和部分二級(jí)單位。例如:以全國(guó)性調(diào)查為例,當(dāng)抽樣單元為各級(jí)行政單位時(shí),按社會(huì)發(fā)展水平分層后(或按經(jīng)濟(jì)發(fā)展水平,或按地理位置分層),從每層中先抽幾個(gè)地區(qū),再?gòu)某橹械牡貐^(qū)抽市、縣、村,最后再抽至戶或個(gè)人。
優(yōu)點(diǎn):具體整體抽樣的簡(jiǎn)單易行的優(yōu)點(diǎn),同時(shí),在樣本量相同的情況下又整群抽樣的精度高。
缺點(diǎn):計(jì)算復(fù)雜。
▷ 抽中概率與規(guī)模成比例抽樣(PPS)
是不等概率中最常用的一種方法,指在總體中參照各單位的規(guī)模進(jìn)行抽樣,規(guī)模大的被抽取的機(jī)會(huì)大,總體中每個(gè)個(gè)體被抽中的概率與該個(gè)體的規(guī)模成正比的抽樣。例如:在進(jìn)行企業(yè)調(diào)查時(shí),根據(jù)PPS抽樣方法抽取企業(yè),令規(guī)模大的企業(yè)被抽取機(jī)會(huì)大。
優(yōu)點(diǎn):使用了輔助信息,可以提高抽樣方案的統(tǒng)計(jì)效率。
缺點(diǎn):如果研究指標(biāo)與規(guī)模無(wú)直接關(guān)系時(shí),不合適采取這種方法。
此外,在抽樣方法劃分上,還有多階段抽樣和兩相抽樣等,有興趣的讀者可參閱其他相關(guān)書(shū)籍。
前面談到抽樣方法的一些基本分類(lèi)和各自特點(diǎn),需要注意的是,在實(shí)際的運(yùn)用中,一個(gè)調(diào)查方案常常不是只局限于使用某一種抽樣方式,而根據(jù)研究時(shí)段的不同采用多種抽樣方法的組鴿為實(shí)現(xiàn)不同的研究目的,有時(shí)甚至在同一時(shí)段綜合運(yùn)用幾種抽樣方法。
例如,設(shè)計(jì)一個(gè)全國(guó)城市的入戶項(xiàng)目,在抽樣上可以分為幾個(gè)不同的步驟,包括:
-
在項(xiàng)目正式開(kāi)始前,可以采用判斷抽樣法選出某一城市先作試點(diǎn),在問(wèn)卷設(shè)計(jì)初期可以采用任意抽樣法選出部分人群進(jìn)行問(wèn)卷試訪。
-
采用分層隨機(jī)抽樣法,確定全國(guó)要分別在多少個(gè)超大型市、多少個(gè)大型市、多少個(gè)中型市、多少個(gè)小型市實(shí)施(先分出城市的幾個(gè)層次,再依據(jù)研究需要在各層用PPS法選取具體城市)
-
采用簡(jiǎn)單抽樣法或PPS抽樣法,確定抽出城市中應(yīng)抽的地塊或居委會(huì);
-
采用整群抽樣法,確定抽出地塊或居委會(huì)應(yīng)訪問(wèn)的家庭戶;
-
在項(xiàng)目后期,可以采用判斷抽樣法選取某城市進(jìn)行深入研究。
-