Chapter 2 Data Collection
本篇是第二章,內(nèi)容是數(shù)據(jù)收集。
1.數(shù)據(jù)來源
做科學(xué)研究離不開數(shù)據(jù),而數(shù)據(jù)的來源有哪些呢?
這里比較簡單地將數(shù)據(jù)來源分為兩類:直接(一手)數(shù)據(jù)和間接(二手)數(shù)據(jù)。
直接數(shù)據(jù)的數(shù)據(jù)獲取來源包括:觀測、調(diào)查、實(shí)驗(yàn)。
間接數(shù)據(jù)的數(shù)據(jù)獲取來源包括:出版物、互聯(lián)網(wǎng)等。
接下來分別談?wù)勥@幾個來源。
觀測——自然科學(xué)里有觀測,如氣象氣候、植物生長期等,社會科學(xué)同樣有觀測,譬如像街區(qū)人的觀測等。觀測的數(shù)據(jù)可以說是純粹第一手?jǐn)?shù)據(jù),在研究中是很寶貴的數(shù)據(jù),但是很容易受到觀測記錄員主觀因素的影響。
調(diào)查——自然科學(xué)里的調(diào)查(室外樣品采集,環(huán)境狀況調(diào)查)一般是跟室內(nèi)實(shí)驗(yàn)相結(jié)合,而社會科學(xué)的調(diào)查會更豐富,如典型的問卷調(diào)查、訪談、座談會等。
實(shí)驗(yàn)——實(shí)驗(yàn)是自然科學(xué)的核心,這里就不詳述了(比如:土壤理化性質(zhì)分析、植物生態(tài)生理特性分析)。不過近年來隨著學(xué)科交叉增多,社會科學(xué)也開始更多地引入實(shí)驗(yàn)的方法(以筆者另一門公選課《初級社會網(wǎng)絡(luò)》為例,耶魯大學(xué)的社會心理學(xué)家米爾格蘭姆(Stanley Milgram)就設(shè)計(jì)了一個連鎖信件實(shí)驗(yàn),這就是著名的六度分割理論的由來)。
當(dāng)然除了以上三種,我認(rèn)為在現(xiàn)在的大數(shù)據(jù)時代,還存在一些新的直接數(shù)據(jù)來源。
- 物聯(lián)網(wǎng)(Interest of Thing,IOT),以各類傳感器(RFID、紅外感應(yīng)系統(tǒng)、GPS、通量塔等)為代表,代表數(shù)據(jù)就是如今火熱的大數(shù)據(jù)——如RFID記錄數(shù)據(jù)、浮動車與出租車GPS軌跡數(shù)據(jù)、通量塔測量的NEE等。
- 遙感(Remote Sensing,RS),某種程度上,遙感也是靠傳感器接收數(shù)據(jù),但是它與物聯(lián)網(wǎng)還是有所差別,故單列出來。作為地學(xué)和生態(tài)學(xué)背景(尤其是GIS和RS相關(guān)方向的)的學(xué)生,對遙感會非常熟悉。遙感的特征就是,可以大范圍快速獲取地表信息數(shù)據(jù)(譬如地形、地表溫度、氣溶膠、albedo等,當(dāng)然這些都需要進(jìn)行反演等)。
總的來說,觀測在自然科學(xué)和社會科學(xué)中都有滲透較多,但是觀測往往受到記錄人員主觀因素影響導(dǎo)致誤差。而且觀測的數(shù)據(jù)結(jié)構(gòu)一般來說呈現(xiàn)非結(jié)構(gòu)化的特征。調(diào)查在社會科學(xué)中有較多應(yīng)用,自然科學(xué)中較少,而實(shí)驗(yàn)則是在自然科學(xué)中應(yīng)用廣泛,社會科學(xué)則應(yīng)用較少。這兩類的實(shí)質(zhì)是類似的,需要提前設(shè)計(jì)好調(diào)查的大綱或者實(shí)驗(yàn)方案,然后按照設(shè)計(jì)好的大綱和方案進(jìn)行調(diào)查和實(shí)驗(yàn)。也因此這兩類數(shù)據(jù)結(jié)構(gòu)化特征比較明顯。
所謂的間接數(shù)據(jù)就是指已經(jīng)經(jīng)過他人整理的相關(guān)數(shù)據(jù)。這邊列出來的主要包括:
出版物:統(tǒng)計(jì)年鑒、書籍、論文等。統(tǒng)計(jì)年鑒是大部分社會科學(xué)相關(guān)研究的重要數(shù)據(jù)來源,這邊就不詳述了。書籍對于很多如社會研究的文本分析是重要的數(shù)據(jù)來源。論文作為數(shù)據(jù),是近年來興起的文獻(xiàn)計(jì)量學(xué)的典型數(shù)據(jù)。此外對Meta分析,論文里的數(shù)據(jù)則是重要來源。
互聯(lián)網(wǎng):百度指數(shù)、阿里指數(shù)、大眾點(diǎn)評等數(shù)據(jù)。
互聯(lián)網(wǎng)數(shù)據(jù)可以利用網(wǎng)絡(luò)爬蟲獲取。
總的來說,間接數(shù)據(jù)易于獲取,作用廣泛,但使用的時候需要控制數(shù)據(jù)質(zhì)量以及引用。
2.調(diào)查設(shè)計(jì)
這邊主要介紹的是數(shù)據(jù)的調(diào)查方式、調(diào)查方案的結(jié)構(gòu)和設(shè)計(jì)以及調(diào)查問卷設(shè)計(jì)。
(1)數(shù)據(jù)的調(diào)查方式
數(shù)據(jù)的調(diào)查方式一般而言是遵循統(tǒng)計(jì)學(xué)規(guī)律的(我們稱之為統(tǒng)計(jì)調(diào)查方式),這里列舉了我國統(tǒng)計(jì)調(diào)查的常用方式:普查(人口普查、農(nóng)業(yè)普查、甚至到最近剛剛發(fā)布成果的全國第一次地理國情普查)、抽樣調(diào)查(概率抽樣、非概率抽樣,具體后面第三章會詳述)、統(tǒng)計(jì)報表(統(tǒng)計(jì)公報)。
而除了以上之外,當(dāng)我們需要自己收集直接數(shù)據(jù)的時候又可以分為以下幾種:
詢問調(diào)查類:
- 訪問調(diào)查
- 郵寄調(diào)查
- 電話調(diào)查
- 電腦輔助
- 座談會
- 個別深訪
觀察實(shí)驗(yàn)
- 觀察
- 實(shí)驗(yàn)
(2)調(diào)查方案的結(jié)構(gòu)和設(shè)計(jì)
如何做調(diào)查?是很多人在科學(xué)研究中的第一道難關(guān)。這里給出一個關(guān)于做調(diào)查的普遍步驟流程圖:
那么調(diào)查方案又是什么呢?我認(rèn)為調(diào)查方案就是調(diào)查的策劃書。明確你調(diào)查的一些目的、對象、項(xiàng)目以及調(diào)查方法等。一般結(jié)構(gòu)如下:
- 調(diào)查目的
- 調(diào)查對象調(diào)查單位
- 調(diào)查項(xiàng)目
- 其他
(3)調(diào)查問卷設(shè)計(jì)
最后這部分是談?wù)務(wù){(diào)查問卷設(shè)計(jì)的一些內(nèi)容(包括筆者自己的一些經(jīng)驗(yàn))。
問卷結(jié)構(gòu)
- 開頭部分(問候語、填寫說明、問卷編號 )
- 甄別部分
- 主體部分
- 背景部分
其他部分就不詳述了,甄別部分一般是針對過濾的問題,就是不符合條件的即可跳過部分調(diào)查題目。接下來主要針對主體部分簡單介紹。
主體部分其實(shí)就是問卷主要調(diào)查的部分。一般來說要注意一下幾點(diǎn)。
- 提問內(nèi)容盡可能簡短
- 用詞準(zhǔn)確通俗(可按6W原則推敲:Who,Where,When,Why,What,How)
- 一項(xiàng)提問只包括一項(xiàng)內(nèi)容
- 避免誘導(dǎo)性提問、否定形式提問、敏感性問題
而問題則又可以分為兩大類:開放性問題(自由回答型)和封閉性問題(選擇回答型)。
封閉性問題包括了二項(xiàng)選擇、多項(xiàng)選擇(單項(xiàng)、多項(xiàng)、限制選擇)、順序選擇法、評定尺度法、雙向列聯(lián)表法。
- 開放性問題——一般就是可以隨便答,這類數(shù)據(jù)一般是問卷者的主觀感受,不會受客觀影響。但是最大的問題在于數(shù)據(jù)收集呈現(xiàn)非結(jié)構(gòu)化特征,多以文本形式存在。研究時必須通過重編碼、文本分析等方法。
- 封閉性問題——相當(dāng)于是選擇題或者填空題。二項(xiàng)選擇就是,只有兩個選項(xiàng)(A或B);多項(xiàng)選擇則是有多個選項(xiàng),可以選至少一個(一個為單項(xiàng)、一個以上且不限制選擇的數(shù)量為多項(xiàng)、一個以上且限制選擇的數(shù)量為限制);順序選擇法,就是給出多個選項(xiàng),讓你按照自己的認(rèn)識對選項(xiàng)進(jìn)行排序;評定尺度法,給出多個選項(xiàng)且是有等級劃分的(如很差,差,一般,好,很好)進(jìn)行選擇;雙向列聯(lián)表法,將兩類不同問題綜合到一起,用表格形式,橫向?yàn)橐活悊栴},縱向?yàn)橐活悊栴}。
從筆者的經(jīng)驗(yàn)來說,在設(shè)置問卷的時候,必須要先從自己想研究的問題出發(fā),思索如何用數(shù)據(jù)分析證明自己的結(jié)論,然后大致思索需要用來分析的統(tǒng)計(jì)方法與統(tǒng)計(jì)指標(biāo),然后對應(yīng)選擇問題的形式,因?yàn)椴煌膯栴}形式對應(yīng)的數(shù)據(jù)結(jié)構(gòu)大不相同,而且統(tǒng)計(jì)方法也不盡相同。
最后的最后安利大家一個軟件:Survey123 for ArcGIS
這是由esri北京研發(fā)中心開發(fā)的一款外業(yè)數(shù)據(jù)收集軟件——獲得“問卷好幫手”稱號的application。
主要包括了桌面端Survey123 connect和移動端Survey123 app兩大軟件??梢院啽愕亟柧?、分享問卷、搜集數(shù)據(jù)、分析數(shù)據(jù),同時采集時受訪者的GPS位置也將被記錄。具體教程參照如下網(wǎng)址。
3.數(shù)據(jù)質(zhì)量
采集數(shù)據(jù)的時候必須考慮的就是數(shù)據(jù)的質(zhì)量,即降低采集數(shù)據(jù)時產(chǎn)生誤差。
科學(xué)研究中的數(shù)據(jù)誤差無可避免,而誤差的來源主要包括:抽樣誤差、非抽樣誤差。
抽樣誤差,在抽樣方式確定時就無法避免,具體的方法可能還是統(tǒng)計(jì)學(xué)萬能解藥———增加樣本量。
非抽樣誤差則包括了如下的內(nèi)容:
- 抽樣框誤差
- 回答誤差
- 無回答誤差
- 調(diào)查員誤差
抽樣框誤差——其實(shí)就是抽取的樣本無法代表總體;回答誤差和無回答誤差都是由于受訪者導(dǎo)致的錯誤,而調(diào)查員誤差則無須再介紹,即采集者自身的誤差。
那么控制誤差的方法無非就在于樣本大小以及合適的數(shù)據(jù)框(針對非抽樣誤差和抽樣框誤差),靠重訪來進(jìn)行修正(回答誤差和無回答誤差),調(diào)查員誤差則需要對調(diào)查員進(jìn)行培訓(xùn)。
當(dāng)然這里還得普及一個概念,在統(tǒng)計(jì)學(xué)里面,precision(精度)和accuracy(準(zhǔn)確性)是不相同的。中文里面往往因?yàn)閮蓚€單詞都翻譯成精度,事實(shí)上這兩個詞指的是不一樣的內(nèi)容。二者的區(qū)別可以看下面的圖。
這里做個簡單的解釋,事實(shí)上就是我們研究事物是個無法窮盡的總體,因此我們只能進(jìn)行抽樣調(diào)查,那么多次抽樣調(diào)查研究之后,我們可以得到每次抽樣調(diào)查的均值(也可以是其他統(tǒng)計(jì)量),在圖中就是藍(lán)色的點(diǎn),那么在靶中心的綠色部分,可以認(rèn)為是總體的真正均值。那么也就是說高精度一般指的是,我們的樣本數(shù)據(jù)自身的變異性很小,也就是說,我們做了N次抽樣調(diào)查,而每次抽樣調(diào)查的樣本均值基本是穩(wěn)定的。我們抽的N次都是相近的數(shù)據(jù),也就是說我們的抽樣誤差盡可能小了(因?yàn)槌榱薔次數(shù)據(jù)變化不會太大)。而高準(zhǔn)確性一般指的是,我們N次抽樣的樣本數(shù)據(jù)的平均值與總體數(shù)據(jù)差異很小。也就是說我們的N次樣本的均值與總體均值很接近,也就是說我們的非抽樣誤差盡可能小了(因?yàn)镹次數(shù)據(jù)平均值與總體均值差異較小,說明我們抽的樣本能夠反映總體均值的特征)。
最后,總結(jié)下數(shù)據(jù)質(zhì)量的控制要求:
- 精度(precision): 最低的抽樣誤差或隨機(jī)誤差
- 準(zhǔn)確性(accuracy): 最小的非抽樣誤差或偏差
- 關(guān)聯(lián)性: 滿足用戶決策、 管理和研究的需要
- 及時性: 在最短的時間里取得并公布數(shù)據(jù)
- 一致性: 保持時間序列的可比性
- 最低成本: 以最經(jīng)濟(jì)的方式取得數(shù)據(jù)