1. 程式人生 > >應用統計學與R語言實現學習筆記(二)——資料收集

應用統計學與R語言實現學習筆記(二)——資料收集

Chapter 2 Data Collection

本篇是第二章,內容是資料收集。

1.資料來源

做科學研究離不開資料,而資料的來源有哪些呢?
這裡比較簡單地將資料來源分為兩類:直接(一手)資料和間接(二手)資料。
直接資料的資料獲取來源包括:觀測、調查、實驗。
間接資料的資料獲取來源包括:出版物、網際網路等。
接下來分別談談這幾個來源。
觀測——自然科學裡有觀測,如氣象氣候、植物生長期等,社會科學同樣有觀測,譬如像街區人的觀測等。觀測的資料可以說是純粹第一手資料,在研究中是很寶貴的資料,但是很容易受到觀測記錄員主觀因素的影響。
調查——自然科學裡的調查(室外樣品採集,環境狀況調查)一般是跟室內實驗相結合,而社會科學的調查會更豐富,如典型的問卷調查、訪談、座談會等。
實驗——實驗是自然科學的核心,這裡就不詳述了(比如:土壤理化性質分析、植物生態生理特性分析)。不過近年來隨著學科交叉增多,社會科學也開始更多地引入實驗的方法(以筆者另一門公選課《初級社會網路》為例,耶魯大學的社會心理學家米爾格蘭姆(Stanley Milgram)就設計了一個連鎖信件實驗,這就是著名的六度分割理論的由來)。
當然除了以上三種,我認為在現在的大資料時代,還存在一些新的直接資料來源。

  • 物聯網(Interest of Thing,IOT),以各類感測器(RFID、紅外感應系統、GPS、通量塔等)為代表,代表資料就是如今火熱的大資料——如RFID記錄資料、浮動車與計程車GPS軌跡資料、通量塔測量的NEE等。
  • 遙感(Remote Sensing,RS),某種程度上,遙感也是靠感測器接收資料,但是它與物聯網還是有所差別,故單列出來。作為地學和生態學背景(尤其是GIS和RS相關方向的)的學生,對遙感會非常熟悉。遙感的特徵就是,可以大範圍快速獲取地表資訊資料(譬如地形、地表溫度、氣溶膠、albedo等,當然這些都需要進行反演等)。

總的來說,觀測在自然科學和社會科學中都有滲透較多,但是觀測往往受到記錄人員主觀因素影響導致誤差。而且觀測的資料結構一般來說呈現非結構化的特徵。調查在社會科學中有較多應用,自然科學中較少,而實驗則是在自然科學中應用廣泛,社會科學則應用較少。這兩類的實質是類似的,需要提前設計好調查的大綱或者實驗方案,然後按照設計好的大綱和方案進行調查和實驗。也因此這兩類資料結構化特徵比較明顯。
所謂的間接資料就是指已經經過他人整理的相關資料。這邊列出來的主要包括:
出版物:統計年鑑、書籍、論文等。統計年鑑是大部分社會科學相關研究的重要資料來源,這邊就不詳述了。書籍對於很多如社會研究的文字分析是重要的資料來源。論文作為資料,是近年來興起的文獻計量學的典型資料。此外對Meta分析,論文裡的資料則是重要來源。
網際網路:百度指數、阿里指數、大眾點評等資料。
網際網路資料可以利用網路爬蟲獲取。
總的來說,間接資料易於獲取,作用廣泛,但使用的時候需要控制資料質量以及引用。

2.調查設計

這邊主要介紹的是資料的調查方式、調查方案的結構和設計以及調查問卷設計。
(1)資料的調查方式
資料的調查方式一般而言是遵循統計學規律的(我們稱之為統計調查方式),這裡列舉了我國統計調查的常用方式:普查(人口普查、農業普查、甚至到最近剛剛釋出成果的全國第一次地理國情普查)、抽樣調查(概率抽樣、非概率抽樣,具體後面第三章會詳述)、統計報表(統計公報)。
而除了以上之外,當我們需要自己收集直接資料的時候又可以分為以下幾種:
詢問調查類:

  • 訪問調查
  • 郵寄調查
  • 電話調查
  • 電腦輔助
  • 座談會
  • 個別深訪

觀察實驗

  • 觀察
  • 實驗

(2)調查方案的結構和設計
如何做調查?是很多人在科學研究中的第一道難關。這裡給出一個關於做調查的普遍步驟流程圖:

Created with Raphaël 2.1.0確定調查目的(Define the issue)確定感興趣的總體和抽樣單元(Define the population interest and sampling unit)規範調查問題(Formulate survey questions)構建抽樣框(Construct sampling frame)選擇樣本(Select sample)收集資料(Collect data)分析資料(Analyze data)

那麼調查方案又是什麼呢?我認為調查方案就是調查的策劃書。明確你調查的一些目的、物件、專案以及調查方法等。一般結構如下:

  • 調查目的
  • 調查物件調查單位
  • 調查專案
  • 其他

(3)調查問卷設計
最後這部分是談談調查問卷設計的一些內容(包括筆者自己的一些經驗)。
問卷結構

  • 開頭部分(問候語、填寫說明、問卷編號 )
  • 甄別部分
  • 主體部分
  • 背景部分

其他部分就不詳述了,甄別部分一般是針對過濾的問題,就是不符合條件的即可跳過部分調查題目。接下來主要針對主體部分簡單介紹。
主體部分其實就是問卷主要調查的部分。一般來說要注意一下幾點。

  • 提問內容儘可能簡短
  • 用詞準確通俗(可按6W原則推敲:Who,Where,When,Why,What,How)
  • 一項提問只包括一項內容
  • 避免誘導性提問、否定形式提問、敏感性問題

而問題則又可以分為兩大類:開放性問題(自由回答型)和封閉性問題(選擇回答型)。
封閉性問題包括了二項選擇、多項選擇(單項、多項、限制選擇)、順序選擇法、評定尺度法、雙向列聯表法。

  • 開放性問題——一般就是可以隨便答,這類資料一般是問卷者的主觀感受,不會受客觀影響。但是最大的問題在於資料收集呈現非結構化特徵,多以文字形式存在。研究時必須通過重編碼、文字分析等方法。
  • 封閉性問題——相當於是選擇題或者填空題。二項選擇就是,只有兩個選項(A或B);多項選擇則是有多個選項,可以選至少一個(一個為單項、一個以上且不限制選擇的數量為多項、一個以上且限制選擇的數量為限制);順序選擇法,就是給出多個選項,讓你按照自己的認識對選項進行排序;評定尺度法,給出多個選項且是有等級劃分的(如很差,差,一般,好,很好)進行選擇;雙向列聯表法,將兩類不同問題綜合到一起,用表格形式,橫向為一類問題,縱向為一類問題。

從筆者的經驗來說,在設定問卷的時候,必須要先從自己想研究的問題出發,思索如何用資料分析證明自己的結論,然後大致思索需要用來分析的統計方法與統計指標,然後對應選擇問題的形式,因為不同的問題形式對應的資料結構大不相同,而且統計方法也不盡相同。
最後的最後安利大家一個軟體:Survey123 for ArcGIS
這是由esri北京研發中心開發的一款外業資料收集軟體——獲得“問卷好幫手”稱號的application。

主要包括了桌面端Survey123 connect和移動端Survey123 app兩大軟體。可以簡便地建立問卷、分享問卷、蒐集資料、分析資料,同時採集時受訪者的GPS位置也將被記錄。具體教程參照如下網址。

3.資料質量

採集資料的時候必須考慮的就是資料的質量,即降低採集資料時產生誤差。
科學研究中的資料誤差無可避免,而誤差的來源主要包括:抽樣誤差、非抽樣誤差。
抽樣誤差,在抽樣方式確定時就無法避免,具體的方法可能還是統計學萬能解藥———增加樣本量。
非抽樣誤差則包括瞭如下的內容:

  • 抽樣框誤差
  • 回答誤差
  • 無回答誤差
  • 調查員誤差

抽樣框誤差——其實就是抽取的樣本無法代表總體;回答誤差和無回答誤差都是由於受訪者導致的錯誤,而調查員誤差則無須再介紹,即採集者自身的誤差。
那麼控制誤差的方法無非就在於樣本大小以及合適的資料框(針對非抽樣誤差和抽樣框誤差),靠重訪來進行修正(回答誤差和無回答誤差),調查員誤差則需要對調查員進行培訓。
當然這裡還得普及一個概念,在統計學裡面,precision(精度)和accuracy(準確性)是不相同的。中文裡面往往因為兩個單詞都翻譯成精度,事實上這兩個詞指的是不一樣的內容。二者的區別可以看下面的圖。

這裡寫圖片描述

這裡做個簡單的解釋,事實上就是我們研究事物是個無法窮盡的總體,因此我們只能進行抽樣調查,那麼多次抽樣調查研究之後,我們可以得到每次抽樣調查的均值(也可以是其他統計量),在圖中就是藍色的點,那麼在靶中心的綠色部分,可以認為是總體的真正均值。那麼也就是說高精度一般指的是,我們的樣本資料自身的變異性很小,也就是說,我們做了N次抽樣調查,而每次抽樣調查的樣本均值基本是穩定的。我們抽的N次都是相近的資料,也就是說我們的抽樣誤差儘可能小了(因為抽了N次資料變化不會太大)。而高準確性一般指的是,我們N次抽樣的樣本資料的平均值與總體資料差異很小。也就是說我們的N次樣本的均值與總體均值很接近,也就是說我們的非抽樣誤差儘可能小了(因為N次資料平均值與總體均值差異較小,說明我們抽的樣本能夠反映總體均值的特徵)。
最後,總結下資料質量的控制要求:

  • 精度(precision): 最低的抽樣誤差或隨機誤差
  • 準確性(accuracy): 最小的非抽樣誤差或偏差
  • 關聯性: 滿足使用者決策、 管理和研究的需要
  • 及時性: 在最短的時間裡取得並公佈資料
  • 一致性: 保持時間序列的可比性
  • 最低成本: 以最經濟的方式取得資料