1. 程式人生 > >機器學習在社會科學中的應用

機器學習在社會科學中的應用

AI綜述專欄簡介


在科學研究中,從方法論上來講,都應先見森林,再見樹木。當前,人工智慧科技迅猛發展,萬木爭榮,更應系統梳理脈絡。為此,我們特別精選國內外優秀的綜述論文,開闢“綜述”專欄,敬請關注。

我們都希望找到那些彩色的小石子兒

注:機器學習領域的文獻日進千里,這篇綜述的文獻截止時間是今年中能夠在網路上檢索到的工作論文。此外,這篇論文的重點是介紹那些在社會科學領域已被廣泛應用或可能具有較大潛力的機器學習技術,而不是機器學習技術本身的發展前沿。

摘 要:隨著資料的可得和計算機軟硬體的發展,機器學習技術在業界及自然科學領域已經得到了廣泛地應用。在社會科學領域,該技術使用雖然起步較晚,但發展也非常迅速。本文目的旨在系統介紹機器學習在社會科學中的應用。在簡單介紹定義,在業界及自然科學領域的應用後,我們將從資料生成、預測以及因果識別(DID,RD和IV)三方面詳細介紹機器學習在社會科學中的應用。侷限於社科因果識別方法論的成熟及樣本量限制,我們認為機器學習雖然拓展了社會科學研究的邊界,但並不會顛覆現有研究正規化。最後,本文從學界不平等及可複製性等方面討論了該技術在應用過程中可能帶來的問題。

關鍵詞:機器學習   資料生成   預測   因果識別

 

引    言


機器學習(Machine Learning,簡稱ML)指的是從資料中識別出規律並以此完成預測、分類及聚類等任務的演算法總稱。[1] 隨著資料的可得及計算機處理能力的提高,該技術在業界及自然科學領域已經得到廣泛地應用。在社會科學領域,機器學習的使用雖然起步較晚,但發展也非常迅速。例如,五大經濟學英文頂尖期刊中涉及到機器學習技術的文章數量在2014年之後以每年74.7%的速度遞增,2017年的數量達到16篇。中文經濟學權威期刊也有類似的趨勢。[2] 本文寫作目的旨在系統介紹機器學習技術在社會科學中的應用。我們首先在第二部分給出機器學習技術的定義,然後在第三和第四部分簡要介紹該技術在業界及自然科學領域的應用。本文的重點在第五部分,在其中我們將從資料生成、預測以及因果識別三方面介紹機器學習在社會科學中的應用。就資料生成來說,機器學習技術可以幫助學者獲得以前很難或無法獲得的資料,進而對一些更具挑戰性的假設進行檢驗;就預測來說,機器學習可以更有效地探索變數間的相關性,進而做出較為精準的預測。在這部分,我們將用公式表達的方式詳細比較機器學習技術和傳統基於迴歸方法在預測方面的異同;最後,由於機器學習在預測方面的優勢,它可以被用來預測反事實進而獲得因果效應。我們認為機器學習技術在上述方面的優勢使其可以和社會科學現有分析工具結合,檢驗之前無法用傳統方法檢驗的假設,最終會拓展現有社會科學研究的邊界。同時,我們也應該對其帶來的問題保持清醒認識,這些問題包括研究可複製性、過分依賴大資料及可能加劇學界不平等。本文最後一部分將對這些問題展開初步討論。

 

一、機器學習簡介


機器學習是指從資料中識別出規律並以此完成預測、分類及聚類的演算法總稱 (Athey, forthcoming)。[3] 在操作中,機器學習方法可以根據被解釋變數是否已知被分成監督(Supervised Learning)和非監督學習(Unsupervised Learning)。監督學習是指被解釋變數已知的機器學習。我們用x表示解釋變數,y表示被解釋變數,那麼監督學習首先依據已有樣本資料建立y=f(x)的函式關係。隨後,當要預測解釋變數為x'時被解釋變數的取值時,只需將x'帶入到等式右邊即可獲得預測值;非監督學習是指被解釋變數未知的學習方式。換句話說,演算法只知道解釋變數x的取值。在這種學習方式下,演算法會分析x的內部結構,然後根據相似性把資料聚類(Cluster)。[4] 以垃圾郵件分類為例,在監督學習下,我們告訴計算機樣本中哪些是垃圾郵件哪些是正常郵件。基於該資訊,演算法會找出郵件內容與類別間的規律並完成對未來郵件的分類。在非監督學習下,演算法並不知道某一封郵件是垃圾郵件還是正常郵件。[5] 此時,演算法依照郵件文字結構與相似度等指標把郵件歸類。在整個過程中,演算法只完成歸類的工作,定義哪一類是垃圾郵件依然依賴於人工。

在實際研究中,學者一般根據被解釋變數是否可得來選擇使用監督還是非監督學習。比方說我們想回答某項政策能否提高民眾幸福感。如果研究者能定期走訪調查並建立覆蓋政策前後時期的幸福感指數的話,作為被解釋變數的幸福感就是已知的。這種情況下就可以選擇監督學習。當然在該資料不可得時,學者也可以從網際網路上搜集網民留言並分析其幸福程度。採用人力對浩如煙海的留言進行打分顯然不切實際,此時可以藉助非監督學習技術:讓機器自動將留言分成幸福和不幸福兩類以供後續研究。[6]

 

二、機器學習在業界的應用


個體、企業及社會組織的生活及運轉都會產生海量資料。針對這些資料有目的蒐集及高效能運算機技術的進步使得機器學習在業界的應用成為可能 (McKinsey Global Institute, 2016)。機器學習技術相關產業在最近幾年得到快速發展。全世界人工智慧領域的風投已經從2012年的不到6億美元提高到2016年的50多億美元 (CBINSIGHTS, 2017)。本文對機器學習在業界應用的劃分根據McKinsey & Company (2017) 的行業報告,分為認知(Cognition)、預測(Prediction)、決策(Decision)和整合解決方案(Integrated Solution)四大類。

認知是指利用計算機收集並解釋文字、影象及語音等資料資訊。很多公司已經利用機器學習技術對諸如網際網路資訊等海量資料進行資料探勘及分析。比如,成立於2007年的Cirmson Hexagon,其主營業務就是利用人工智慧技術抓取各大社交平臺上顧客對客戶公司產品評價及照片,然後對其進行分析進而幫助客戶提高產品吸引力、識別目標受眾及找出潛在競爭對手。[7] 除了文字和圖片,也有公司利用機器學習進行語音資訊認知。科大訊飛就是該領域非常成功的公司之一。該公司目前已經能夠將語音識別整合到手機端輸入法中,在語音識別的同時將其轉化成文字進而提高使用者輸入體驗。[8]

對各類資訊所進行的認知分析為預測提供了基礎,預測是目前機器學期在業界最為廣泛的應用。精準的預測能夠讓企業更加了解顧客偏好,改進產品並精準投放廣告。這方面知名的公司包括亞馬遜和淘寶。基於顧客瀏覽、搜尋及購買等歷史資料分析,機器學習預測能夠讓這些公司在客戶端進行精準的商品推薦和廣告投放。類似技術也應用到視訊提供商上,比如Netflix就根據使用者歷史觀影內容來預測偏好,推薦其支付意願最高的電影 (McKinsey Global Institute, 2016)。

這些預測結果進一步為決策提供可能。以金融業Wealthfront公司為例,該公司首先通過人工智慧技術預測出各種投資的潛在風險及回報率,隨後再結合客戶資金量和風險偏好為其提供最佳投資決策參考。[9] 另一個非常知名的業界決策案例是谷歌公司的Alpha Go。該方案利用深度神經網路(Deep Neural Networks)和樹搜尋(Advanced Tree Search)技術預測並決策出下一步棋的落子 (David Silveret al., 2016)。

最後,將上述各個方面應用整合並結合硬體以實現特定目標就是所謂的整合解決方案。在該領域領先的企業包括谷歌和亞馬遜。谷歌旗下的無人駕駛汽車公司Waymo通過安裝在車輛上的感測器及車載電腦對路況、訊號燈、路牌及行人等資訊進行認知,基於這些資訊預測出下一時間道路狀況並作出加速或剎車等相關決策。[10] 亞馬遜的整合解決方案主要在智慧家居領域,將人工智慧語音助手Alexa整合在音箱中,實現語音操控各種傢俱並安排日程等諸多高階功能。[11]

 

三、機器學習在自然科學中的應用


和社會科學相比,自然科學的資料可得性相對較高,因此較早開展相關技術的應用。本部分以物理學和醫學為例,簡單介紹機器學習在這兩個學科中的應用現狀。

(一)物理學

機器學習在物理學的運用發展較快,這主要得益於機器學習在資料的分類及降維上具有的優勢。下面內容將從高能物理和凝聚態物理兩個領域簡要闡述這些優勢。

在高能物理中,粒子對撞是發現新粒子的有效方法之一。但分析對撞的實驗資料涉及到非常複雜的粒子分類問題(Signal-versus-background):判斷感測器接收到的訊號是待發現新粒子產生的(Signal)還是已知粒子所產生的(Background)。因此我們需要計算出那些僅由已知粒子所產生的訊號是怎樣的,然後再與實驗測得訊號進行對比。如果兩者存在顯著統計差異就能夠判定是出現了未知粒子。物理學家通常採用蒙特卡洛(Monte Carlo)方法計算上述訊號,而該方法會產生高維資料:解釋變數數目很多,甚至超過樣本容量 (Baldi et al., 2014)。 其原因在於計算訊號用到的解釋變數是碰撞前粒子的資訊,其中包括粒子間相互作用。目前最大的大型強子對撞機(Large Hadron Collider, LHC)一次碰撞會用到10^11個質子,因此考慮粒子間相互作用勢必導致資料維度非常龐大。而機器學習有一套成熟的變數選擇方法(Feature Selection)對高維資料進行降維。演算法一般從眾多解釋變數中挑選一部分進行運算並評估其計算結果。如果結果精度不高,那麼就再挑選另一部分解釋變數並重覆上述操作,直至演算法表現達到期望精度為止。[12] 藉助此類降維演算法,Baldi et al. (2015) 把機器學習運用在希格斯粒子發現的實驗中,在給定資料量下提高了估計值的置信水平。

機器學習在物理上的另一大應用是研究凝聚態物理,這個領域旨在分析物質的微觀組成和巨集觀性質間的聯絡。研究物質的微觀組成和結構必然會涉及到分析微觀粒子間的相互作用。但問題在於物質是由大量微粒組成的,任意兩個粒子間的作用都需要被納入考量。這意味著方程規模將特別大,就會遇到類似於經濟學中一般均衡的求解問題:要考慮任意一個消費者對任意一件商品的需求,也要考慮任一廠商對任一商品的供給。由於方程組數目巨大,傳統方法難以獲得解析解。經濟學家通常進行數值求解,物理學家解決該問題也採用類似方法。然而在利用計算機求解過程中也會產生高維資料,原因正是上文所提的方程規模過大。如果採用經典方法計算,結果很可能不收斂以致於無法獲得數值解 (Kohn, 1999)。對此,機器學習同樣通過降維方法獲得滿意數值解。基於這些優點,近期已有很多物理學家引入諸如神經網路(Neural Network)技術來進行凝聚態物理研究,成功地從高維資料中找出了影響物質巨集觀性質的序參量(Order Parameter)(Carrasquilla and Melko, 2017; Wang, 2016; van Nieuwenburg et al., 2017)。

(二)醫學

機器學習在醫學中的運用主要集中在生物醫學資料及影象的分析及識別上。下文將以腦神經電訊號和腫瘤基因資訊分類及腸道斷腸掃描影象識別這兩個案例,對其應用進行簡單歸納。

人腦皮層約有10^10個神經元且活躍程度也彼此不同,其釋放的神經電訊號是較為典型的大資料。對這些電訊號的解讀能夠讓醫生了解腦部活動與肢體運動間的聯絡,該聯絡對癱瘓患者康復極為重要:當患者大腦無法指揮肢體時,如果能夠讀懂患者神經訊號對應的肢體動作,醫生就可以對這個動作涉及到的肌肉進行電刺激使其完成動作。問題在於神經訊號太過複雜,過去的統計技術無法理清如此大量的資料與肢體動作間的聯絡。Bouton等人利用了機器學習技術試圖建立了這一聯絡,該成果成功地讓一名癱瘓患者恢復手臂運動功能 (Bouton et al., 2016)。這名患者由於脊椎受傷,神經訊號無法傳遞到手臂上。於是研究者利用電腦取代脊柱將腦神經和手臂連在一起,將神經訊號“傳遞”到手上。為此,研究者在患者腦部植入電極以讀取神經訊號,並要求患者在腦中想象規定的手臂動作。隨後研究者利用支援向量機(Support Vector Machine, SVM)方法建立神經訊號資料和假象動作之間的關聯。此後若是電腦讀取到某個腦皮層訊號,就可以根據已經建立起來的關係找到對應的動作,然後再所需肌肉進行刺激以完成對應動作。

另一類醫學大資料是腫瘤基因資訊。如果醫生可以根據基因突變的發生位置將腫瘤劃分為不同類別以施加不同方案和強度的治療,所獲療效就更加顯著。但人類的2.5萬個基因由30億對鹼基對構成,找到病變發生具體位置涉及到大資料的分析和解讀。科學家們已經嘗試用機器學習技術對腫瘤基因資訊進行細分分類,從而對症下藥提高療效 (Alizadeh et al., 2000; Shipp et al., 2002; Ye et al., 2003)。

除了醫學資料的處理,機器學習的另一重要運用是識別X光片、造影及斷層掃描圖等醫學影象。傳統上,醫生根據經驗來判斷影象中是否存在病變。這種方法的準確性受限於醫生的經驗。這就為機器學習的使用提供了機會。Halligan et al. (2006) 比較了人工智慧和醫生在診斷腸道息肉的正確率差別,發現機器學習技術在識別腸道CT影象的速度及準確率都強於人類。 類似應用還包括讓計算機輔助人類識別乳房相關病變 (Gilbert et al., 2008; Lehman et al., 2015; Obermeyer and Emanuel, 2016)。

 

四、機器學習在社會科學中的應用


本文把目前機器學習技術在社會科學研究中的應用分成三類:第一,資料生成(Data Generating Process):機器學習可以幫助學者獲得以前很難或無法獲得的資料;第二,預測(Prediction):機器學習可以更有效地探索變數之間的相關性,進而做出較為精準的預測;第三,因果識別(Causal Inference):社會科學、特別是經濟學實證研究的核心是因果識別,而機器學習在這方面也具有一定優勢。

值得注意的是,本文與Athey (forthcoming) 綜述性文章並不相同, 主要體現在以下兩點:第一,務實性。Athey將機器學習在社會科學中的影響分為政策評估和因果推論兩部分,這對應於本文第二和第三類應用。但我們認為最普遍也是最重要的應用是資料生成。據我們統計,目前社會科學中關於機器學習技術應用超過90%都是利用該技術的海量資料處理能力生成新資料或者變數。但該應用可能被Athey認為過於基礎而沒有在她的文章中提及。Athey詳細討論的是機器學習在因果推論中的最新進展。通過綜述,我們發現這方面的應用在當前的實證研究中極其有限。本文側重介紹其方法論基礎,特別是機器學習如何與因果識別的傳統方法比如DID、RD及IV的結合。因此,本文針對機器學習應用的分類更加貼近實際;第二,公式推導及受眾。在預測和因果推論部分,我們使用詳細的公式推導方法比較了傳統線性擬合和機器學習預測間的差異,最終將差異直觀地展示出來以利於一般讀者理解,Athey沒有采用類似方式。我們認為本文的潛在讀者群更加廣泛,適用於不具備機器學習專業知識的社會科學研究者。

(一)資料生成

傳統社會科學實證研究基於的資料大都來自官方、問卷調查、實地調查、田野或實驗室實驗。最新一些研究試圖利用機器學習技術拓展資料可得性。通過機器學習獲得資料的主要方式是文字挖據及影象識別。

就文字資訊來說,研究者關心的是文字主題。為了在海量文字資料中提取主題,學者一般使用Latent Dirichlet Allocation(LDA)方法。[13] 例如,Hansen et al. (2018) 就利用該方法探究透明度政策如何影響政府內決策過程。 這篇論文的研究背景是美國聯邦公開市場委員會(Federal Open Market Committee, FOMC)在1993年通過決議公開了內部會議的發言記錄。作者將該項政策視作自然實驗以觀察委員會成員的發言內容在該年前後的變化。研究基於的文字資訊包含5萬多次發言,總計500多萬個單詞,人工檢索幾乎不可能。作者便利用上文提到的LDA模型,從這些海量文字中提取40個不同的主題(圖1)。任意一個成員的每一條發言都可以對應到這些主題中的一個或幾個上。每個成員發言中各個主題的佔比及成員間發言的相似度等指標就可以被計算出來,作者便可以使用常規OLS檢驗透明度政策對這些被解釋變數的影響了。[14]

圖1 機器學習得到的40個主題及每個主題下最可能出現的單詞

注:該圖來自於Hansen et al. (2018)。 圖中每一行代表LDA方法識別出的一個主題(topic0至topic39)。每一行中展示出的12個單詞為該主題下最可能出現的單詞,自左往右顏色變淺表示該單詞出現可能性越小。

類似使用機器學習技術從文字中生成變數研究還有很多。比如Antweiler and Frank (2004) 利用樸素貝葉斯演算法(Naive Bayes)將網路上超過150萬股民留言分為看漲、看跌及中立三類,然後用每條留言的類別解釋股票市場振幅; King et al. (2017) 和Qin et al. (2017) 分別採用自動非引數文字分析(Automated Nonparametric Content Analysis)和支援向量機(Support Vector Machine)技術來識別微博使用者或賬號的身份。[15]

除了文字,機器學習也可以從影象中提取變數。衛星影象就是一個被經濟學家廣泛研究的影象資訊。[16] 例如,Engstrom et al. (2016) 的研究試圖測量一個地區的綜合社會福利水平。 在發達國家,研究者可以直接依賴官方資料或者調查資料。但很多落後國家由於沒有足夠財政維持經濟普查機構的運轉,其官方經濟統計資料並不可得。為此,作者使用卷積神經網路(Convolutional Neural Networks, CNN)來識別衛星圖片中建築物、車輛及道路等固定資產,以此評估這些地區的福利水平。[17] 除衛星遙感照片外,谷歌街景照片(Google Street View)也經常被學者用來研究諸如城市化相關習題 (Glaeser et al., 2018)。 另外一個被廣泛研究的影象資訊是人像。比如,Edelman et al. (2017) 通過用機器學習技術判別Airbnb上的使用者頭像性別進而分析租房平臺上是否存在性別歧視。 Cao and Chen (2018) 在研究戀愛配對市場中顏值和物質條件發揮作用時,使用機器學習技術對研究物件的面貌進行打分並和人工打分比較。

上述研究主要涉及變數的“絕對”值,機器學習還可以為研究者生成“相對”意義上的變數。比較不同文字相似度是該領域的典型應用。比如,Iaria et al. (2018) 試圖研究一戰衝擊是否會影響跨國學術交流合作。 在這個研究中,解釋變數是戰爭的爆發,被解釋變數則是論文的相似程度。作者預期戰爭會降低論文相似程度,基於如下邏輯:如果兩個國家的學者經常交流,那麼大家的研究興趣和方向就會比較相似,這會導致論文成果也具有相似性。戰爭的爆發使得國家之間進入敵對狀態,跨國學術合作被迫中斷。這將導致同盟國和協約國各自的論文標題相似度下降。該研究需要解決的關鍵問題是比較論文間的相似度:樣本包含40000篇論文。作者採用基於機器學習的語義分析(Latent Semantic Analysis)來比較兩兩論文標題間的相似程度,實現了人工不大可能完成的工作(圖2)。折線代表敵對陣營間論文標題的相似度。可以非常明顯的看到,相似度在一戰爆發後顯著下降,證實了作者上述猜想。

圖2 來自不同陣營的論文相似度

注: 本圖來自於Iaria et al. (2018) 的論文。 圖中縱軸表示兩個敵對國之間的論文相似度,橫軸表示論文出版年份,黑色豎線為1914年一戰爆發。同上文猜想一樣,敵對國之間的論文相似度在一戰爆發後極速下降。圖中相似度為負是因為作者選取的對照組為本國與本國內部論文的相似度,詳細討論見原文。

其他利用文字相似度進行研究的文獻包括Bleakley and Ferrie (2016) 的研究以及Hoberg and Phillips (2016) 的研究等。Bleakley and Ferrie (2016) 試圖研究財富增加能否增加對後代的教育投資。 由於普查資料來自多個年份,造成了部分父輩與子輩無法匹配(比如女子婚後改變姓氏)。作者使用機器學習技術並結合其他個人資訊預測來自兩個樣本的不同個體是不是父子或父女關係以解決該問題。Hoberg and Phillips (2016) 則研究了911事件如何影響軍火企業。 由於美國傳統行業劃分是不隨時變化的,這就導致了那些由於這一事件進入或退出軍火行業的企業無法被識別出來。為解決該問題,作者同樣採用機器學習技術:分析公司每年的產品描述文件並根據其相似度劃分行業分類。結果發現911事件後進入軍火行業的企業數目顯著增多。

除了對海量文字進行歸類和比較外,機器學習技術還可以測量文字背後的情感。比如,Hills et al. (2016) 試圖研究歷史上人們的主觀幸福指數。 我們可以依靠社會調查資料測量現代社會公眾的幸福感。但該方法並不適用於古代。作者採用的策略是利用機器學習計算不同時期出版圖書中的幸福感。研究資料來自谷歌圖書(Google Books Corpora),該資料庫收錄了1500年以來將近1000萬本書籍。作者首先利用語言學和心理學文獻中已有的“幸福感詞典”,定義出每一個詞所代表的“幸福值”,然後用計算機計算出每一本書的幸福感指數。為了驗證該方法可靠性,然後,作者比較了1970年後分別利用該方法(紅線)和Eurobarometer社會調查(藍線)所建立起來的義大利公眾幸福指數(圖3)。這兩個指數之間類似的發展趨勢說明了上述方法的可行性。

圖3 作者構建的義大利主觀幸福指數與Eurobarometer的義大利民調

注:本圖來自於Hills et al. (2016) 的研究。 圖中紅色線為作者通過機器學習讀取圖書生成的義大利主觀幸福指數,數值大小以左側縱軸來表示;藍色線為Eurobarometer在義大利進行的生活幸福感調查獲得的幸福指數,可以看到兩者吻合度很高。

另外一個被學者,特別是政治學者廣泛關注的是文字中體現的政治立場。[18] 利用機器學習技術對文字進行立場分析的相關研究包括:從各個黨派黨章或宣言中推測黨派政策立場、通過新聞報紙措辭來判斷報紙黨派傾向、通過國會發言來測定黨派分歧等 (Laver et al., 2003; Gentzkow and Shapiro, 2010; Gentzkow et al., 2016)。[19]

(二)預測

在使用機器學習之前,社會科學研究者主要依賴最小二乘迴歸(OLS)進行預測。在本小節,我們首先用公式推導的方法比較該領域被廣泛使用的Ridge(嶺迴歸)技術和OLS在預測上的差異,並簡單評價這兩種方法的優劣;其次介紹利用機器學習進行預測的最新文獻。

1. OLS與Ridge在預測上的差異

預測的目的在於找出兩個變數間的相關關係。假設這兩個變數間的真實關係是。此處函式關係f客觀存在但不為我們所知。無論依賴於機器學習還是計量經濟學,研究者的目的都是找到一個與f儘可能接近的函式g,使得該函式估計值能夠非常好地吻合真實值y。評價一種預測方法好壞最常用的標準是均方誤差(Mean Squared Error, MSE),也就是殘差平方的期望,可表述為 (Hastieet al., 2016):

(1)

當解釋變數取值為時,預測值與被解釋變數真實值間的差異可被寫為:

(2)

通過上式,均方誤差被分解為三部分:估計值與真實值間的偏差(Bias)、估計值方差(Variance)及真實值的擾動方差(Noise)。其中,擾動方差完全來自於隨機擾動項ε,該部分不會消除且也不會由於預測方法的不同而存在差異。因此,不同預測方法減小均方誤差的途徑就是在偏差和方差間進行取捨。[20]

下面我們從偏差、方差以及最終均方誤差三方面,比較OLS和Ridge在預測方面的差異。為了推導的簡潔,假設Y與X的真實函式關係f(x)為線性且解釋變數X為正交矩陣:[21]

(3)

OLS的預測函式g(x)可表示為,對式中的估計方法是最小化殘差的平方和,表示為:

(4)

此時,的偏差是:(5)

方差是:

(6)

可知是真實值β的無偏估計量。[22]

由以上可以看出利用OLS進行預測的優點在於估計係數偏差為0,缺點是方差可能較大。換句話說,選擇若干個隨機樣本進行多次迴歸,無偏性保證所獲係數的均值接近於係數的真實值。方差較大則意味著單次迴歸係數偏離均值較遠,可能會異常大或小。當解釋變數間存在多重共線性時,這一問題尤為嚴重。

針對此問題,Ridge在最小化目標函式中引入估計係數平方作為懲罰項,表示為:[23]

(7)

上式在直覺上非常容易理解:OLS的缺點在於方差大,也就是估計係數的上下波動很劇烈。為了防止這種情況,機器學習在最小化過程中通過加入估計係數的平方或絕對值來“抑制”係數大小。如此便可以減小估計係數的方差使得預測更加穩定。這種思路可以理解為對係數大小的一種懲罰:過大則賦予較小權重,過小則相反。LASSO和Ridge的不同就體現在懲罰係數的選取上:Ridge懲罰項為係數的平方,而LASSO則是係數的絕對值。[24] 引入懲罰項後,Ridge最小化的目標函式較之OLS更為複雜,而LASSO甚至無法匯出估計係數的解析表示,只能求得數值解。操作上,最小化問題往往藉助機器學習技術實現。以下將分別比較OLS和Ridge估計係數的偏差、方差和均方誤差的大小。首先,根據X是正交陣假設,由式上式可得係數為:

(8)

此時估計係數的偏差是:

(9)

偏差是:

(10)

上兩式表明Ridge係數估計是一個有偏估計量,但其方差比OLS要更小。換一句話說,在方差和誤差的權衡中,Ridge以有偏為代價換取更小的方差。在獲得了OLS和Ridge估計係數的偏差和方差後,我們就能夠分別計算兩者的均方誤差:

(11)

 

(12)

為了比較兩種方法的預測能力,我們將上兩式做差:

(13)

若上式取值為正,那麼OLS預測誤差更大,反之Ridge的誤差更大。可以看到,上式實際是一個關於λ的函式,其正負性也依賴於λ的值。現在問題轉變為:怎麼樣的λ會使得上式取正值或者負值?我們先考察該函式極值,如果該函式極大值都小於零,OLS的均方誤差將恆小於Ridge;反之,如果該函式的極大值大於零,意味著我們一定能找到λ使得Ridge的均方誤差更小。為找到極值,令上式的導數為零,得到一階條件。將該一階條件代入,此時。式中分子分母都為正數,因此上式大於零,這意味著Ridge預測能力優於OLS。事實上,Theobald (1974) 證明了將該條件放寬到時,Ridge的均方誤差都是小於或等於OLS的。

我們從“無偏性”和“可解釋性”兩方面評價傳統計量經濟學方法和機器學習方法在預測方面的優劣。正如本章開頭所說,任何預測方法都是在偏差和方差間進行權衡取捨。社會科學實證研究,特別是經濟學研究,特別強調因果推論。基於這種考慮,計量經濟學回歸模型都致力於獲得一致的估計係數。這意味著在這一方差–偏差權衡中,計量經濟學方法寧願付出方差較大的代價,也不能放棄無偏這一性質 (Athey, forthcoming)。比方說上面所提到的OLS的估計係數正體現這一思路。而機器學習的目的就是進行預測——它並不在乎用以做出預測的估計係數是否具有無偏性特點。這就意味著在無偏性上,機器學習做出了“讓步”:選擇用偏差來換取更小的方差以提高預測效能。“可解釋性”指的是從模型估計出的結果能夠容易地被解釋。計量經濟學的目的不僅是預測,更在於解釋現實中的現象以找到背後規律。從這個意義上來說,用來預測的函式形式越簡單越好。因為複雜模型需要廓清模型擬合好壞的原因及解釋變數與被解釋變數間的互動關係等諸多問題。[25] 機器學習則恰恰相反,只要這個函式能夠很好地模擬現實,哪怕函式形式再複雜也無所謂。[26] 在這一點上,機器學習不拘泥於“可解釋性”,靈活地選擇函式形式進行擬合數據,這使得其預測能力強過了計量經濟學傳統方法。[27]

2. 機器學習預測在文獻中的應用

本小節將從個體和社會方面對現有利用機器學習進行預測的文獻中進行簡單梳理。

在個體層面上,機器學習可以幫我們更好地預測個人資訊、決策或未來行為。此類研究包括Oster (forthcoming)、Kleinberg et al. (2017)、Goel et al. (2016) 及Chalfin et al. (2016) 學者的研究。 Oster (forthcoming) 嘗試研究糖尿病患者在確診後是否會改變飲食結構。由於改變飲食習慣是一件非常痛苦的事,很多糖尿病人都不願意去節制飲食,以往文獻由於缺少資料而無法測度這種“不願意”的程度。為解決該問題,作者首先基於個體消費記錄(Nielsen HomeScan Panel)中的“血糖儀”、“試紙”等關鍵字,利用隨機森林(Random Forest)預測某人是否患糖尿病。[28] 得到預測結果後,再分析該個體在患糖尿病前後的食品消費記錄來推斷其是否改變飲食習慣。 該文發現患者因為患糖尿病而改變飲食習慣的幅度非常小。Goel et al. (2016) 同樣採用隨機森林方法預測哪些行人更有可能攜帶武器;Kleinberg et al. (2017) 則通過梯度提升決策樹(Gradient Boosted Decision Trees)預測被保釋犯人是否會出席庭審;[29] Chalfin et al. (2016) 採用隨機梯度提升(Stochastic Gradient Boosting)決策樹來預測警察的工作質量。[30] 作者通過警員入職申請中提及的社會經濟狀況、婚姻、是否服役等資訊,預測其未來工作中是否偏向使用暴力。

相比之下,國內採用機器學習進行預測的相關研究起步較早且大多集中在金融領域,主要集中在對個人或企業的貸款風險信用進行預測方面 (方匡南等,2010;郭英見和吳衝,2009;呂勁鬆等,2016;馬曉君,2015;錢爭鳴等,2010;蘇治等,2017;徐曉萍和馬文傑,2011)。限於篇幅,這裡無法做過多展開,讀者可參考原文。

在社會經濟層面,機器學習能夠幫助研究者預測經濟指標。比如,Blumenstocket al. (2015) 試圖研究發展中國家的財富分佈情況。 作者遇到的問題和本文第三部分提到的Engstrom et al. (2017) 的研究類似:落後地區的官方資料質量較差。和Engstrom依賴於衛星影象不同,本文作者認為手機元資料(Mobile Phone Metadata,如通話歷史等資訊)不光能用來推斷手機使用者的財富狀況,同時也具有源覆蓋範圍廣、質量高且廉價的優勢。作者先收集856人的手機元資料及他們的經濟狀況,再利用彈性網路(Elastic Net)建立手機資料與經濟狀況間的函式關係。作者發現該函式關係可以很好的預測財富分佈。類似文獻還有Glaeser et al. (2017) 的研究,作者試圖測量基層的即時經濟狀況。 由於政府統計報表公佈時效性差,作者基於網路平臺Yelp資料並通過隨機森林來預測時時微觀經濟活動。[31] 國內學者也嘗試通過機器學習完成預測目標,比如劉濤雄和徐曉飛(2015)及孫毅等(2014)研究通過網際網路搜尋資料分別對GDP及通貨膨脹率進行預測。 陳碩和王宣藝(2018)試圖利用基層社會經濟指標預測GDP。

(三)因果推斷

社會科學,尤其是經濟學實證研究的核心目標是獲得因果推論,以探究干預(Treatment)措施是否導致預期結果並廓清作用發生機制。本部分將討論機器學習技術在這方面的應用。我們首先基於著名的Neyman-Rubin反事實框架(Neyman-Rubin Counterfactual Framework)給出“因果效應”的定義 (Neyman, 1923; Rubin, 1974);隨後結合目前應用微觀計量經濟學廣泛使用的兩種因果推論方法:雙重差分(Difference-in-Differences, DID)及斷點回歸(Regression Discontinuity, RD)展示該技術在其中的應用。

1. 因果關係與反事實

我們依然沿用Rubin論文中患者吃藥的例子來探究藥物能否“導致”疾病被治癒。在現實世界,能夠被我們觀察到的“藥物效果”是那些頭痛並吃了藥的人的健康狀況減去那些健康且沒吃藥的人的健康狀況,用公式表述為:

式(14)中,Y表示個體健康程度,第一個下標為1表示該個體實際吃了藥,0表示沒有吃藥;第二個下標i代表第i個觀察物件。取值1或0分別表示該患者是否患有頭痛。因此就表示那些頭痛且的確吃了藥的患者健康程度,則表示健康且沒有吃藥的人的健康程度。

顯而易見,公式(14)並不代表藥物的因果作用:那些沒吃藥的人相對較為健康,與那些因為頭痛而吃藥的患者不可比。在這種情況下我們無法區分兩個群體在吃藥後身體狀況的差異到底來自於藥物效果還是來自於個體差異。真正的效果應該是除了吃藥與否外,其他所有因素都一樣(ceteris paribus)。換句話說,藥物作用應當是同樣一群患者(均為1),分別測量沒有吃藥和吃藥後的健康程度的差別,公式表述如下:

公式(15)可以理解為藥物作用是吃藥的患者健康程度()減去如果他沒有吃藥時的健康程度()。但遺憾的是,這兩者在真實世界中永遠無法同時被觀察到的。我們把這種無法觀察到的情況定義為吃藥患者健康程度的“反事實”。雖然公式(15)在真實世界中沒有操作性,但這不妨用該公式來重新組織公式(14):

公式(16)可由公式(14)中減掉反事實再加上反事實後獲得,這依然是觀察到的“因果效應”。但此時公式(16)由兩部分組成:第一部分正是藥物的真實作用(式15),第二部分是,我們將其定義為選擇偏差(Selection Bias)。該部分字面意義是那些有病沒吃藥的患者的健康程度減去那些沒病也沒吃藥的個體健康程度。顯而易見,該選擇偏差小於0:有病但沒吃藥的患者的健康程度當然差於沒病也沒吃藥的個體健康程度。自此,可以知道觀察法獲得的所謂“因果效應”等於真實因果效應加上一個小於0的選擇偏差。換句話說,觀察法獲得的“因果效應”低估了真實因果效應。[32]

缺乏反事實使得觀察法獲得的因果效應並不等於真實因果效應。該問題被稱之為因果推論的根本問題(Fundamental Problem in Causal Inference)。而從以上分析可以發現,該問題根源在於個體差異:健康個體和病患個體存在諸多差異,因而前者無法作為後者的“反事實”。傳統計量經濟學所發展出來的所有分析工具,不管採用何種研究設計,其最終目的都是構建出介入組(Treatment Group)的反事實。一般來說,這些方法通過尋找恰當的控制組(Control Group)並提供證據來論證或假定該組可以作為介入組的反事實。找到適當的控制組後,它在介入後的取值即可以作為介入組的反事實,二者間差異為介入效果。

這個過程就為機器學習的應用提供了機會:與其直接計算介入組和控制組在介入後的差異,不如利用控制組中樣本構建出某種函式 (比如樣本的加權平均),使得該函式的取值與介入組足夠相似,從而便可將該函式在介入後的取值作為反事實。用公式表述如下:

其中是控制組沒有被介入時的取值,是介入組在介入前取值。而是反事實的預測值,表示介入組如果沒有被介入時的取值。該函式作為介入組反事實的合理性可以通過其在介入前的值與介入組在介入前的值的差值反映。如果兩者差異不大,表示該函式和介入組足夠相似:用它作為反事實是可靠的。一般來說,我們用該函式的預測值和的差值平方來評價,公式表示如下:

如果將式(18)與第三部分式(1)對比,可以發現兩者最小化目標函式十分相似:式(18)是最小化殘差平方和,而式(1)是最小化均方誤差(MSE)。從這意義上,對反事實的估計可以被視作為一種預測 (Varian, 2016; Athey, forthcoming)。 以下將依次結合DID及RD具體展示機器學習如何實現對反事實的估計。

2. 雙重差分方法

雙重差分是當前應用微觀計量經濟學中最常用的政策評估方法之一。我們用圖4來展示該方法識別因果的策略。

圖4 雙重差分(DID)識別策略示意圖

注:淡藍色代表介入組 (地區T),橙黃色代表控制組 (地區C),紅色豎線代表在地區實施的某一政策。

假設某個地區 (地區T) 被政策介入,該地區某項我們感興趣的指標在政策前(紅線左邊)的取值為①,政策實施後(紅線右邊)的取值為②。很明顯,②-①並不是政策效果:我們並不知道該地區如果沒有政策的話,該指標取值是多少 (反事實)。為了解決該問題,DID的策略是尋找另外一個地區 (地區C),該指標在地區政策前後的取值分別是③和④。①、②、③和④的取值分別表示為。該方法假設在政策後該指標取值⑤是的T反事實。在該方法中,反事實⑤的取值來自於①、③和④點:⑤=①+(④-③),其中④-③為C地區的時間趨勢,假定與T地區相同。因此,政策效果被表示為:②-[①+(④-③)],也可以表示為(②-①)-(④-③),這也就是該方法被稱之為雙重差分的原因。當然,出於展示的便利,圖4中僅用4個點表示所有樣本的四種情況。在實際研究中,這四個點背後會有很有觀察值。在這種情況下,上文①+(④-③)的就被表述成:

(19)

其中Y的第一個下標仍然代表上文中的控制組 (地區C),而第二個下標i則表示樣本中的第i個觀察值。[33] 式子末尾的常數項Constant即為實驗組與控制組在施加處理前的差異,也就是圖4中①和③的垂直距離。因此,從本質上說,雙重差分方法比較的這四個點背後所有觀察值算數平均的差值。

從以上分析可得,DID方法有效性依賴於兩個地區存在相似的時間趨勢。如果研究者用樣本算數平均數來構建反事實,上述假設並不容易滿足。一些研究者試圖放鬆該假設,採用更加一般化的加權平均方法來構建反事實。該思路被稱之為合成控制法 (Synthetic Control Method, SCM) (Abadie et al. 2010)。在該方法下,反事實被表示為:

(20)

下一步需要解決的問題是每一個觀察值所被賦予的權重,這可以通過最小化式 (6) 的殘差平方和來得到:

(21)

受到SCM的啟發,Doudchenko and Imbens (2016) 將加權平均進一步放鬆為更加一般的線性組合函式來構建反事實,這也成為了機器學習在DID中應用的基本思路。此時該一般線性函式可被表達為:(22)

較之SCM,此處並不要求是權重,即可以取負值,且對於不作任何要求。那此時的問題同樣是如何找到引數和b來最小化式 (6)。對此,兩位學者使用了正則化迴歸 (Regularised Regression),具體細節可以參照作者原文。至此,我們通過機器學習技術“改善”了DID方法中對反事實的估計:利用控制組和介入組在政策實施前的資訊建立線性函式並預測出反事實。由於該技術較為前沿,目前暫時還沒有運用該方法進行政策評估的具體研究。[34]

3. 斷點回歸方法

斷點回歸方法也是另外一種被廣泛使用的因果識別方法。和雙重差分方法用政策前後區分介入-控制樣本組不同,樣本是否被介入依賴於其中某一變數X (Forcing Variable) 相對於斷點 (Cut-off) 的大小。不妨假設大於斷點的那部分樣本被介入,那麼上述邏輯可以表述為:

(23)

該式子表示當X≥cut-off時,對應的樣本被定義為介入組,而當X<cut-off時,對應樣本被定義為控制組。介入組和控制組都有相對應的被解釋變數取值。假設被解釋變數在相應控制組和介入組內部是連續變化的,如果該變數在斷點左右出現跳躍,我們可以將其歸咎於“基於斷點”的介入所導致的因果效應 (Imbens and Lemieux, 2007)。

可以通過一個例子更加直觀地展示上述研究設計的邏輯並在其中指出機器學習發揮作用的地方。最常見使用RD方法的研究問題是大學教育對工資的影響。研究者當然不能直接比較大學生和那些沒上大學學生的平均工資差異:這兩群人在能力上可能並不相同。這兩群人在業界的工資差異除了反映出大學經歷的作用外,也提取了諸如能力等個體異質性因素。而在實際操作中,能力非常難以精確度量。斷點回歸的目的是通過比較兩組“相似”的樣本進而剔除掉這些異質性因素,以下是研究設計。

假設大學錄取分數線是60分,那麼總有學生因為1分之差和大學失之交臂。在這種情況下,我們大都說靠59分的人運氣太差,而非能力不行。換句話說,那些考了59分沒能上大學的學生和恰好踩線60分得以進入大學的同學在能力上可能沒什麼太大差別,最終能否上大學完全是運氣,而運氣是隨機的!這就使得我們在真實世界難能可貴地找到了用隨機選擇分配大學的機會。在該設定下,那些考59分的同學就無限接近為那些考了60分同學的反事實:考了60分但沒讀大學的同學。所以59分同學和60分同學在未來的工資差別可以視作為大學教育對收入的因果效應。

圖5 斷點回歸 (RD) 識別策略示意圖

上圖展示了上述研究設計思路,其中橫座標代表考生分數,縱座標代表工資。圖中的60分,也就是能否上大學的分界線,用紅色豎線加以表示。可以看到,那些考上60分的學生們被劃分到介入組T,59分的學生們則是控制組C。在DID設定中,前者就是(介入組被介入後,②),後者就是(控制組在介入前,③)。和DID的區別在於,RD的研究設定中不存在——前者表示考上60分的學生 (介入組) 沒有上大學的工資 (①),後者表示60分以下的學生 (控制組) 上了大學的工資 (④)。由於缺乏時間維度帶來的這兩個資訊,RD無法使用DID中採用的①、③及④的資訊構建出反事實⑤。在這種情況下,RD採用的策略是繞開①和④的資訊,直接假設③等同於⑤。該假設在RD中之所以成立的原因在於上文所說的考59分的學生和考60分的學生高度同質。此時,用公式表述大學的因果效應如下:

式中的代表第i個學生的分數,表示其工資。式中的第一行利用了左、右極限刻畫了真實的因果效應:同樣考60分的一群學生僅僅由於是否上大學而導致的工資差。隨後依據上文假設,RD近似地認為59分與60分的學生同質,從而得到了後兩行的結論。

即使如此,挑戰依然存在。考59分和60分的學生在能力上相同的假設可能太強:1分只差也是能力的差別!此時,RD效果依然會提取能力作用進而導致大學對工資的影響被高估。機器學習可以幫助研究者消除這一差異 (Varian, 2016)。通過各種預測模型,機器學習技術能夠通過以下步驟構建出考到60分但卻沒有讀大學的同學的未來工資 (⑤)。首先,機器學習可以利用③的資訊 (小於等於59分的樣本) 歸納出沒有上大學人群中工資與分數間的關係:

然後擴大函式的“定義域”:將60分作為解釋變數帶入上右端的函式中。此時函式的取值就是那些“倘若”考到60分但卻沒有接受大學教育的同學未來的工資,將此作為60分且讀大學同學的反事實 (⑤):此時,比較機器學習得到的反事實與傳統RD方法得到的反事實,我們可以發現機器學習已經將59到60分之間的能力剔除在外了,進而獲得更加精確的因果效應。

現在問題轉變為怎樣的機器學習預測函式f能夠達成推測因果效應的目的。第一,f應當具有較好的預測效能,即儘可能減小均方誤差。第二,f給出的估計量應當具有良好的統計性質:包括在大樣本下漸進一致性以及較窄置信區間等。針對這些要求,Imbens and Wager (forthcoming) 利用凸優化的數值方法(Numerical Convex Optimization Method)來進行斷點回歸的因果推斷, 超越了傳統上用來進行RD識別的區域性線性迴歸(Local Linear Regression)。[35]

4.工具變數方法[36]

除了雙重差分及斷點回歸方法之外,應用微觀計量經濟學者也經常使用工具變數方法 (Instrumental Variable Approach) 來識別因果關係。和以上兩種方法依賴於尋找同質樣本的思路不同,工具變數方法試圖尋找外生變數來克服異質性與樣本是否被介入間的關係。實際操作採用兩階段最小二乘法 (Two-stage Least Squares, 2SLS) 實現。在第一階段通過OLS線性估計用外生工具變數“替代”內生解釋變數 (是否介入或者介入的程度) ,從而獲得內生解釋變數的預測值。該預測值的方差都是由於外生工具變數所解釋,與異質性之間的關係便不再存在。在第二步中,用解釋變數預測值和被解釋變量回歸,獲得解釋變數的一致性估計係數。 我們在這裡仍然採用教育對收入作用來展示工具變數方法的操作方法。該例子來自Angrist and Krueger (1991) ,作者試圖估計教育時長對工資的作用,估計公式如下:上文提到,不管是否上大學還是大學教育時間長短均和個體異質性有關係,這就意味著上述因果關係中存在內生性問題:Cov(edu, u)≠0。這導致研究者無法區分觀察到的收入差異到底來自於教育還是個體異質性。為了應對該內生性問題,兩位作者採用工具變數方法,他們認為出生時間z是一個很好的工具變數。對該變數的評價需要了解一下美國的義務教育制度:義務教育法律規定學童在年滿6週歲時要入學讀書,年滿16週歲後才可以離開學校。[37] 法律規定的“年滿6週歲”指的是當年1月1日年滿6週歲。該一刀切的規定會導致出生月份不同的學童實際接收教育時長存在差別。舉一個極端例子,一個12月31日出生的學童,在6年後的1月1日時恰好6週歲多一天。按照法律規定,該學童符合入學條件。而另一個在1月2日出生的學童在入學日時卻只有5週歲364天。雖然之後1天只差,但依然不能入學,必須等到下一年1月1日。那時他已經6週歲364天。由於離校都是16週歲的那天,這會導致1月2日出生的學童比12月31日出生的學童少接受364天教育。當然大部分學童受到的教育時常都小於該極端值。可以看出,上述制度設定所導致的教育時長差異是由於出生月份導致,如果我們假設能力和出生月份無關的話,那麼該變數就是教育時常的有效工具變數。可用公式表示為:滿足上述條件之後,研究者便可以用兩階段最小二乘法估計教育對收入的影響作用。在實際操作上,先將教育edu與出生月份進行迴歸(第一階段):該階段的目標是獲得教育的預測值:接下來,把作為解釋變數,工資wage作為解釋變數,再進行迴歸(第二階段):最終得到的係數估計,該係數是教育作用的一致性估計值。

工具變數方法的實施關鍵在於第一階段,不光需要給出證據證明工作變數具有外生性,還要通過統計指標說明該工具變數和內生解釋變數之間存在足夠強的相關關係。在這篇研究中,作者給出一些證據比如Z估計值的顯著性來說明出生季節的確和教育時長之間存在相關關係,但後續許多學者認為該相關關係並不強以至於影響最終的估計結果 (Bound et al., 1995; Staiger and Stock, 1997; Card, 1999)。 該問題本質上仍然是外生Z對內生edu的預測能力,而這正是機器學習最擅長的地方(Varian, 2016; Mullainathan and Spiess, 2017; Athey, 2018)