1. 程式人生 > >大資料在金融中的應用

大資料在金融中的應用

編者按:

       近年來,中國以移動支付、大資料信貸等為代表的金融科技發展如火如荼,在世界範圍內處於領先地位,這是中國金融業發展的一個亮點。然而我們也要看到,美國等金融業高度發達的國家金融科技發展也有其獨特的優勢,甚至在某些領域超過我們對金融科技的一般認知。我們所熟悉的移動支付等在美國可能並不如中國那麼發達,但是在華爾街,大資料技術已經被充分的應用到金融市場活動中,國內很多人卻對此知之甚少。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

       2018年7月14日,美國伊利諾伊大學香檳分校Gies商學院葉茂教授受邀在美國國家經濟研究局(NBER)第41屆夏季年會發表題為“金融大資料”的主旨演講,成為第一位在這一世界著名講壇發表主旨演講的中國籍學者,這也表明葉教授被美國學界認可為當前金融科技領域的頂尖學者之一。NBER的官方網站曾在頭版最醒目位置刊登葉茂教授的演講新聞和視訊錄影長達兩週。

       經葉茂教授授權,我們將他在NBER的演講翻譯成中文並公開發表。通過他的演講,中國的讀者可以管窺美國的金融科技特別是大資料金融的發展現狀,感受中美兩國金融科技發展側重點的差異。

 

演講人簡介:

 

 

 

       葉茂教授於1999-2002年就讀於中國人民大學財政金融學院金融專業,並獲得經濟學碩士學位,後留學加拿大和美國。他於2011年在康奈爾大學獲得經濟學博士學位,並加盟美國伊利諾伊大學香檳分校Gies商學院任教,2018年獲得終身教職。2006年,他在康奈爾大學就讀時曾當選為該校董事會的董事,成為美國八所常春藤名校有史以來首位來自中國的校董。

       葉茂教授的研究領域為市場微觀結構和金融大資料,在專業頂級期刊Journal of Finance、Journal of Financial Economics和Review of Financial Studies等發表了數篇有影響力的論文。他的研究被美國參議院證詞譽為“開創性的科研”並深刻影響了美國的金融政策。他還將前沿的研究成果融入到日常教學中,並在2016年獲得了全校唯一的“年度教育家”榮譽稱號。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

 

以下為演講正文

       今天我所演講的主題是“金融大資料”。這個主題很有挑戰性,因為其中包含的很多內容目前還沒有清晰明確的定義。所以,首先我想從以下三個維度對大資料進行定義:

(1)大資料量。說到大資料,我們首先想到的就是它具有大的資料量,這可以說是大資料最基本的特徵。

(2)高維度。資料量大並不能完全代表大資料的所有特徵,從第二個層面對大資料進行定義,那就是高維度。大資料的高維度意味著,相對於樣本規模而言,資料中有非常多的變數,有時變數的數量甚至會大於觀測值的數量。

(3)複雜結構。從我還是學生開始到現在,我所處理的大部分資料都是面板資料(行列形式的資料)。而現在有很多資料是非結構化的,比如衛星感測影象、社交媒體記錄、信用卡交易資料等等。今天NBER拍攝我本次演講的錄影,也是非結構化資料的一個例子,因此,拍攝視訊的這一過程也是創造資料的一個過程(Creating data)。

       (根據大資料的特徵)我今天演講的大綱劃分如下:第一部分是大資料量;第二部分是高維度;第三部分是複雜結構;最後一個部分是大資料催生新的經濟理論。我希望大家認識到大資料不僅僅只是實證現象的集合,它還可以促進新經濟理論的產生。

 

一、大資料量

        我們先從大資料量講起。

       第一個問題是為什麼會存在有小資料集?原因主要有兩個,有些資料集小是因為其樣本總體規模小;但有些資料集小是因為我們對資料進行了篩選,在這個過程中縮小了資料規模。例如,有時我們選擇減少資料包含的樣本;有時我們從很多變數中只選擇一部分變數;有時我們僅從巨集觀整體層面對微觀經濟活動進行描述;有時我們只觀察某一個時間段內的經濟活動(Snapshot)。這些過程都減少了資料的樣本規模,目的是生成便於人們管理的資料。

       這樣做很自然地會產生一個問題:在我們產生小資料集的資料選擇過程中是否產生了選擇性偏差(Selection biases)?

       我給大家舉個由於資料選擇導致選擇性偏差的例子。圖1是紐約證券交易所的證券交易報價資料(簡稱:TAQ資料,下同)。這是一個小資料集 (相對另一個更大的資料集而言,雖然和其他金融資料相比它已經非常大了),它包含了所有證券買賣中上報至監管機構的交易及報價資訊(其包含的是交易層面的資料),檔案大小是每天25GB(注:1GB=1024MB)。

圖1

 

       為什麼我說它是小資料集呢?因為訂單層面的資料集(Order level)比它更大。如果你提交了交易訂單,有時你會取消這些訂單,而有時訂單沒有被執行,這些資訊包含在訂單層面的資料集,但不包含在交易層面的資料集中(因此指令層面比交易層面包含的資料更大更全)。圖2是一個來自NASDAQ市場(納斯達克股票交易所)的訂單層面的資料,它就包含了人們什麼時候下達訂單,什麼時候取消訂單的資訊。

圖2

 

       我有一篇已發表的論文所研究的問題是:在TAQ資料中是否存在選擇性偏差?我將TAQ 資料(交易層面的資料)與它相對應的訂單層面的資料集進行比較分析。在告訴大家我的發現之前,我首先想強調一下這是一項資料密集型的工作。我當時面臨大資料量的難題,我們為此聯絡了XSEDE(美國國家科學基金會的高精尖科技探索計劃),並使用XSEDE提供的超級計算機進行資料處理以解決這個難題。具體是如何實現的呢?由於我們所處理的大部分資料仍是面板資料,很自然地有兩個維度可用於平行計算:第一個維度是日期(即將總的資料拆成以天為單位的資料,拆分後每一天的資料大小基本一致)。通過實現天與天之間的並行,我們將每次需要處理的資料量減小到約100GB以下。但這個資料量仍然很大(以至於不方便進行進一步分析)。因此,我們運用第二個維度(不同股票之間的並行)進行平行計算。股票之間的並行相對複雜一些,因為有些股票,比如蘋果公司(Apple)的股票交易要比其他股票的交易更為活躍,其股票交易量大約相當於500個小股票的交易量之和。但讓7000支股票之間都保證並行關係會消耗大量的計算機資源,而且是沒有必要的。我們的解決辦法是,將股票資料檔案拆分成大小基本相同的小檔案(Paralyze base on the sample size)進行平行計算。

       (在對這些大資料進行處理分析後)我們發現,TAQ資料的確存在選擇性偏差。而選擇性偏差的根源是美國證券市場的原有的監管規則。在過去,如果一筆交易的交易量少於100股(零碎股)時,這筆交易無須報告(給監管機構)。原因是當時人們通常認為零碎股的交易總是由散戶交易者進行的(例如我的鄰居給他的孩子買了一股迪士尼的股票),而這些散戶交易沒有被監管的必要性。但是當我們比較TAQ資料(交易層面的資料)及其相對應的更大規模的資料(訂單層面的資料,關鍵點在於訂單層面的資料包含有所有的訂單資料,包括零碎股的訂單)時,我們發現所有的零碎股交易在TAQ資料中都缺失了。之前很多人認為TAQ資料包含所有的交易資料,至少在2013年以前這個說法是不正確的,當時的零碎股交易並未包含在TAQ資料中(2013年政策制定者看到我們的研究並進行了政策調整,將需要進行報告的交易量門檻從100股降低到1股)。

       我們的研究發現這一資料的缺失會造成很大的問題。比如,在2011年的所有交易中,有25%的交易沒有出現在TAQ資料中。而在TAQ資料中缺失的交易很多來自於高價股。比如谷歌公司超過半數的股票交易都沒有被報告,其將近53%的股票交易都(在TAQ資料中)缺失了;而蘋果公司也有近38%的股票交易(在TAQ資料中)缺失了。這些都是非常大的資料缺失。

       而這些零碎股交易真的是由散戶交易者進行的嗎?(恐怕大部分不是)。請看圖3是一組111次交易的股票交易資料。由於每筆交易量都小於100股,這些交易都沒有被報告。但這些交易是在1毫秒內發生的,而散戶交易者是無法實現在1毫秒內進行111次交易的。我們最終意識到小額零碎股的交易更可能來自於計算機,這些交易是計算機在利用監管規則進行的交易。那麼,它們為什麼要這麼做呢?假設一個交易者要進行一筆大額交易,比如一百萬股,通過計算機它可以把這筆大額的交易分散成很多筆小額交易(小於100股)來進行,這樣一來每一筆交易都不會被報告。交易者就可以(隱藏交易從而)隱藏它所擁有的資訊。這是一個非常令人吃驚的發現,因為這個發現證明零碎股(交易量小於100股)的交易包含有更多的資訊,原因是知情交易者將訂單分割進行交易。所以,是小於100股的交易無須報告的監管規則導致了這個(TAQ資料的)資料缺失,而人們的行為也因此發生了改變。如果交易者有計算機,它可以把交易分散成許多小交易,這樣沒有人可以在證券買賣記錄中看到它的交易記錄。以上的研究發現對監管政策產生影響。政策制定者看到了我們的研究後進行了政策調整,將需要進行報告的交易量從100股及其以上降低到1股及其以上。

圖3

 

       接下來的問題是,這個由於監管規則導致的TAQ資料缺失是否影響了之前研究的結論?甚至包括在計算機交易出現以前的研究?答案是是的。有的資料缺失可能很小,但當它與其他型別的資料缺失結合起來時,很可能會造成很大的問題。

       下面我舉個例子:由於人們很難找到直接描述散戶交易活動的長時間序列,如果想得到一個長時間序列(描述散戶交易活動),通常需要用到代理變數。之前人們使用最多的代理變數是由斯坦福大學的Charles Lee和他的合作者Balkrishna Radhakrishna設計的代理變數。其基本思路是:許多年前(主要指計算機出現以前)小額交易仍然大概率來自散戶交易者,那麼我們可以按照一筆交易的交易量設定區分散戶交易的分割線,比如5000美元(將小於5000美元的交易定義為散戶交易)。這是人們很多年以前所能想到的最好方法。

       而我所進行的研究發現,把5000美元以下的交易定義為散戶交易的這一資料分割和100股以下的交易不需彙報的TAQ資料缺失結合在一起會出現問題。假設我們分析一個每股價格高於50美元的股票,但在TAQ資料集裡記錄的每筆交易的最小規模是100股,(如果根據TAQ資料的記錄)研究資料得到的結論會是散戶不交易這些股票(因為這些股票在TAQ資料中出現的交易都會高於5000美元)。這就導致了直接基於價格的缺失問題,這是一個由之前提到的兩個規則導致的新的問題,即所有價格高於50美元的股票都在這些研究中缺失了(人們認為散戶不交易這些股票)。這個缺失甚至不取決於零碎股交易的交易量。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

       由此會產生多大的問題呢?圖4是在分析零售交易時(基於5000美元的分割線)缺失的股票數量,缺失的股票大約佔所有股票的10%,乍一看似乎問題不是太大。但是,由於大多數高價股都是市值非常大的股票,缺失的股票佔總股票數量的比例會隨著商業週期的波動而(同向)波動。(因此,實際上問題比我們想象的大得多)。比如,在網際網路泡沫這段時期有很多高價股,假如我們按照交易額在5000美元以下(作為分割線)定義散戶交易,我們會發現超過70%市值的股票會(在分析零售交易時)缺失。分析時會得到這樣的結論:散戶交易者在網際網路泡沫時期不交易網際網路股票。而這是由於資料缺失自然造成的(錯誤)結論。

圖4

 

       我希望用以上這個研究中的例子激發大家進行兩個層面的思考。第一個是技術層面:超級計算機可以幫助我們克服資料規模大的難題。第二是從經濟學的層面:有兩個有意思的問題。一是關於現階段的法規政策的問題。現行法規是為人類交易者而設計的,然而機器學習和大資料的到來已經將機器交易者帶入了交易市場。所以,我們是否應該根據機器交易者的交易行為來更新和修改一些過去為人類交易者設計的交易規則?第二個是關於學術研究的問題。在其他的“小的”資料集中是否也存在選擇性偏差呢?當我們收集更多更大規模的資料對某一問題進行分析,也許很多之前(用小的資料集進行分析的)文獻得到的結論會改變。

 

二、高維度

       接下來的主題是高維度,即資料裡變數個數大於樣本量的情況。

       讓我們從一個例子開始講。我們都知道大資料和機器學習是兩個在華爾街非常流行的詞彙,很多著名的投資公司已經開始用機器學習技術來進行投資決策,它們的交易頻率範圍從幾分鐘到幾個月不等。由此產生的問題是,以分鐘為交易頻率的交易者是否能捕獲到有意義的經濟訊號呢?

       當我研究以分鐘為頻率的交易資料時,就遇到了高維度的挑戰。我以一個簡單的例子開始闡述這個研究的內容。我們知道,其他股票的前期收益率可以用來預測某隻股票的下一期收益率。在我所進行的研究中,股票樣本集是紐約證券交易所上市的約2000個股票,每一分鐘能得到一個觀察值。但如果我們用最小二乘法(OLS)進行迴歸分析,那麼我們有2000個解釋變數(約六個交易日的觀測資料),事實上OLS迴歸分析由於有太多的解釋變數以至於不能作出有效預測。所以從技術層面講我們不能進行OLS迴歸分析,尤其是當預測訊號是無法預料且短暫的時候。

       我們可以用機器學習技術來解決這個問題。我今天不重點講機器學習技術的細節,而是主要總結機器學習技術和傳統統計方法的不同。傳統統計方法的第一步是通過經濟學推理來選擇解釋變數X;第二步用統計方法估計X是否是一個好的解釋變數,比如可以用排序或者線性迴歸的方法來進行估計X。而機器學習技術與傳統統計方法不同,它是將統計方法同時運用在解釋變數X的選擇和估計過程中,所以通過使用機器學習技術我們可以使用大量的解釋變數X,並且還可以運用更為靈活的函式形式。

       我簡要總結下機器學習技術的兩個基本特徵:第一,它更加重視樣本外預測效果,這也叫做交叉驗證,其目的在於最大化樣本外預測能力,所以它較少關注因果推理。第二,它運用正則化的方法,即對複雜模型施加懲罰項以避免過度擬合的問題。

       此外,機器學習技術可以從兩個層面進行分類:第一個是函式形式層面。根據函式形式區分我們可以將機器學習技術分類為線性模型、迴歸樹模型或者神經網路模型。二是正則化的型別,(根據正則化形式的不同我們可以將機器學習技術分類為LASSO,嶺迴歸等模型)。

       接下來我將用我和同事Alex Chinco和Adam Clark-Joseph的一篇論文來做一個對機器學習模型的解釋。在這篇論文裡我們使用了機器學習模型LASSO(套索模型)。首先,LASSO的函式形式是線性的函式形式,這有點像最小二乘法迴歸模型,都是要最小化一個式子。但是LASSO的不同在於它有一個懲罰項,這個懲罰項作用在β係數(變數的迴歸係數)上。重點問題是LASSO是怎麼進行變數的選擇呢?在迴歸分析之前我們對變數進行標準化;如果某個變數的迴歸係數β很小,LASSO將把這個係數設為0,換句話說,如果某個β太小,LASSO會忽略掉(該β)所對應的那個解釋變數。接下來的問題是我們如何實現交叉驗證呢?我們使用將樣本拆分為10份的交叉驗證(以計算最優的懲罰引數λ)。在LASSO迴歸形式中λ是懲罰引數,如果令它為零,LASSO就退化為OLS。該如何選擇λ呢?第一步,我們將樣本分成10份,其中9份作為為訓練樣本,剩下的1份作為測試樣本。第二步,使用訓練樣本計算LASSO估計量。第三步,使用測試樣本計算均方誤差。均方誤差的結果會受到k(在這裡為k為10)和λ大小的影響。第四步,重複以上兩步十次,得到一個平均數。第五步,根據得到的平均數選取出最好表現的最優的λ(不同的λ得到的均方誤差平均數不同,最優λ為使計算得到平均均方誤差最小的λ)。

       我們的發現是,用LASSO方法得到的交易策略結果非常好。我們的樣本期是2005-2012年。分別使用S&P500和LASSO策略計算夏普比率,S&P500得到的夏普比率為0.123,LASSO得到的夏普比率接近1.8(夏普比率越高代表策略越優)。另一方面LASSO策略的α值(超額收益率)高達2.8%每年。

       作為經濟學家,我們還需要找到這個結果的經濟學解釋。我們發現了4個結果(用以解釋其經濟意義)。第一,LASSO的預測變數是出乎意料的。很多人們熟知的以周或月為交易頻率的預測變數在短期交易頻率的預測效果並不好。為什麼呢?這與λ(懲罰引數)有關。我們發現LASSO通常會忽略掉收益率小於2.5%每月的預測變數,而許多以周或月為交易頻率效果很好的預測變數不能在短期交易頻率產生這樣高的收益。那下一個問題是LASSO產生的收益率會不會驚人的高呢?答案是否定的。用LASSO模型進行短期預測有一個權衡關係,這也是我們發現的第二個結果:LASSO所選擇的以分鐘為交易頻率的預測變數中有95%會在14.2分鐘內失去預測能力。我們發現的LASSO預測因子的第三個特徵是稀少性,LASSO平均只會用12.7個變數作為預測因子。最後一個也是最重要並且非常令人吃驚的結果是:LASSO更有可能在有關某隻股票的新聞釋出之前選擇這隻股票作為預測變數,即便我們使用了最好最快的獲取新聞的資料來源。那麼隨之而來的問題是,這是由於內部交易嗎?並不是的。我們最終發現的原因是:大資料可以在新聞釋出前發現相關的資訊。緣由是這樣的,當我們談到新聞時,雖然有時機器也可以很快的寫出新聞,但是仍然需要一個記者來整理這些故事,這都是需要時間的。

       這裡我想舉一個例子,這是我和今天的參會者Torben之間(Torben Andersen)發生的一個故事。我們學院請你(Torben)參加一個學術會議,但是你遲到了,你來到房間裡並向大家道歉,說是因為來時的火車撞到了一輛卡車。然後我們在谷歌上搜索這條新聞,但並未發現任何關於此事的新聞。再晚些之後你給我們發了一封包含(關於這場事故的)新聞連結的郵件。(因為新聞的撰稿和釋出需要時間)。因此本質上講,這是一個未列入日常新聞釋出日程的新聞(Unscheduled news)。Torben(當場)看到了這個訊息,然而當時新聞記者應該還不知道。所以新聞的釋出存在延遲。最終我們意識到,如果新的資訊沒有列入日常新聞釋出日程, 大資料可能會比新聞更快的反映新的資訊。(為了證實這一推斷)我們做了另一個實證檢驗,其中的一個主要結果是:對於已經列入日常新聞釋出日程的新聞,LASSO會在同一分鐘內捕獲它們。而對於未列入日常新聞釋出日程的新聞,你會發現LASSO會在新聞釋出之前把(與新聞有關的)這隻股票作為一個預測因子,然後你才會看到這個新聞。我對這個發現的理解是,當某件事情發生時,有些人在現場,他們可以(馬上對該事件作出反應而)進行交易。機器學習技術能夠發現這種交易並據此獲得資訊進行交易。過一段時間後,與此事相關的新聞才出現。這就是(關於LASSO估計結果的)經濟學上的解釋。

       下面我稍作拓展。在交易這個研究領域,有三個相關的問題值得討論。第一個問題是我們是否可以將LASSO這個機器學習技術應用在其他交易頻率範圍的研究?我的研究是對分鐘的交易頻率進行分析,但是用LASSO也可以對其他交易頻率範圍內進行研究。目前已經有三篇很好的論文將LASSO應用在月度交易頻率上進行分析了,但是在分鐘和月度交易頻率之間還有很大的空間可以研究,而哪一種經濟訊號可以在這些交易頻率上被LASSO捕捉到是很值得研究的問題。第二個問題是我們是否可以應用其它正則化形式的機器學習技術?現在已經有文章使用嶺迴歸分析方法。什麼是嶺迴歸呢?(嶺迴歸的函式形式)也是線性的,它和LASSO模型函式形式的的區別是正則化時懲罰項形式的不同。嶺迴歸的懲罰項用的是迴歸係數β的平方,而LASSO的懲罰項用的是β的絕對值。第三個問題是我們是否可以應用其他函式形式的機器學習技術?有文章已經發現其他函式形式的機器學習技術(比如迴歸樹、神經網路等)可以捕獲重要的變數間非線性及相互作用的關係。

       以下是一個關於泰坦尼克號的研究的例子。谷歌的首席經濟學家Varian有一篇論文,他嘗試預測泰坦尼克號中人們生存的概率。執行邏輯迴歸(Logistic regression)分析得到的結論是生存機率與年齡無關,Varian嘗試運用迴歸樹模型進行分析(迴歸樹是高度非線性的,它將變數的分佈分了不同的節點),得到的主要結論是:年齡小於8.5歲的乘客有相對非常高的生存率,而在其他年齡段,生存率與年齡之間的關係就變得很複雜。Varian分析的直觀解釋就是兒童優先,而這一發現和現實是相吻合的。雖然我們知道這一現實,但只有當我們有資料,並挖掘分析出這一關係時,我們才能最終確認這個規律:船上的乘客將生的機會讓給了兒童。

       下面我對大資料的高維資料部分進行一下總結,主要有以下兩個方面:一是技術層面:我們能夠利用機器學習技術來處理高維資料,但我認為它只是一個(幫助我們進行經濟學分析的)工具。二是經濟學研究的層面:我們使用機器學習技術解決高維度的難題,我們更感興趣的應該是去尋找(從資料中發現規律的)經濟學解釋,這是(與解決大資料問題相比)更難的挑戰。

 

三、複雜結構

       接下來我們談大資料的複雜結構。有兩名來自摩根大通公司的工作人員列了一個關於複雜結構資料的清單,其中對複雜結構資料進行了很好的分類。他們將複雜結構資料(按照資料來源的不同)分為了三種類型:第一類是個人生成的資料,比如社交媒體、產品使用評論、網頁搜尋記錄等;第二類是商業貿易和政府檔案產生的資料,比如超市掃描器記錄、美國證券交易委員會檔案等;第三類是感測器生成的資料,比如衛星感測器、氣象或汙染感測器等。這些資料來源生成的大量資料可以幫助我們研究很多有意思的問題。

       讓我從第一類複雜結構資料,個人生成的資料說起。圖5是一部分來自推特 (Twitter)的資料,我們可以看到這是非結構化的資料。當我們處理這樣的資料時,會面臨兩方面的困難。首先,如何從非結構化資料中提取資訊?這是一個技術上的問題。有兩種解決方法:第一種方法其實非常簡單,那就是找一個數據提供商。在摩根大通公司彙總的清單裡,有77頁都是關於資料提供商的列表。這些資料提供商能夠提供各種各樣的資料,而它們的主要工作就是將非結構化的資料轉化為(我們熟悉的容易操作的)面板資料。

圖5

 

       圖6是JP摩根公司清單的一張詞雲圖,其中提及最多的詞彙是“衛星”,資料提供商會將類似衛星資料這樣的非結構化資料轉化為結構化資料(以方便研究者進行下一步的資料處理)。第二種解決方法是尋求跨學科的合作。我有一篇論文正是通過這種跨學科的合作完成的。

圖6

 

       那麼,在分析複雜結構資料的過程中我們能夠做出哪些貢獻呢?更具體的說,當分析大量的複雜結構資料時,我們能否為創造獨特的描述經濟活動的變數?下面以我和聖母大學的Da、Nitesh和Xu合作的論文作為例子進行說明。資訊擴散在經濟學領域中是一個非常重要的概念,有很多理論和實證分析表明人們的口頭交流對經濟活動具有非常重要的作用。但對此進行研究時面臨的問題是口頭的交流無法被記錄下來(缺少資料以至於無法直接進行分析)。於是很多研究者尋找口頭交流的代理變數,比如通過兩個人是否是鄰居,是否關係比較親近,是否在同一學校上學來估計兩個人之間的口頭交流情況。基本的思路就是,如果兩個人上同樣的學校,那麼他們就有比較大的概率彼此認識並進行口頭交流。這是一個很聰明的想法,但通過這些代理變數我們很難直接觀測到資訊的擴散。最近有兩篇基於刑事案件調查的文章通過特殊的方式使得我們能直接觀測到資訊的擴散,那就是通過法庭的記錄。因為在對案件的調查取證中會調查誰對誰說了什麼。雖然法庭記錄的資料是小樣本資料,但仍為我們提供解決這個問題提供了思路。

       那麼,(對於資訊擴散的研究)我們所尋找到的大資料解決方案是什麼呢?讓我們想一下Tweets(釋出資訊)和Retweets(轉發資訊)的過程,通過這一過程我們是可以直接觀察到資訊擴散的。我們看下面的一個例子,比如:我的合作者Zhi有10000個粉絲,當他釋出“Twitter資料是非結構化資料”到Twitter時,由於Nitesh是Zhi的一個粉絲,相當於Zhi把這句話告訴了Nitesh。然後Nitesh又把這個訊息轉發給Jian。因此資訊的釋出和轉發就是資訊擴散的一個過程。 那麼,我們如何去捕捉資訊擴散的過程呢?在圖5的Twitter資料中。我們首先需要知道這個Twitter資訊的ID,資訊釋出的時間,釋出者有多少個粉絲,新的轉發者有多少粉絲。比如,當我們看某一次轉發的資料時,我們能知道這個Twitter資訊是被某個人傳播給了另外一個人,然後另外這個人又轉給了其他人。因此,我們既要關注某一特定的Twitter使用者,並且也要關注有多少人關注這個使用者。這樣做的目的是什麼呢?我們希望構建一個實證模型去研究資訊的擴散。簡而言之就是經過一段時間之後,有多少人知道了某一資訊。儘管Tweet並不是完美的代理變數,但是至少根據粉絲的人數,我們可以構建一個資訊擴散速度的模型。比如說,圖7中這三條線分別代表5%,50%,95%分位數所測量的會接觸到這個資訊的人數。

圖7

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

       (在這個研究中)我們發現了什麼呢?雖然人們已經知道社交媒體有很多功能了,但是我們發現了其中有一個特別的功能,那就是社交媒體有時會散佈“舊新聞”。這是什麼意思呢?打個比方,有一天你從一個朋友的Twitter上得到一個訊息,某公司(有一個利好訊息,因此)有投資價值,但當你看到這個(看似最新的)訊息時,實際上它已經是一箇舊聞了。事實上,在一個事件發生十分鐘之後,有關這個事件的訊息就早已過時了。但是很多的散戶交易者仍然會對(過時的社交媒體)訊息進行迴應,覺得這是個可以被利用的利好訊息,併為此感到興奮(而買入這個公司的股票),然後(這個公司的股票)價格會出現一個短期的上漲壓力,形成與基本價值的偏離,但下一天上漲壓力過去之後股價又恢復到其基本價值。

       這意味著聰明的投資者應該與過時的媒體新聞反向行動,比如當它們看到一個利好訊息時,先賣出然後再迅速買回。哥倫比亞大學的金融學教授Paul Tetlock有一篇論文講道,過時的新聞在傳統新聞媒體中的傳播,股價發生偏離後價格恢復發生的過程非常緩慢(通常需要幾天或者幾周)。在我的論文中的研究時期(2013-2014年)價格恢復的過程快很多(一兩天之內)。

所以這裡有一個尚未解答的問題:這些聰明的投資者是不是機器交易者(Machines)呢?因為我們知道有很多機器交易者是由人們編寫程式以告訴它們根據社交媒體的資訊進行交易的。最初我們認為它們是隨著(社交媒體資訊所表達出的)情緒進行正向的投資,有利好訊息時就買,利空訊息時就賣。後來我們意識到機器也有可能進行與人類情緒進行反向的投資。所以我們就又有了兩個更巨集觀的問題:一是機器是否反向地與人們的行為偏差進行交易呢?如果答案是肯定的,那麼它們是有意這麼做的嗎?還是說它們只是在遵循著(一些程式碼所指定的)決策規則,其實並沒有意識它們在反向地與人們的行為偏差進行交易?第二個問題是機器交易的發展是否讓市場變得更加有效了?這會是非常有趣的經濟學問題。

       我總結一下關於大資料的複雜結構部分。第一是技術層面:面臨大資料複雜結構難題時,我強烈推薦大家去找一個數據供應商,或者和其他領域的專家進行合作。第二是經濟學研究層面:非結構化資料一方面可以為經濟活動提供獨特的描述變數,另一方面還能夠幫助金融經濟學家去檢驗經濟學理論。

 

四、大資料催生新的經濟理論

       現在我們談大資料催生新的經濟理論。

       我們從一個實證研究專案講起。大家可能知道高頻交易者,它們的交易速度非常快,交易頻率甚至可以達到百萬分之一秒乃至十億分之一秒。那麼一個自然而然的問題是,是什麼導致了交易者在交易速度上的競爭?對於這一問題我有一個簡單的解釋。

       我們學習的一個經濟學模型,瓦爾拉斯模型中有一個隱含的但是非常重要的假設,那就是價格是連續的。我仍然記得我的博士資格考試中有一個試題讓我找出價格水平,最後解出的價格為二的平方根。但這個價格在現實中存在嗎?答案是不存在。因此價格的非連續性是交易速度競爭的原因之一。第二個原因就是監管規則。如果你想在美國股市交易買賣股票,首先需要進行報價。而報價的最小變動單位是1分錢,這是由SEC(美國證監會) 612號規則所規定的。那麼交易是如何發生的?或許你會覺得交易中會涉及到做市商,事實上他們早已在美國證券市場市場上消失了。現在的美國股票交易市場被稱作限價交易指令薄,股票交易流動性的供給是交易者自願的(不強制交易者提供流動性)。舉個例子,假設Toni(Toni Whited本次會議的另一名組織者)想用100美元每股的價格購買100股股票,Toni提交了100美元每股的限價交易買單,因此她是流動性的供給方。Toni需要有其他人接受她的限價交易委託單才可以完成交易,如果此時我進入市場發出市價交易訂單接受了Toni的限價交易訂單,那麼這筆交易就在100美元這個價格成交了。前者(指Toni)發出限價交易訂單,是流動性供給方;後者(我)發出市價交易訂單,是流動性需求方。但假設如果我也和Toni一樣發出限價交易買單提供流動性,這時市場上會同時存在兩個流動性供給方,此時就必須有規則決定交易的先後順序。現在美國的證券交易所監管通常實行兩個規則:首先是價格優先規則,即誰出價更優誰先交易。如果Toni賣價更低,那麼Toni先交易。但如果我們兩個人有相同的出價時,就需要第二個規則:時間優先規則,即誰先到誰先交易。如果Toni先提交訂單,那仍然是她先進行交易。

       最終我意識到,是什麼導致了交易者的“速度競賽”?答案是在交易價格非連續的情況下, 交易者報價在同一價格時, 速度決定了交易的先後順序。

       (根據以上的分析)我提出一個假設:在現行的統一以一分錢為最小報價單位的股票交易市場上,高頻交易者會為低價格的股票提供更多的流動性,因為1分錢的報價最小變動單位(對於低價格的股票)影響更大更有約束力。但是在實證研究裡,人們會提的第一個問題就是:如何識別因果關係(Identification)!人們可能會說低價格股票與其他股票有其他方面的不同。

       那麼我們是如何識別因果關係的呢?我們通過交易型開放式指數基金(ETF)的一些特點來進行識別。基本的思路是:我們尋找追蹤同一個指數的ETF基金(雙胞胎基金),有時這樣的雙胞胎基金中的一組發生基金拆分而導致價格下降(因此可以作為處理組),另一組則沒有發生基金拆分價格不變(因此可以作為控制組)。那麼在這一研究過程中為什麼會面臨大資料問題呢?因為ETF基金拆分的情況非常罕見,分析四年的資料裡只有64組分拆或合併基金的情況。需要分析的資料總共大約有十萬億位元組。每一天的資料都是非常巨大的,而我們需要從四年的資料中進行尋找,所以這是一個大資料專案。

       那麼,我們的研究發現了什麼呢?以下是我們的發現。在非高頻交易者比高頻交易者具有價格優勢的情況下,非高頻交易者報價能夠(對ETF基金)給出一個更優的價格。(舉個例子,非高頻交易者賣價為$100.03,高頻交易者賣價為$100.04)。基金分拆後,價格減少為原來的一半。保持其他條件不變,非高頻交易者應將報價調整為$50.015,而高頻交易者應將報價調整為$50.02。但這時1分錢的最小報價變化單位的監管規則發揮了作用,非高頻交易者不能報價在$50.015,只能報和高頻交易者一致的價格($50.02),但非高頻交易者不具有時間優先性。(高頻交易者具有在相同報價上優先交易的優勢),這是高頻交易興起的原因之一。

       在這個例子從而引申出了更多的研究問題,誰是這些非高頻交易者呢?他們是自然人嗎?我認為很可能不是。為什麼非高頻交易者的報價比高頻交易者的報價更好?為什麼高頻交易者不報一個更好的價格呢?

       這些問題就需要用理論來解決。(為了回答上面那些問題)我們提出了一個模型。這個模型很複雜,我將盡量將其簡化展示給大家。

       很多前期的相關研究認為市場上只有兩種交易者(世界只有黑和白):一類是計算機交易者,一類是人類交易者。但我最終認識到應該還存在第三種類別的交易者:半人半計算機交易者。我們將這種交易者稱為BATs (Buy-side Algorithmic Traders,買方演算法交易者)。那哪些交易者是“半人半計算機交易者”呢?我們知道現在很多資產管理公司做投資決策雖然也用到機器學習技術,但主要的投資仍是由人來做決定的(例如決定買100萬股Google的股票)。但現在股票交易市場的結構非常複雜,這些公司使用機器演算法去執行這些投資決策,來決定在怎樣去買賣這個股票,其目的是最小化交易成本。因此買方演算法交易者(BATs)的交易速度要比人類交易者快,但又比高頻交易者慢。為什麼它會比高頻交易者慢呢?因為BATs進行交易時不需要像高頻交易者那樣實時的監控市場以獲取任何可以獲利的機會。

       讓我們從一個由Budish, Cramton和Shim在2015年提出的基準模型講起。在這個模型中時間和價格都是連續的。其中的交易者分為兩種型別:高頻交易者和非高頻交易者。高頻交易者實時監控市場以尋找任何可能獲利的機會,他們有時是流動性供給方,有時是流動性需求方。而非高頻交易者以剛性的需求購買或賣出股票,他們的交易強度是,並且僅作為流動性需求方。假設有一個證券,其內在價值為,以複合泊松過程變化。是一個公開的資訊,它以的跳躍強度發生跳躍,在相同的可能性下,它可能向上跳躍,也可能向下跳躍,跳躍幅度大小是d。

       我對他們的模型進行一下總結。假設高頻交易者在的價格嘗試賣出股票,這時非高頻交易者進入市場(接受這個要價)買入股票。這對高頻交易者來說是一個好訊息,因為高頻交易者可以獲取s/2的利潤。那麼高頻交易者面臨的成本是什麼呢?由於股票價值有上升的可能,它所面臨成本就是被其他高頻交易者“狙擊”其訂單的風險。市場上還存在著其他的高頻交易者。當一個高頻交易者在要價賣出時,如果股票的價值忽然跳躍到,其他的高頻交易者將會變成“狙擊手”。他們會迅速觀察到在處還有一個過時的報價(沒有來得及撤單的報價)。這個過時報價的高頻交易者可能逃跑(及時撤單),但在一定的概率下可能被狙擊(沒有來得及撤單而被其他高頻交易者買走)。(如果被狙擊了)那麼提供流動性的這個高頻交易者將受到損失,狙擊的高頻交易者獲得利潤。因此我們總結一下這個基準模型的主要內容:即使股票價值是公開資訊,但由於狙擊風險的存在,出價和要價之間的差價也不會為零。

       我的研究在上面模型的基礎上引入了另一個交易者(半人半計算機交易者,BATs)。回到我們最初的策略,在基準模型中,半人半機器交易者(作為非高頻交易者)僅作為流動性的需求方,他們將支付。一個聰明的交易者會這樣做嗎?絕對不會。因為如果價格是連續的話,它可以用很簡單的策略打敗這個最初的策略。假設我是這個半人半機器交易者,我可以在價格(無窮小的正數)上報一個限價交易買入訂單。這時所有的高頻交易者都會看到,這裡有一個獲利的機會,收益是ε。此時因為高頻交易者會尋找任何可能獲利的機會,他們會立刻在百萬分之一秒甚至十億分支一秒內產生流動性需求(與半人半機器交易者進行交易)。對於半人半機器交易者來講,交易成本是,遠小於。

       以上分析的關鍵點是什麼呢?這是一個機器之間相互作用的模型,研究的是是快速的機器(半人半計算機交易者)與更快速的機器(高頻交易者)之間的相互作用,因此它們的策略非常有趣。在這裡出現的問題是:為什麼半人半機器交易者總是提供流動性呢?關鍵就在於機會成本。因為半人半機器交易者必須要進行買賣,它們在提供流動性方面有著極低的機會成本。下面我們考慮高頻交易者的策略,高頻交易者面臨兩個價格的選擇,一個是自己提供流動性的價格,另一個是接受別人提供流動性的價格,有什麼區別呢?當高頻交易者提供流動性在一個(較高的)價格時,要承受被(別的高頻交易者)狙擊的風險;當接受流動性在一個較低的(來自BATs的)價格時,能夠直接達成交易且沒有被狙擊的風險。

       在這一過程中需要強調的是:機器與機器的互動模糊了很多傳統的定義。例如,在之前的我提到的(半人半機器交易者與高頻交易者進行的交易的)例子中,根據傳統的在限價指令交易文獻中的定義,半人半機器交易者是先出現在市場的,(在傳統定義中)它是流動性的提供方,但是半人半機器交易者(發出的訂單)引發高頻交易者立即的迴應,在這兩種機器的相互過程中,到底誰提供流動性成為了開放性的問題。

       我,Sida和Xing最初寫這篇文章的目的是為了回答為什麼非高頻交易者能夠給出比高頻交易者更優的報價。我們提到了原因是機會成本。但最終我們意識到這個新的模型還產生了很多的經濟學預測和政策建議,尤其是當我們引入離散價格的時候。新的模型的主要結論是(機器與機器之間的互動)得到了四個均衡結果,(這些結果)在預測誰提供流動性,以及它們何時提供流動性的問題上非常有效。我們分析出在哪些不同情況下是高頻交易者或者半人半機器交易者提供流動性。

       我想強調的是,我認為對機器和機器相互作用為研究經濟學理論提供了新的機遇。由於機器的行為都是經過編碼產生的,機器必然遵從一些決策規則。如果我們能發現機器行為背後的經濟學機理,就可以進行很好的預測,因為機器不會受到情緒等未被編碼的因素的影響。

       這些發現也產生了政策上的啟示。例如美國證監會最近進行了一個試驗,它隨機地選取了1200支股票,將它們的最小報價變動單位從1分錢提高到5分錢。我們的這個模型的政策含義和模型產生的排隊均衡結果相關,我們預測美國證監會的這個試驗會增加高頻交易者的數量。

       下面我想談一些有關金融生態系統的內容。當我是一名博士生的時候,我使用過13F資料(一個關於機構交易者交易的資料)。在13F資料中誰是短期交易者?有論文認為交易頻率小於4個月的交易者是短期交易者,原因是13F資料是季度資料,而我們無法獲得季度以內的資料。最近有關高頻交易的文獻的研究物件是這個金融生態系統的另一端:交易頻率在百萬分之一秒到十億分之一秒的交易者。那麼問題是有交易頻率居於這兩者中間的交易者嗎?我很肯定是有的。但對於這些交易者的研究目前相對缺乏。我已經舉出了這類交易者的兩個例子:一是半人半機器交易者,它們以毫秒或秒為頻率進行交易;另一類是使用機器學習技術的交易員,它們的交易頻率可能更慢,從幾分鐘到幾個月不等。但(對這個問題的研究)存在一個難題:那就是在美國的交易資料中我們無法直接觀察到交易者的身份資訊(因此很難知道交易者究竟是什麼角色,交易是由誰進行的)。

       我和我的同事Alex Chinco合作的一篇論文在嘗試使用公開的資料來解決這一問題。我們知道,股票成交量的資料是公開的可以獲得的。我們試圖通過小波估計方法(Wavelet estimator)處理這些成交量資料(分析交易頻率)。首先,我們將每個股票的交易量資料以分鐘為單位進行整合,這樣每分鐘我們得到一個觀測值。我們可以通過觀察每分鐘的資料來計算交易量的變化;然後運用小波估計將每個股票的交易量變化分解為不同的頻譜。

       例如,圖8是一個週期為8的例子,在這個例子裡,採用去均值的交易量作為縱座標。我們可以看到,去均值後第二個時段交易量為100,第六時段為-100,其他時間段為0。我們可以以低頻(Low frequency)、中頻(Median frequency)和高頻(High frequency)來看這八個時段。若以低頻來看這八個時段,我們將八個時段分為兩部分(1-4分鐘和5-8分鐘),我們只比較這前半部分與後半部分的交易量變化情況;若以中頻來看,我們將1-2分鐘作為一個部分去與3-4分鐘的部分進行比較;若以高頻來看,我們則觀察每分鐘的變化情況。我今天不去討論小波分析的細節。

圖8

 

       圖9是小波估計得到的一組分析結果:在第一組的例子中,所有的交易量變化發生在前半部分和後半部分之間(在1-4分鐘時為100,5-8分鐘時為-100),我們稱交易的全部變化來自於低頻變化;在另一個組例子中,交易量變化全部在很短的頻率內發生(1、3、5、7分鐘為100,2、4、6、8分鐘為-100),我們稱交易的全部變化來自於高頻變化。

圖9

 

       我總結出大資料的研究策略如下:首先對大資料進行分析,然後構建新的理論,新的理論幫助我們對未被挖掘和研究的領域進行分析,再進一步產生新的實證預測、政策啟示,甚至激發我們發現新的實證研究工具。

在這裡我還是要推薦下我自己建的大資料學習交流qq裙: 957205962, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴

五、總結

       總而言之,大資料在給我們帶來挑戰的同時,同時也提供了開發新技術和解決問題前所未有的機遇。

       對技術層面的總結:超級計算機可以幫助我們克服大資料量帶來的挑戰;機器學習技術可以解決高維度的問題;在解決大資料複雜結構的問題上,有時我們可以通過資料供應商獲得(從複雜結構轉化為行列結構的)獨特的資料,有時可以嘗試與其他學科專家合作(比如當資料供應者不能提供我們需要的資訊時)。

       而(相對解決技術難題)更重要的是,大資料為我們發現和解決新問題敞開一扇新的大門。使用超級計算機對大資料進行分析後,我們可以發現新的實證規律;我們也可能改變前人基於小資料樣本得出的結論;大資料還激發我們為新的資料尋找經濟學解釋;大資料創造出的獨特變數既可以用於檢驗已有的理論,也可以幫助我們創造新的理論。

       最後,我希望分享給大家一些自己的思考。我們知道,行為金融學是建立在心理學基礎上的學科,其很多理論來源於心理學。那麼,基於現階段大約85%的交易量來源於機器這一現實,大資料和機器學習很可能將成為下一個時代金融學理論的基礎,我把它稱之為演算法行為金融學。謝謝!