2019如何高效地進入大資料領域
大資料正顛覆著商業、產業模式,改寫著城市、乃至地球的未來。想要利用大資料,除了程式設計、統計學等基本功外,還需要依靠新思維,人類必須顛覆千百年來的思維慣例,這將對人類的認知和與世界交流的方式提出全新的挑戰。
洞見與價值
//
首先,用三個例子來講解什麼是大資料創新的理念、思想和方法。

第一個例子,用行為資料來預測學生的學習成績。
這件事出發點有兩個。第一個,我當老師之後,發現導致很多本科生成績不好,很大的原因是因為沉迷遊戲。當這些學生沉迷遊戲半年到一年,考試成績出現明顯的下降時,再去進行糾正管理,乃至家長陪讀,都很難取得很好的效果,因為他們已經養成了習慣。如果我們從他們日常生活中,就能發現沉迷遊戲的趨勢,就可以及時予以糾正。
第二個出發點,2015年我們曾經用電子科大學校資料做過一個很有趣的試驗,觀察了黨員和非黨員之間成績的差異。發現以百分制計算的話,黨員的平均成績要比非黨員高4分,或許有成績較好的同學更容易入黨的因素,但會不會有別的原因呢?
我們分析了這些同學的生活行為,找到了成都除節假日外最冷的20天,我們發現在這些日子裡,黨員平均能吃15次早餐,非黨員吃早餐的平均次數只有8次。這說明黨員比非黨員對自我的要求更加嚴謹,這可能對成績也造成了影響。這只是個很簡單的分析工作,當時也得到了很多媒體的報道,因為這是個很典型的生活模式與學習成績間關聯的案例。
剛好也在2015年,BBC有個紀錄片,有點諷刺中國教育的意味。一個強調紀律的中國高中老師到英國去上課,教育方式卻並不被歐洲人買單。雖然紀錄片最後以和解結束,但確實對中國的大班教育模式進行了批評。我一直在想,學生的行為,與學習成績之間確實有關聯嗎?
對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解 想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家 並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。
基於這個想法,我們做了一套系統,專門預測學生本學期的成績,它主要包括三種資料。
第一種是學生的歷史成績,以前考得好,本學期多半也不會差。
第二種,我們稱之為diligence,就是學生的努力程度。這個資料包含了學生進出圖書館的次數和呆的時間,借了多少書,這些書以什麼題材為主,乃至你在教學樓裡打過多少次水。這些資料可以很容易的通過教務系統或者一卡通收集到,通過資料,能夠很清楚的發現一個學生花了多少時間在學習上。
我今天重點講的是第三組資料,我稱之為orderness,即一個學生生活規律性與學習成績之間的關係。

各位可以看PPT中A、C這兩張圖,這是學生洗澡頻率的資料。通過收集學生洗澡時刷一卡通的資料,得出水龍頭出第一滴熱水的時間,在一天24小時內的分佈。我們根據這個分佈計算出真實熵,來推斷學生的生活是否是有規律的。至於為什麼用真實熵而不用夏農熵,夏農熵只能看到分佈的集中程度,而真實熵不僅能看到分佈的集中程度,還能看到時間序列的有序性。
為什麼要檢測時間序列的有序性呢?我們以一日三餐為例,兩個學生都集中在8、12、18點吃飯,有一個學生吃飯沒有規律,可能今天吃完早飯不吃午飯,明天不吃早飯只吃午飯和晚飯。而另一個學生有序的進行三餐,不會出現中間差一兩頓的情況。後者生活肯定比前者更有規律。光用夏農熵看集中程度是不夠的,所以我們才用真實熵。
有了這些東西后,我們可以看A圖,這是電子科技大學18960個本科生所有熵的分佈。在分佈的左邊,熵比較小,生活有規律;分佈的右邊,熵比較大,生活沒規律。我們在圖的左邊前5%中,選擇任意一個生活有規律的人,C圖中深藍色就是他洗澡的時間分佈,他主要在晚上9點洗澡。而在A圖右邊選一個生活沒有規律的同學,洗澡時間反映在C圖就是淺藍色的部分。他一天24小時大部分時間都可能出現在澡堂裡,他就是典型生活沒有規律的人。通過這樣一個簡單的指標,我們就能區分一個學生的生活規律性。
類似的,我們來看B和D,其實就是學生在食堂用餐的時間分佈。深紅色代表的學生集中在8、12、17點左右在食堂刷卡用餐,這與學校日常學習時間高度相關。而淺紅色代表的學生隨時都可能在食堂刷卡進餐,很明顯,他的生活沒有規律。
大家可以在右邊的圖中看到,生活的規律性,和四年的GPA成績是高度相關的。我們把歷史考試成績、努力程度、生活規律性這三組資料放在一起,便能很精確的預測學生本學期考試專業排名。根據結果給出的掛科預警的學生中,至少有80%一科不及格。
這個事情價值在哪裡?以往只能在學生出現學業生活問題後,進行事後補救,往往為時已晚。而現在我們能從日常生活中發現趨勢,運用這個系統提前去挽救學生。當然,與此同時我們也很注重隱私,開發團隊拿到的都是匿名資訊,只有在學生的行為觸及到演算法預警時,才會由後臺自動發給學生的輔導員。這樣我們能夠在保護學生隱私的同時,提前給可能出現問題的學生正面的引導與干預。
第二個例子,自動駕駛的故事。

大家可以看PPT,這個講的是從2018年2月往前一年內,各大研究無人駕駛的公司,無人駕駛實驗平均進行多久才需要真人進行干預,里程越長,說明無人駕駛更成功。
從圖中可以看出,不同公司間的差異非常大,第一的谷歌能夠成功無人駕駛5595英里,而賓士只能做到1.29英里,整整差了四千多倍。通用能達到1254英里,百度則為41英里。為什麼會有這麼大的差距呢?通用賓士這樣的傳統汽車巨頭,表現居然遠遠不如谷歌這樣的網際網路企業?
傳統汽車製造企業,考慮無人駕駛時有兩個出發點,一個是預算值,即一輛車要花費多少錢去配備感測器,在這個預算上去配置試驗車。另一個是專家的知識,通過這些專家的經驗,判斷哪些資料值得收集,哪些是沒有價值的,比如天氣、溼度等資料的收集。
那谷歌怎麼進行判斷呢?也是兩點,其一,由於預算非常充沛,可以在試驗車上大量安裝各種感測器。第二,由於他們在汽車專業領域並不太擅長,也不管什麼資料有用什麼資料沒用,但凡能夠安裝上去的感測器統統裝上。這就是谷歌的策略,無知但經費充沛。
由此,傳統廠商可能有50輛試驗車,每輛試驗車配置都相同。而谷歌可能有上百輛試驗車,而且不同試驗車上配置的感測器是不同的。大家可以看到,兩種不同策略之下,谷歌無人駕駛取得的成果遠遠超越了傳統汽車企業,通用超越賓士,也是因為後來學習了谷歌的策略。
最後一個例子,社會共治。
19大的時候,中央提出要建立智慧型社會,推動廣泛意義下的社會共治。今天給大家講一個用街景圖片實現共治的例子。先用一個簡單的例子來說明:我們能否實現線上選美。
假設有兩千個女生,很難實現同時給兩千個女生長相排序,甚至同時給十幾個排序都做不到。有個很簡單的辦法,一次給你看隨機兩個人的照片,在其中選擇好看的。一個人可以很快的做出上百次比較,而當更多人同時做這種比較時,資料就能快的收集起來。有了這個資料,就能完成兩千人的相貌排序,這是個很簡單的演算法。
有了這個思路,我們做了個很好玩的事情。首先通過高德百度等渠道,拿到了上百萬張成都的街景照片,從中選出了幾千張,徵集志願者,每次隨機出現兩張街景圖片,讓志願者從一個維度進行比較,維度分為衛生、綠化、基建、安全感等幾個層面。我們現在以安全為例,一次兩張隨機圖片進行對比,當達到一定數量時,我們就能在安全維度上進行排序,再對映到0~1空間中,就能給不同街景安全性進行打分。這時候就變成了一個非常典型的深度學習的問題,計算機可以通過卷積神經網路的某種變體,來學習為這些街景圖片進行打分。

這些圖片,最開始是人類來進行選擇,通過將這些選擇進行排序,計算機就學會給街景圖片打分,從而給上百萬的圖片打分。只需要採訪很小一部分人,就能得到一座城市街景各個維度的分數,這是件非常了不起的事情,這就是計算機,或者機器學習的魅力。
有了這個工具,政府能夠做到兩件事。首先可以直觀的看到成都哪個地方最髒亂差,基建最不完善,有利於安排城市治理工作。第二得知之前做的治理工作是否有成效。PPT裡是相同幾個地方,07年與14年穀歌街景地圖的對比。第一行差異不大,第二行前後有明顯的改善,第三行則發生了明顯的退步。通過這種方式觀察城市治理是否有成效,比傳統一層層上報要直觀且有效率。
//
大資料理念的精髓
//
以上例子都是很前沿的一些進展,我個人覺得非常漂亮。接下來我通過這些例子,給大家總結一下我所認為的大資料裡的精髓,當然不能全部總結完畢,但其中有許多值得學習的東西。

大概分為四個方面:
第一,讓資料說話。 在搞大資料、人工智慧時,沒必要讓傳統的專家知識來告訴我們哪些有用哪些沒用,而是通過演算法,讓資料自己得出哪些有價值。現在很多大規模的資料計算,比如淘寶推薦,都是幾億甚至上百億的資料得出的結論,而不是通過一兩個所謂專家的推薦。
第二,資料外部化。 像剛才舉的學校規律化的例子,原始資料來自一卡通。這一開始只是後勤部門為了方便掙錢而搞出的系統,我們卻能用這個系統裡的資料來解決學生的學業問題,最近還在做預測學生心理問題的工作,有沒有交際障礙。將看上去風馬牛不相及的資料放在一起,反而能得到意想不到的成果。基於此,我們要推動資料的外部化,打破邊界。
第三,群集智慧。 很多東西你分析一個點、一個事件可能看不出什麼,當分析很多個類似事件時候,就能發現其中規律。大資料能發揮群集智慧,是集體智慧最大的武器,大資料做社會共治就是很典型的例子。各位如果對推薦系統比較熟悉,我們講協同過濾,電商猜你要買什麼東西,不僅看你買過什麼,還要看和你買過相同東西的人,他們買過什麼,你沒有買,就將這些東西推薦給你,這也是很典型的群集智慧。
最後一點,演算法。 大資料不是放在那裡就能產生價值的,要採用人工智慧中的演算法,譬如機器學習、資料探勘等等,獲得簡單資料分析中不能得到的洞見,再來指導進行高效的決策。
//
知識與技能
//
接下來我從四方面給大家講知識與技能,先講核心的學科知識,然後是主流技術,再講典型的職業發展路徑,最後介紹幾本我覺得還不錯的書。

核心學科知識可以看下圖,基本已經完全概括了和計算機思維有關的核心學科知識,主要是三門:離散數學、資料結構和演算法設計,另外概率論和數理統計同樣相關,統計需要學得很深入,多元統計分析、因果分析等都要掌握,這對於後期來講非常重要。

想做資料科學的話,我給大家兩個建議。
第一,紮紮實實學好數學、物理和計算機。在本科階段,能談得到“思維方式”的就這三個,它們是地基,打得越紮實,才能走得越遠。資料結構和演算法都學好了,學習計算機語言是非常輕鬆的。
第二,要有多學科的視野。做一個數據科學家,要對社會學、心理學、金融學乃至生命科學都有了解,形成交叉學科的視野。
總結一下,夯實數理計的理論和思維基礎,通過大量閱讀形成多學科視野,這兩方面的基礎紮實了,你的核心學科知識也能夠前進。
接下來是職場主流技術。
這是DataCasle資料城堡收集了求職者與企業方的職業需求後,生成的雲圖,裡面越突出的就是最主流的技術。大體上大資料發展有四個方向。

一、往基礎走,元資料的治理。 海量的、來自不同系統的資料,怎樣給出給具體的標準,在不影響這些資訊化系統運作的同時,自動的快速清洗這些資料,使之標準化。
二、往上走,人工智慧的演算法。 如何處理這些標準化後的資料,涉及機器學習、資料探勘等演算法發展。
三、軟硬體的結合。 高階點人工智慧的晶片,基礎點感測器採集端的的處理。
四、資料的高效處理。 基於記憶體的計算和資料庫,如何高效處理這些非標準化的語音、視訊等資訊,形成新的資料結構和儲存方式。
然後是職業發展方向。

其實這個並沒有大家想象的那麼重要,只要學得足夠好,選擇空間其實很大。我大體上將之分為產品、運維、分析和開發四條線,之間互有交叉。最終目的當然是迎娶白富美走上人生巔峰了,根本還是要看你是否能真正掌握技術。
最後給大家介紹五本不錯的入門讀物。

第一本是現象級的《大資料時代》。實體書加上電子書,銷售量達到了兩百萬冊,在經管類圖書裡數一數二。作者維克托先後在哈佛和牛津任教,很聰明的一個人,這本書也是大資料領域的開先河之作,影響很大。這本書的特點是觀點非常清楚,比如他指出大資料的核心就是預測,是全量而非抽樣等等。整本書風格從不拖泥帶水,儘管很多我並不同意。我是這本書的譯者,在中國這本書的銷量也遠遠超過了其他國家。
前不久作者和我同時參加電子科大的成電講壇,講了個關於他自己的段子。當他十四五歲時學習計算機語言,覺得非常容易,但到了二十七八歲學習c++時,覺得思維有點跟不上了,很難。於是他在去年四十七歲的時候做了個決定,逼自己用半年時間再去學一門新的計算機語言,讓自己不要變得太笨。一個在全世界都享有盛譽的學者,依然在不斷警惕自身是否落伍,這種精神很值得學習。
第二本是國內學者在大資料領域最早的著作《證析》。這本書非常的紮實,作者鄭毅是我很好的朋友,讀書無窮,我到他家做客時看見滿屋子全是書。這本書講了很多資料應用的誤區,值得一看。
第三本推薦我自己的《為資料而生》。這本書將大資料分析的分析、外化、整合等階段分得很清楚,我也仔細的分析了各種理念,深度剖析了許多行業創新案例,直接採訪了這些創新團隊,應該是最接地氣的一本書。
第四本是徐子沛的《資料之巔》。作者之前寫過一本主要講資料開放方面的《大資料》,這本書集中了前書的精髓,以美國為主,闡述了整個資料時代發展的歷史,格局很高,歷史縱深感很強,試圖把資料科學從一個科學符號,轉變為文化符號。
最後推薦給大家的是車品覺的《決戰大資料》。作者之前在阿里巴巴擔任資料委員會主席、副總裁、首席商務智慧官。國內很少有人像他那樣在資料運營方面踩過那麼多的坑,吃過那麼多的苦頭,這本書可以說是他多年實戰的泣血經驗。想了解什麼是資料化運營,怎麼在大中型企業做資料管理的話,這本書值得一讀。
今天的Live主體就到這裡,資料科學家應該說是未來最性感的職業之一,非常好玩。路要一步步走,大家在學生階段,真的要花苦力去學習。如果已經工作了的話,可能沒辦法再去學演算法,那麼一定要多去讀科普書,瞭解理念和精髓。謝謝大家。 對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解 想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家 並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。