1. 程式人生 > >熊輝:我是如何收穫了資料探勘的人生?

熊輝:我是如何收穫了資料探勘的人生?

http://www.china-cloud.com/yunjishu/shujuzhongxin/20140212_23068.html

主講人:熊輝

主持人:趙國棟

承辦:中關村大資料產業聯盟

熊輝先生是美國羅格斯—新澤西州立大學羅格斯商學院管理科學與資訊系統系副系主任,終身教授。主要研究領域包括:資料探勘、大資料、商務智慧、移動計算,和資訊保安。獲得2009羅格斯大學最高學術獎。還應邀連續參與組織國際頂級會議(如KDD, ICDM,ICML,ICDE和SDM),並擔任國際會議組織委員會委員/主席。他目前還擔任IEEE Transactions on Knowledge and Data Engineering (TKDE)和Knowledge and Information Systems(KAIS)副編輯,中國計算機學會通訊專欄編委,和中國計算機學會大資料專委。

以下為分享實錄全文:

我的背景比較特殊,我是計算機系的博士,也是在美國第一個從計算機系博士畢業直接拿到商學院教職的中國人。因為大資料應用的成敗依賴於技術和領域兩方面的能力,我有機會處在一個比較獨特的位置就計算機技術和商業應用的結合,談一點我個人對大資料粗淺的認識。

1995年,我本科畢業的時候,正逢深圳下海創業大潮, 就去了深圳。工作半年後,第一次感覺到人生的苦悶彷徨。於是大量閱讀中國歷史,哲學,兵書。開始重新思考人生的發展方向。當時給自己定的未來職業必須滿足三個要求:

1)是自己真正感興趣的職業; 2)個人價值會隨著年齡而增長; 3) 不論國家經濟的興衰,職業都必須有很高的安全保障。

當時正好資料探勘概念出來,並幸運的瞭解到這個概念。馬上有種說不出來的親切的感覺,資料探勘就應該是自己的終身職業。資料探勘這個職業就滿足自己定的三個要求。

首先,我對歷史,兵書,算命感興趣。資料探勘做的事情就是從歷史預測未來,從不確定性中尋求確定性,從複雜多變的事物中尋找規律。這些都是自己平常興趣所在。

其次,個人體會,從事資料探勘實踐多了,人會變得更聰明,判斷會更準確。經驗積累多了,個人價值自然會隨著年齡的增長而提升。比如,我現在的諮詢費就比2005年高了許多,因為更有經驗,做事更高效。(編者注:熊老師本科學的自動化專業)

最後,因為整個人類社會的發展越來越依賴資訊科技,對資料探勘專業人才的需求只會越來越大。同時,資料探勘這個專業對人才的全面性要求很高,資料探勘人才需要有很強的領域知識和技術知識。中國教育的學科劃分,客觀導致培養出來的人才很難跨界。換句話說,要想做好這個行業,門檻是很高的。所以,優秀的資料探勘人才職業保障性是很高的。其實在古代就有很多資料探勘的高手,像劉伯溫,趙列文等。

資料探勘這個概念地提出就是要解決海量資料的分析問題。那麼,現在為什麼提出新的大資料概念?其根本原因是資料驅動性應用的井噴式發展併產生很多新的應用要求。現在很多的應用,比如高頻資料交易和網路社交媒體,產生的資料不但量大,而且處於不斷動態變化過程中。打個比方,以前我們是在清晰的小溪中捕魚,現在我們是在湍急渾濁的長江中捕魚。解決這些新型大資料應用需要我們有及時觀察,及時分析,和及時解決問題的能力。

資料探勘這個職業特別象醫生。來自不同領域的具有不同特性的資料就象醫生所面對具有不同病症的病人。和醫生一樣,資料探勘人才必須要從實踐中成長。實際上,我的科研總是和實踐緊密結合,我的很多科研問題都是從實踐中產生的。談幾點體會:

1) 最難的是問題提煉,換句話說,怎麼從一個實際應用場景發現一個有價值的問題。這需要很強的領域知識,要能夠深入到商業流程中去發現商業的痛點,並有能力把實際的商業痛點抽取成一個數學問題。舉個例子,我們給一個美國500強大企業做B2B市場分析,其目的就是要發現有價值新客戶,挖掘現有客戶,並縮短籤合同的時間。這些是真正的商業需求,但如何轉化成資料探勘問題?因為現在全新的,微觀化的資料收集手段,我們有機會對人,整個商業流程進行細節化的觀察,並加以分解,可以找到不efficient環節,把不efficient變efficient了,整個商業流程更高效。

2) 對於多數資料探勘專案, 最花時間和精力的是Feature Engineering。很多預測專案的成敗不在乎模型,在乎提取合適的特徵。在很多情況下,特徵提取要求對領域充分了解。像醫生看病一樣,有很多經驗的東西在這裡。我通常做專案有70-80%的時間在瞭解資料,進行資料預處理

3)Instance Selection在很多情況下至關重要,資料不是越多越好,是合適的資料越多越好。很多資料本身不是噪聲,但和我們要分析的問題不是很相關,在這種情況下需要做合理的資料裁剪。其實,說到大資料的“大”字有不少誤解。大是個相對的概念,有很多應用,只是單位時間內要處理的資料量超過了現有的計算能力。比如說,高頻交易,我們可能需要在一毫秒處理1M的資料。1M並不大,但問題是時間要求realtime。

4)在建模之前還需要了解資料的特性,比如噪聲度,稀疏度,和資料的分佈。這就象醫生在選取治療手段之前必須要了解病人的病症。

最後,我想說的是,人生就是個資料探勘過程。人整個的一生由幾個關鍵點組成,在每個關鍵點,我們都需要根據自己掌握的資訊進行決策。

互動內容:

Q1:資料去偽存真,在資料探勘中是不是工作佔比很高?經驗是不是分析能力的決定因素?

A:這個問題好。我們現在各行各業都在拼命收集資料,很多的是垃圾資料,現在資料的單位價值密度在不斷下降。資料探勘就象醫生給病人看病,SAS的病人和普通感冒的病人有很多共同病症,我們的任務是要找出可以幫助我們區分的特徵。

關於未來,我提出一個概念叫做資訊階級論。因為大資料意識和資料探勘技術的普及,會造成人類社會更大的資訊不對稱。未來階層(貧富差距)很大一部分因素是因為對資訊資源掌握的不同造成的。在很多領域,對資訊資源的掌握可以造成高維打低維的局面。就好象有武器代差的二戰,勇敢的波蘭騎兵對德國坦克叢集,會是簡單的屠殺。

Q2:怎麼鑑別什麼資料是真資料什麼資料是偽資料呢? By 劉東華

A:和具體應用相關,比如,做具體的市場預測問題,你可能有很多資料,來源不同,質量不同,我的經驗是,當資料量充分的時候,質量不高的資料寧可捨棄不用。

Q3:在中國,傳統制造企業佔比很高,也是重要經濟支柱,資料探勘對傳統制造業會有什麼大的價值牽引?熊老師有什麼好的建議? By 邢豔凱:

A:人類整個的歷史發展都在追求標準化,標準化可以提高生產效率,對傳統制造業供應鏈管理是資料探勘可以大力幫助的領域。題外化,人類在追求標準化,任何被標準化的行業都被夕陽化,工作機會就會減少

@邢豔凱:認同熊老師的觀點,中國製造業最缺乏的就是標準!

@柚子:還有經濟預測領域

A:經濟預測是個好例子,表面看很多資料都可以用來預測經濟,但對中國的資料,可能只有發電量,鋼產量,鐵路運輸等少量指標是質量可靠的資料,所以用克強指數看經濟更靠譜。

大資料的發展還帶來了人類解決問題方式的重心轉移。東方長期以歸納法為見長,也就是一種BOTTOM-UP的解決問題方式,西方長期以演繹推理見長,是一種TOP-DOWN的方式。在近代至現代,演繹推理佔了上風,所以西方文明高度發展。但是資料驅動解決問題方式的產生,讓歸納法思維又有機會走在前面。

Q4: 國內哪些組織在資料探勘方面比較強? By趙國棟

A:資料探勘充滿dynamics,目前中國的暴富機會還是比美國多不少,隨著以後制度越來越完善,中國的暴富機會越來越少。很多的暴富都是因為資訊不對稱造成的。中國現階段存在很多制度性資訊不對稱,每一次制度的制定或變化,都催生出一批暴富的點子和機會。美國更多是技術性資訊不對稱,就是通過資料探勘的手段形成資訊不對稱,從而在競爭中產生勢能差,可以形成以絕對優勢打擊絕對劣勢的局面。當然,中國在朝技術性資訊不對稱大步前進。

因為資訊平臺和資訊意識的城鄉差別,農村的孩子在資訊化這塊被甩開大了,在競爭中的劣勢越來越大,最可怕的是農村的資訊意識完全沒跟上。所以未來的階層客觀上會是由於對資訊資源的掌握不同而造成的。所以,在教育層面應該努力縮小城鄉的資訊鴻溝。

未來社會的發展趨勢在加快,財富輪轉速度在加快,從富到貧,從貧到富,從弱到強,從強到弱都比以前更快速轉化。會是一種螺旋式上升,後面新城代謝越來越加速,hold不住的都會被甩出去。富過三代的一定要培養好的家族資訊制度。

評論:現在是企業資訊重置的時代,挖掘運營資料水平的高低將拉開企業的差距,而且一旦有了大哥,可能就會變成獨生子!By 邢豔凱:

Q5:請問美國用大資料進行投資分析領域都有哪些模式?如果是您,您會重點在哪些領域進行資料探勘?By 雨醉天堂

A: 因為未來是無線網的時代,所以看好基於無線網的應用,比如,室內導航,V2V車聯網,智慧家居

Q6: 哪些公司或者組織在資料探勘領域走的比較靠前?中國的.  By 趙國棟

A:按照美國的規律,擁有資料的,又有經濟實力的公司會孕育大批資料探勘人才. 美國是FLAGM+諮詢公司+金融公司有大批資料探勘人才. 不過美國很多新的startup都是資料驅動的。

Q7: 對中關村資料產業聯盟的建議 By 趙國棟

A:聯盟建成四大庫:智庫,案例庫,問題庫,資料庫,並形成共享,利益共享的機制,就可以長治久安

Q8: 誰能做好中國食品安全領域的,預測工作,如何做? By:林春雨

A:要依靠大眾力量。食品安全領域,隨著手機終端智慧化,未來可以靠老百姓收集水的質量,食品的質量,所以製造相應感測器,和簡單測試方法,並形成群眾化收集手段是關鍵