1. 程式人生 > >第七屆中國資料探勘會議紀要

第七屆中國資料探勘會議紀要

這次會議是一個數據挖掘領域的會議,因而有些東西可能與我們進行視覺化相關研究並不具有那麼直接的聯絡。不過我們的視覺化研究在某種程度上來說是為資料探勘服務的,因而增加一些對資料探勘其他方面的瞭解還是很有意義的。

產業界高峰論壇

    五號下午幾位來自產業界的老師分別進行了報告。七位講者分別來自滴滴、IBM、京東、騰訊、阿里、愛奇藝和智鈾科技。主要講的是他們公司目前做的一些專案。大都是些機器學習之類的技術,這次還聽到了一個新的名詞——遷移學習,這個應該是早就有了,只是我以前沒有知道過。

滴滴的葉傑平老師講到了如何猜測規劃路線,如何推薦司機接人地點,以及對路線進行規劃等。介紹了滴滴的智慧算法系統的發展歷史,也提到了他們的AI客服系統和車內的語音互動系統,在這其中提到使用了遷移學習的方法。

來自IBM的蘇中老師介紹了幾種機器學習方法:Transfer Learning,Multi-Task Learning,Adversarial Learning和Active Learning。指出現在機器學習的幾個主要的挑戰:small data,need multimodal,many varied tasks以及explainability。蘇老師的報告對機器學習的一些東西介紹佔的比重比較大。

來自京東的張鈞波博士報告的主題是城市計算,使用大資料和AI打造智慧城市,感覺這個主題與陳老師之前的專案有點聯絡。他的工作主要是致力於解決交通、規劃、環境、能耗、公共安全、商業、醫療等城市管理的痛點,主要採用的模式是雲端計算+大資料+AI+城市場景。京東的城市計算平臺是利用大資料和人工智慧從資料中獲取知識,利用知識解決行業問題,以幫助新型智慧城市建設;以解決城市痛點為出發點,可基於任意雲搭建服務,提供開放式的生態平臺;採用點、線、面相結合的頂層設計和多領域垂直應用結合的方式。張博士的報告中用到了北京區域人群流量、空氣質量預測等幾個例子。其中有個水資源的例子感覺可以與我們的VAST競賽相結合一下。

騰訊的史樹明老師主要講的是自然語言處理的研究。他提到目前的聊天機器人還處在“人工智障”的階段。目前語音識別和機器翻譯的水平屬於還可以的水平,而對話機器人、語義理解和文字生成這三個方面目前處於比較差的水平,這應該是接下來這方面的研究者需要努力提高的主要方面。自然語言理解的研究重點是語義挖掘、語義分析和麵向對話的文字理解。而騰訊目前與NLP相關的主要業務有資訊流(天天快報、騰訊新聞、QQ看點……)、搜尋、廣告匹配、自動客服、只能裝置等。

愛奇藝的周尋老師主要講的是愛奇藝大資料平臺、資料探勘應用和產品與服務者三個方面。印象比較深的是他在講愛奇藝的使用者識別的時候。像是愛奇藝這種視訊應用使用者註冊和登入的比例是不高的,而他們又需要向用戶進行定向推送。並且存在多個人使用同一賬號,或同一個人使用多個不同裝置的問題。所以這個使用者的自然人識別就比較複雜了。

最後一個報告的是智鈾科技的夏粉老師。他提出了一種思路,就是將傳統的機器學習建模過程變成一種自動的建模過程,不需要人工地去進行選擇演算法、調參等。如果能夠實現的很好了,那應該是革命性的進展了。

總的來說,第一天的產業界高峰論壇部分,主要就是來自企業的幾位老師結合自己公司的專案來進行的介紹。能夠大致地瞭解到目前幾個具有代表性的企業正在用什麼東西、研究什麼東西,參加這個論壇的目的也就基本達到了。

資料探勘前沿講習班

    六號的內容是三個講習班,用於介紹幾個方面的基本內容。包括自然語言處理、視覺資料分析和深度學習三個部分。

    講解自然語言處理的是中科院自動化所的宗成慶老師,主要講了自然語言處理的基本概念、模型、方法等,也給出了一些例子。講得比較清楚,以前在資訊檢索課程上也接觸過一點自然語言處理的東西,所以還算能聽懂。

    講解視覺資料分析、理解與挖掘的是來自京東AI研究院的梅濤博士。他的講座內容主要包括三個方面:輸入一幅圖片,系統輸出一段描述性的文字來表達圖片中的內容;輸入一段視訊,系統輸出一段描述性的文字來表達視訊中的情景;輸入一段描述性文字,系統自動生成符合描述的圖片或視訊。感覺這個研究比較有意思,下面這PPT中的兩幅圖片就是系統根據文字描述生成的。但是由於對一些深度學習的概念不太懂,所以具體的演算法不太明白。

    晚上的報告是轉講深度學習,報告的老師是來自清華大學的張長水老師。張老師從最基本的神經網路開始講起,然後講到了深度神經網路、卷積神經網路、迴圈神經網路以及具有一定遺忘功能的LSTM網路等。最後介紹了神經網路的發展歷程、所經歷過的幾次寒冬。張老師講座中的幾種神經網路演算法在那本著名的深度學習“花書”中都有介紹,只不過之前我並沒有看完,這次聽了張老師的報告算是有了一個大致的瞭解。通過這次報告我感覺到深度學習雖然在當下十分火爆,但是還有好多很重要的東西沒有得到解決。當然,套用我們以前中學課本上的話來講,這對於我們來講既是機遇也是挑戰。機遇在於,現在不完善,或許我們在將來的工作可以將其變得更加完善。而挑戰在於,深度學習這條路究竟有沒有問題,畢竟這裡面的好多東西現在來講都是無法得到合理解釋的。因此個人感覺沒有必要去狂熱地去追求之,也不適合關起門來不去看。

下面是參加這次講習班的結業證書照片。

學術論壇

七號的內容是幾個組的學術論壇,不同的組在不同的地點並行進行。上午去聽了智慧體與多智慧體系統的論壇。有四個講者做了特邀報告。

    中科大的陳小平老師的報告的題目是人工智慧的三重空間:知識、資料與現實。聽名字就知道主要講的是一些人工智慧的東西。他提到智慧的三重空間如下所示。

陳老師提到脆弱性是人工智慧的試金石。比如對一個判斷麻疹的醫療人工智慧系統輸入一個生鏽的鐵的資訊,結果系統輸出得了麻疹,這就是系統脆弱的表現。基於此,他介紹了人工智慧發展中的三種思維方式。

    (1)、基於解析模型的暴力法:針對知識層,依賴精確性,存在脆弱性;

    (2)、基於資料擬合的訓練法:面向從資料到知識,依賴取樣一致性假設,存在脆弱性;

    (3)、基於容差性的靈巧性技術:面向顯示層和不確定性問題。

後面陳老師還介紹了AlphaGO Zero的演算法架構。

    第二個進行報告的是上海財經大學的陸品燕教授,他的報告題目是最優拍賣機制設計:簡單性與魯棒性。他的報告比較偏經濟一點。比如提到了一個在拍賣中按照最高報價確定買者,按照第二高價作為實際成交價,這樣對買賣雙方都比較合理之類的理論。

    第三個報告的是來自上海交大的吳帆教授,講的是關於賣資料的東西。主要講的是資料作為商品的一些特殊的性質,以及資料作為商品進行出售所面臨的的一些挑戰。當然這個報告中並沒有涉及到太多具體的演算法的東西,但是在當下資料爆炸的時代,資料作為商品進行買賣也會成為一個比較常見的現象,我們也需要對此有一定的認識。

    第四個報告講的是面向視覺感知的大規模深度Q網路方法。只記得裡面提到過一個智慧蒐集易拉罐的掃地機器人的例子。

    下午去聚類分析組想去聽一下他們的論壇,結果到了之後發現會場佈置比較糟糕,已經沒有能夠比較好的看到PPT的地方了,聽的效果特別差。於是趁中間休息的機會,轉到社交網路分析與挖掘組去了。當時電子科大的周濤正在進行報告,聽了他的半截報告。感覺他的一些東西適合進行一些視覺化的工作。他舉了一些他們做的例子。一個是用社交網路(推特)的線上時間資料推測西班牙的社會經濟資訊,例如早上晚起的人比較多則說明現在經濟情況不好,失業者很多。通過電子科大同學的校園卡資料來推測每個同學的行為謹嚴性,如果一個同學每天的吃飯和洗澡時間比較固定說明該同學謹嚴性比較好,甚至可以由此推斷同學的成績好差。還有優勢產業的近鄰區域學習、產業發展的合適時機預測、美國勞動市場的技能極化現象研究等等。感覺周老師的這個報告是比較有意思的,也比較適合用一些視覺化的技術來對結果進行展示。

CCDM正式會議

好像八號開始才是CCDM會議的本體。由咱們學校的尹義龍教授主持開幕式,被稱為國內機器學習第一人的周志華教授做了開幕式致辭。在開幕式的合影之後是大會的三個特邀報告。

    首先第一個報告的是京東的鄭宇博士,講的是用大資料和AI打造新型智慧城市,這個東西在前面的產業界論壇裡面已經講過一次了,這一次在一定程度上可以說是前面介紹的補充吧。他提到目前智慧城市專案是京東的一個重點方向,現在京東有三大研究院,分別是大資料研究院,人工智慧研究院和城市研究院。他的報告中提到了一個例子,就是使用共享單車的行車路線資料來判斷哪裡有違章停車。由於上次去杭州的時候,深受違章停車之苦,這增加了騎車者的危險,所以對這個例子印象比較深刻。他的原理是如果發現有一些共享單車在經過某個地點的時候總是需要繞一下,更靠近裡面的地方去通過,這樣的話應該就是這個地方存在違章停車。這種方法當然是可行的,但是他只能判斷那個地點存在違章停車,卻無法得到違章停車的車主相關資訊,這樣也就不太好有效地去對違章停車者進行一定程度的懲罰。所以我覺著這個東西還需要一定程度的改進。

    第二個報告講者是來自四川大學的章毅教授,報告的題目是Capsule神經網路解析。章教授首先簡單介紹了傳統神經網路的一些概念,然後分別從網路結構,演算法和生物學啟示三個方面介紹了Capsule神經網路。這種神經網路相當於把傳統的神經網路中的隱含層分成了兩個子層,其結構如下圖所示,

其中的每一個方框代表一組神經元,這樣啟用函式就變成了一個向量的函式。Capsule神經網路在學習的過程中使用了動態路由演算法。對於它的生物學啟示,來自於人的大腦新皮層,人的大腦新皮層有視覺中樞,聽覺中樞等區域。各個不同的區域在物理上是無縫連線的,在功能上以層級結構排列,各功能區是有級別的。神經柱是基本的計算單元。總的來講,這個報告就是介紹了一種新的神經網路演算法。

    第三個報告是講自然語言處理的,用了一些神經網路的東西。

    八號下午與九號上午是分組口頭報告和牆展報告。分組口頭報告就是一些學生花十分鐘左右的時間來講一些自己投到這個會議的論文,好多都是一些演算法的應用類的。倒是牆展報告中有一個基於視覺化的森林火災監測節點優化部署策略,當然也是一種應用類的。

    九號的下午是三個特邀報告和大會的閉幕式。三個特邀報告分別講的是Hashing、非迭代深度學習和安全半監督學習。其中這個安全半監督學習提到現在深度學習之類的神經網路演算法的理論還不完善,有必要做一些安全方面的研究,個人感覺這個想法很好。

    至於最後的閉幕式,就是那種正常的閉幕式了。就是閉幕式上出現了一個12歲小朋友來分享自己的程式設計經驗體會,感覺有些意外。後生可畏,我們也要自勉了。

總結

    這次會議算是我參加過的規格最高的一次了,也增長了不少見識。這次會議不是一個專門針對視覺化的,主題是資料探勘。由於現在深度學習火的大紅大紫,因而絕大部分都與深度學習等神經網路演算法有關,就連自然語言處理中的分詞都用上深度學習了。而會議講的論文也絕大部分是深度學習的應用。在深度學習乃至上溯到整個神經網路演算法的發展歷史,這其中經歷過幾個“寒冬”時期。一方面我很佩服這些在“寒冬”時期仍然堅持鑽研的學者;另一方面我覺得深度學習自2006年誕生,2013年左右開始大火,主要的外在環境原因有兩個,一是現在計算機運算能力的不斷提升,二是現在資料的爆炸性增長。深度學習現在還有好多理論不夠完善,還需要不斷地去探索。但是深度學習究其本質,只是資料探勘的一類演算法,沒有必要去為了深度學習而深度學習,選擇演算法的時候還是要本著什麼演算法簡潔有效就選用什麼演算法的原則。

    另外,我覺著我們視覺化組在以後的工作和宣傳上可以向資料探勘靠一靠,畢竟我們的視覺化是為了讓使用者更好的理解資料,這算是資料探勘的一種方法和幫助。