在未來,機器學習與自然語言處理還會碰撞出哪些火花?
機器學習(machine learning)是一門多領域交叉學科,設計概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。
從歷史來看,機器學習是人工智慧研究較為年輕的分支,似乎也是人工智慧中發展最快的分支之一。一般認為,它的發展過程大體上可分為4個時期:
第一階段 20世紀50年代中葉到60年代中葉,屬於熱烈時期。
第二階段 20世紀60年代中葉至70年代中葉,被稱為機器學習的冷靜時期。
第三階段 20世紀70年代中葉至80年代中葉,稱為復興時期。
第四階段機器學習開始於1986年,目前我們仍處在這個時期。
本文基於AMiner全新功能技術趨勢分析Trend analysis和笛卡爾乘積熱點挖掘,將為大家解讀機器學習領域進行的趨勢分析以及機器學習與自然語言處理域的交叉趨勢分析。
機器學習趨勢分析
下面我們將用Trend analysis分析機器學習領域內的研究熱點。下圖是當前該領域的熱點技術趨勢分析,通過Trend analysis分析挖掘可以發現當前該領域的熱點研究話題Top10如下:
-
machine learning
-
brain computer interface
-
artificial intelligence
-
support vector machine
-
gaussian process
-
missing data
-
image classification
-
social network
-
data mining
-
computer science
根據Trend analysis的分析我們可以發現,該領域當前最熱門的話題是machine learning,從全域性熱度來看,machine learning的話題熱度雖然有所起伏但從20世紀90年代至今其話題熱度始終保持在Top 1,論文的發表數量也較多;brain computer interface的研究熱度從2003年開始迅速上升,近幾年話題熱度更是超越support vector machine成為top 2 話題;另外,近期multi task learning 的話題熱度開始逐漸上升。
通用機器學習技術奠基人之一的Thomas G. Dietterich在2000年發表的“Ensemble Methods in Machine Learning”回顧了集合方法並解釋了為什麼聚類通常比任何一個分類器都表現更好。
Thomas G. Dietterich的研究貢獻主要包括將糾錯輸出編碼應用於多類分類問題,他發明了多示例學習、層次強化學習MAXQ框架及將非引數迴歸樹整合到概率圖模型中的方法。此外,Dietterich教授也參與撰寫了美國白宮釋出的兩份重磅AI報告《為人工智慧的未來做準備》和《美國國家人工智慧研究與發展策略規劃》。
機器學習&自然語言處理交叉趨勢分析
我們選取自然語言處理域近期熱度與全域性熱度最高,相關性最強的9個相關領域作為研究物件,具體包括:
-
Natural Language Processing
-
Machine Translation
-
Text Corpus
-
Language Modeling
-
Treebank
-
Nist
-
SemanticLabeling
-
Word Segmentation
-
Shallow Parsing
通過對兩個領域的知識圖譜的計算,再對兩領域的細分子領域進行笛卡爾乘積熱點挖掘, 本文挖掘了歷史資料分析和未來趨勢預測兩部分 。
本文主要探討2007年至今的研究狀況;趨勢預測僅以未來3年為週期來探討。
“ 領域交叉熱力值由交叉研究的論文的citation等資料加權計算得出,熱力值越高,表明這個兩個交叉子領域交叉研究的越深入和廣泛。”
每個交叉熱點中的研究學者,發表論文,中外學者和論文對比等資料均可以獲得。用作展示時,研究學者和論文分別按照交叉領域研究影響度和論文相關度作為預設排序。
-
學者研究影響度由交叉領域內論文量,h-index等計算得出;
-
論文相關度由交叉領域內論文的關聯程度和引用數量等計算得出。
-
對比分析中“中外研究人員對比”和“中外研究論文對比”是專家數量和論文數量的直接對比;
-
而“中外論文影響對比”是論文citation值的對比。
歷史熱點圖
2007年至今機器學習領域與自然語言處理領域交叉分析熱點圖
2007年至今,全球共有10019位專家投入了機器學習和自然語言處理領域的交叉研究中,其中華人專家1754人,約佔17.51%,共產生交叉研究論4310篇。學者H-index分佈和Citation分佈如下:
h-index |
專家人數 |
分佈佔比 |
小於10 |
7141 |
71.27% |
10~20 |
1356 |
13.53% |
20~40 |
1028 |
10.26% |
大於40 |
315 |
3.14% |
總計 |
10019 |
100% |
2007年至今機器學習領域與自然語言處理領域交叉研究學者h-index分佈
citation |
專家人數 |
分佈佔比 |
小於10 |
1836 |
42.60% |
1~10 |
1328 |
30.81% |
10~100 |
999 |
23.18% |
100~200 |
81 |
1.88% |
大於200 |
66 |
1.53% |
總計 |
4310 |
100% |
2007年至今機器學習領域與自然語言處理領域交叉研究論文citation分佈
歷史交叉領域TOP5
-
machine learning & natural language processing
-
Supervised Learning & natural language processing
-
Regularization& natural language processing
-
machinelearning & Machine Translation
-
Unsupervised Learning & natural language processing
我們選取歷史交叉領域TOP5中的第一個:machine learning與natural language processing→機器學習領域與自然語言處理領域,進行詳細的交叉研究分析。
機器學習領域與自然語言處理領域相關性最高的5位作者如下所示:
Michael I. Jordan
Geoffrey Hinton
Eric P. Xing
Hongjie Dai
Xin Li
機器學習領域與自然語言處理領域相關性最高的5篇論文如下所示:
題目:The Case for VM-Based Cloudlets in Mobile Computing
會議/期刊:IEEE Pervasive Computing
年份:2009
引用量:2583
作者:Mahadev Satyanarayanan,Paramvir Bahl,Ramon Caceres,Nigel Davies
題目:Cheap and fast---but is it good evaluating non-expert annotations for natural language tasks
會議/期刊:EMNLP
年份:2008
引用量:1770
作者:Rion Snow,Brendan O'Connor,Daniel Jurafsky,Andrew Y. Ng
題目:Deep Learning: Methods and Applications
會議/期刊:Foundations and Trends in Signal Processing
年份:2014
引用量:1368
作者:Li Deng,Dong Yu
題目:The Unreasonable Effectiveness of Data
會議/期刊:IEEE Intelligent Systems
年份:2009
引用量:873
作者:Alon Y. Halevy,Peter Norvig,Fernando Pereira
題目:A survey of modern authorship attribution methods
會議/期刊:JASIST
年份:2009
引用量:1149
作者:Efstathios Stamatatos
機器學習&自然語言處理歷史研究資料對比
機器學習領域與自然語言處理領域歷史論文資料
機器學習領域與自然語言處理領域歷史專家資料
機器學習&自然語言處理 中美對比
機器學習領域與自然語言處理領域中美研究人員對比
機器學習領域與自然語言處理領域中美論文對比
機器學習領域與自然語言處理領域研究中,領先的國家分別是:
-
美國:us:
-
中國:cn:
-
日本:jp:
-
印度:in:
-
加拿大:ca:
-
英國:gb:
-
德國:de:
-
義大利:it:
-
法國:fr:
機器學習領域與自然語言處理領域研究中,全球主要研究機構是:
-
哥倫比亞大學
-
微軟研究院
-
錫拉丘茲大學
-
美國國家醫學圖書館
-
中國科學院
-
北京理工大學
-
東京大學
-
科羅拉多大學
-
東京大學
-
卡內基梅隆大學
未來趨勢預測
預測未來三年內運用交叉較高領域:
1.machine learning & natural language processing
2.Recurrent Neural Network & Language Modeling
3.Deep Learning & natural language processing
4.machine learning & Language Modeling
5.Topic Modeling & Machine Translation
AMiner預測機器學習領域與自然語言處理領域未來三年熱點圖如下圖所示:
機器學習領域與自然語言處理領域交叉熱點預測
機器學習是人工智慧的核心,應用遍及人工智慧的各個領域,目前機器學習已經在資料探勘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、DNA序列測序、戰略遊戲和機器人等多個方面都得到了運用,在未來,它的應用將會得到更多的拓展。