1. 程式人生 > >初學者如何查閱自然語言處理(NLP)領域學術資料

初學者如何查閱自然語言處理(NLP)領域學術資料

在論壇上看到一篇入門的NLP指導,借花獻佛,希望給大家提供便利!!
    原文地址:http://www.sigvc.org/bbs/thread-1851-1-1.html
文章內容總結如下:
1.      國際學術組織、學術會議與學術論文

自然語言處理(natural language processing,NLP)在很大程度上與計算語言學(computational linguistics,CL)重合。與其他計算機學科類似,NLP/CL有一個屬於自己的最權威的國際專業學會,叫做The Association for Computational Linguistics(ACL,URL:http://aclweb.org/),這個協會主辦了NLP/CL領域最權威的國際會議,即ACL年會,ACL學會還會在北美和歐洲召開分年會,分別稱為NAACL和EACL。除此之外,ACL學會下設多個特殊興趣小組(special interest groups,SIGs),聚集了NLP/CL不同子領域的學者,性質類似一個大學校園的興趣社團。其中比較有名的諸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會召開一些國際學術會議,其中比較有名的就是SIGDAT組織的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLL(Conference on Natural Language Learning)。此外還有一個International Committee on Computational Linguistics的老牌NLP/CL學術組織,它每兩年組織一個稱為International Conference on Computational Linguistics (COLING)的國際會議,也是NLP/CL的重要學術會議。NLP/CL的主要學術論文就分佈在這些會議上。

作為NLP/CL領域的學者最大的幸福在於,ACL學會網站建立了稱作ACL Anthology的頁面(URL:
http://aclweb.org/anthology-new/
),支援該領域絕大部分國際學術會議論文的免費下載,甚至包含了其他組織主辦的學術會議,例如COLING、IJCNLP等,並支援基於Google的全文檢索功能,可謂一站在手,NLP論文我有。由於這個論文集合非常龐大,並且可以開放獲取,很多學者也基於它開展研究,提供了更豐富的檢索支援,具體入口可以參考ACL Anthology頁面上方搜尋框右側的不同檢索按鈕。

與大部分計算機學科類似,由於技術發展迅速,NLP/CL領域更重視發表學術會議論文,原因是發表週期短,並可以通過會議進行交流。當然NLP/CL也有自己的旗艦學術期刊,發表過很多經典學術論文,那就是Computational Linguistics(URL:
http://www.mitpressjournals.org/loi/coli
)。該期刊每期只有幾篇文章,平均質量高於會議論文,時間允許的話值得及時追蹤。此外,ACL學會為了提高學術影響力,也剛剛創辦了Transactions of ACL(TACL,URL:http://www.transacl.org/),值得關注。值得一提的是這兩份期刊也都是開放獲取的。此外也有一些與NLP/CL有關的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根據Google Scholar Metrics 2013年對NLP/CL學術期刊和會議的評價,ACL、EMNLP、NAACL、COLING、LREC、Computational Linguistics位於前5位,基本反映了本領域學者的關注程度。

NLP/CL作為交叉學科,其相關領域也值得關注。主要包括以下幾個方面:(1)資訊檢索和資料探勘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、WWW、WSDM等;(2)人工智慧領域。相關學術會議主要包括AAAI和IJCAI等,相關學術期刊主要包括Artificial Intelligence和Journal of AI Research;(3)機器學習領域,相關學術會議主要包括ICML,NIPS,AISTATS,UAI等,相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近興起的knowledge graph研究論文,就有相當一部分發表在人工智慧和資訊檢索領域的會議和期刊上。實際上國內計算機學會(CCF)制定了“中國計算機學會推薦國際學術會議和期刊目錄”(
http://www.ccf.org.cn/sites/ccf/ ... entId=2567814757463
),通過這個列表,可以迅速瞭解每個領域的主要期刊與學術會議。

最後,值得一提的是,美國Hal Daumé III維護了一個natural language processing的部落格(http://nlpers.blogspot.com/),經常評論最新學術動態,值得關注。我經常看他關於ACL、NAACL等學術會議的參會感想和對論文的點評,很有啟發。另外,ACL學會維護了一個Wiki頁面(http://aclweb.org/aclwiki/),包含了大量NLP/CL的相關資訊,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。

2.      國內學術組織、學術會議與學術論文 與國際上相似,國內也有一個與NLP/CL相關的學會,叫做中國中文資訊學會(URL:http://www.cipsc.org.cn/)。通過學會的理事名單(http://www.cipsc.org.cn/lingdao.php)基本可以瞭解國內從事NLP/CL的主要單位和學者。學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、全國青年計算語言學研討會(YCCL)、全國資訊檢索學術會議(CCIR)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平臺。尤其值得一提的是,全國青年計算語言學研討會是專門面向國內NLP/CL研究生的學術會議,從組織到審稿都由該領域研究生擔任,非常有特色,也是NLP/CL同學們學術交流、快速成長的好去處。值得一提的是,2010年在北京召開的COLING以及2015年即將在北京召開的ACL,學會都是主要承辦者,這也一定程度上反映了學會在國內NLP/CL領域的重要地位。此外,計算機學會中文資訊科技專委會組織的自然語言處理與中文計算會議(NLP&CC)也是最近崛起的重要學術會議。中文資訊學會主編了一份歷史悠久的《中文資訊學報》,是國內該領域的重要學術期刊,發表過很多篇重量級論文。此外,國內著名的《計算機學報》、《軟體學報》等期刊上也經常有NLP/CL論文發表,值得關注。

過去幾年,在水木社群BBS上開設的AI、NLP版面曾經是國內NLP/CL領域線上交流討論的重要平臺。這幾年隨著社會媒體的發展,越來越多學者轉戰新浪微博,有濃厚的交流氛圍。如何找到這些學者呢,一個簡單的方法就是在新浪微博搜尋的“找人”功能中檢索“自然語言處理”、 “計算語言學”、“資訊檢索”、“機器學習”等字樣,馬上就能跟過去只在論文中看到名字的老師同學們近距離交流了。還有一種辦法,清華大學樑斌開發的“微博尋人”系統(http://xunren.thuir.org/)可以檢索每個領域的有影響力人士,因此也可以用來尋找NLP/CL領域的重要學者。值得一提的是,很多在國外任教的老師和求學的同學也活躍在新浪微博上,例如王威廉(http://weibo.com/u/1657470871)、李沐(http://weibo.com/mli65)等,經常爆料業內新聞,值得關注。還有,國內NLP/CL的著名部落格是52nlp(http://www.52nlp.cn/),影響力比較大。總之,學術研究既需要苦練內功,也需要與人交流。所謂言者無意、聽者有心,也許其他人的一句話就能點醒你苦思良久的問題。無疑,部落格微博等提供了很好的交流平臺,當然也注意不要沉迷哦。

3.      如何快速瞭解某個領域研究進展 最後簡單說一下快速瞭解某領域研究進展的經驗。你會發現,搜尋引擎是查閱文獻的重要工具,尤其是谷歌提供的Google Scholar,由於其龐大的索引量,將是我們披荊斬棘的利器。

當需要了解某個領域,如果能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法還是在Google Scholar中搜索“領域名稱 + survey / review / tutorial / 綜述”來查詢。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了很多熱門方向的綜述,如文件摘要、情感分析和意見挖掘、學習排序、語言模型等。

如果方向太新還沒有相關綜述,一般還可以查詢該方向發表的最新論文,閱讀它們的“相關工作”章節,順著列出的參考文獻,就基本能夠了解相關研究脈絡了。當然,還有很多其他辦法,例如去videolectures.net上看著名學者在各大學術會議或暑期學校上做的tutorial報告,去直接諮詢這個領域的研究者,等等。
閱讀(9) | 評論(0) | 轉發(0) | 評論熱議