1. 程式人生 > >自然語言處理入門---學習方法概述

自然語言處理入門---學習方法概述

      自然語言處理的研究內容:1,句法語義分析(主要對句子進行分詞,詞性識別,命名實體識別,句法分析,語義角色分析,多義詞消歧等)2, 資訊抽取(從文字中抽取重要的資訊,主要涉及到了實體識別,時間抽取,因果關係抽取等關鍵技術)3,文字挖掘(對文字資料進行聚類,分類,資訊抽取,摘要,情感分析等主流的統計機器學習)4,機器翻譯(把輸入的源文字自動翻譯獲得另一種語言的文字)5,資訊檢索(對大規模的文件進行索引,可以先在索引中找到候選文件,然後根據排序機制把候選文件排序,最終輸出排序得分最高的文件)6,問答系統(給一個問題,然後給出一個精確的答案)7,對話系統(系統通過一系列的對話,跟使用者進行聊天,回答,完成一項任務,甚至可以基於使用者進行個性化回覆)

       學習NLP的過程:找一個開源專案,然後理解任務,跑通原始碼,然後嘗試著自己實現,然後與原始碼相對照,找優勢,找不足。

       選擇NLP課題:先確定一個研究領域,然後調研該研究領域的一些發展狀況,包括方法方面,是否有清晰的數學體系和機器學習體系;資料方面,是否有公認的資料集;研究團隊,是都有著名的團隊和人士參加,然後找到本領域的一些開源專案或工具,多讀文章,最後要進行比較好的對比,與已有的演算法進行比較,是否可以得到比較一般的結論。

        如何寫出一篇NLP的論文:論文題目具體,有深度,突出演算法;論文摘要說明本文針對什麼問題,提出什麼方法,跟已有的工作相比有什麼優勢,實驗結果表明,達到什麼水準,解決了什麼問題;引言,要說本項工作的背景,對於這個問題的定義,有什麼重要性,本問題中,現有方法有哪些,優缺點,存在什麼問題,本文針對這個問題,受什麼方法的影響,提出了什麼新的方法,並做了以下幾個方面的研究,然後對幾個方面加以敘述,最後說明實驗的結論,文字的貢獻,最後說一下文章的章節組織以及本文的重點;論文相關工作,對相關工作做一個梳理,按照流派劃分,對主要的最多三個流派做簡要的介紹,介紹其原理及其侷限性;論文主幹主要是對於演算法的描述,對於實驗的介紹;論文結論,對本文的貢獻再一次總結,既要從理論,方法上加以總結和提煉,也要在實驗上的貢獻和結論說明,同時也需要指出未來的研究方向;論文參考文獻,要把重要的相關工作的論文寫全。