ML/NLP入門教程Python版（第一部分：文字處理）

第一部分：文字處理

歡迎來到機器學習和自然語言處理原型編碼教程系列的第一部分。 Thoughtly正在製作一個著重於理解機器學習基礎的系列教程,著重關注於在自然語言處理中的應用。

這一系列教程的目標是提供有據可查的可用程式碼，附加留言部分的深入探討。程式碼將被放到GitHub上，在一個開放的許可證下，允許你任意修改或使用——不必署名（註明來源）。這裡的程式碼為了明白起見以犧牲效能為代價寫的比較冗長。如果你有大量的資料要處理，這些工具的可擴充套件性很可能無法達到完成你目的的要求。幸運的是，我們正在計劃通過研究此處討論的演算法在當下最新的實現，來更好地對這個系列進行深入探索。這些內容都是黑盒子，是我們在初始系列中有意避免（到實用的程度）提到的內容。我們相信，在能使用這些黑盒子之前，在機器學習方面打下一個堅實的基礎是至關重要的。

第一部分的重點是如何從文字語料庫提取出資訊來。我們有意用介紹性的水平來開始教程，但是它涉及到很多不同的技巧和測量標準，這些方法都會在之後應用到更深入的機器學習任務上。

文字提取

下文介紹的以及此處程式碼中用到的工具，都假設我們將所選的語料當作一袋單詞。這是你在處理文字文件的時候常常會看到的一個基本概念。將語料當作一袋單詞是將文件向量化中的一個典型步驟，以供機器學習演算法進一步處理。把文件轉換成可處理向量通常還需要採取一些額外步驟，我們將在後面的課程中對此進行討論。本課程中介紹的概念和工具將作為後面工具的構建模組。也許更重要的是，這些工具可以幫助你通過快速檢查一個文字語料庫，從而對它所包含的內容有一個基本的瞭解。

本課程中我們所研究的程式碼及示例都是使用Python實現的。這些程式碼能夠從NLTK(Python的自然語言工具包)所提供的不同的文字語料庫中提取資料。這是個包括了ABC新聞的文字、聖經的創世紀、從古滕堡計劃中選取的部分文字、總統就職演說、國情諮文和從網路上擷取的部分文字所組成的語料庫。另外，使用者還能從他們自己提供的語料庫來提取文字。從NLTK匯入的程式碼並不是特別有趣，但我們想指出的是，要從NLTK文字語料庫中提取資料是非常簡單方便的。

Python

def load_text_corpus(args):

    if args["abc"]:
        logging.debug("Loading the ABC corpus.")
        name = "ABC"
        words = nltk.corpus.abc.words()

    elif args["genesis"]:
        logging.debug("Loading the ABC corpus.")
        name = "Genesis"
        words = nltk.corpus.genesis.words()

    elif args["gutenberg"]:
        logging.debug("Loading the Gutenberg corpus.")
        name = "Gutenberg"
        words = nltk.corpus.gutenberg.words()

    elif args["inaugural"]:
        logging.debug("Loading the Inaugural Address corpus.")
        name = "Inaugural"
        words = nltk.corpus.inaugural.words()

    elif args["stateUnion"]:
        logging.debug("Loading the State of the Union corpus.")
        name = "Union"
        words = nltk.corpus.state_union.words()

    elif args["webtext"]:
        logging.debug("Loading the webtext corpus.")
        name = "Web"
        words = nltk.corpus.webtext.words()

    elif args["custom"] != None:
        logging.debug("Loading a custom corpus from " + args["custom"])
        name = "Custom"
        words = load_custom_corpus(args["custom"])
    else:
        words = ""
        name = "None"

    logging.debug("Read " + str(len(words)) + " words: " + str(words[0:20]))

    return words, name

12345678910111213141516171819202122232425262728293031323334353637383940414243

defload_text_corpus(args):ifargs["abc"]:logging.debug("Loading the ABC corpus.")name="ABC"words=nltk.corpus.abc.words()elifargs["genesis"]:logging.debug("Loading the ABC corpus.")name="Genesis"words=nltk.corpus.genesis.words()elifargs["gutenberg"]:logging.debug("Loading the Gutenberg corpus.")name="Gutenberg"words=nltk.corpus.gutenberg.words()elifargs["inaugural"]:logging.debug("Loading the Inaugural Address corpus.")name="Inaugural"words=nltk.corpus.inaugural.words()elifargs["stateUnion"]:logging.debug("Loading the State of the Union corpus.")name="Union"words=nltk.corpus.state_union.words()elifargs["webtext"]:logging.debug("Loading the webtext corpus.")name="Web"words=nltk.corpus.webtext.words()elifargs["custom"]!=None:logging.debug("Loading a custom corpus from "+args["custom"])name="Custom"words=load_custom_corpus(args["custom"])else:words=""name="None"logging.debug("Read "+str(len(words))+" words: "+str(words[0:20]))returnwords,name

上面的大部分程式碼只是日誌。有意思的部分在357行、362行、367行等。基於使用者選擇，每部分載入不同的語料庫。 NLTK對從現有語料庫中提取文字提供了一些非常便利的方法。這包括一些簡單的、純文字的語料庫，也包括一些已經用各種方式被標記過的語料庫 —— 語料庫中的每個文件可能被標記過類別或是語料庫中有的語音已被加過標籤，如此等等。在本課程中，我們對NLTK的使用僅限於語料庫的匯入、詞彙的切分，以及我們下面將討論兩個操作，詞根和詞形還原。雖然不會總是如此，但現在為止足夠我們需要的所有功能。值得注意的是，您還可以在指令碼中使用-custom引數匯入自定義語料庫。這應該是含有.txt檔案的資料夾。該資料夾是遞迴讀入的，所以含有.txt檔案的子資料夾也能被處理。

詞彙切分

詞彙切分是切分語料庫，使之變成各個獨立部分——通常指單詞，的行為。我們這樣做是因為大多數ML演算法無法處理任意長的文字字串。相反，他們會假設你已經分割你的語料庫為單獨的，演算法可處理的詞塊（token）。雖然我們將在後面的課程詳細討論這個話題，演算法不一定限於一次只處理一個詞塊（token）。事實上，許多演算法只在處理短序列（n-grams）時有用。本課程中我們將情況限定於一序列（1-grams），或者叫，單序列（unigram）。

對文字語料庫做詞彙切分的最簡單的方法就是僅基於空白字元。這種方法確實非常簡單，但它也有缺點。例如，它會導致位於句尾的文字包含有句尾標點符號，而一般不需要這樣。在另一方面，類似can’t和e.g.這樣帶有詞內標點的單詞就沒法被正確提取出來了。我們可以新增一步操作來刪除所有非字母數字的字元。這將解決句尾標點符號的問題，同時也能將can’t和e.g.這樣的單詞提取出來，儘管是以丟掉了他們的標點符號的方式被提取出來的。然而，這也引入了一個新的問題。對於某些應用，我們還是希望保留標點符號。在建立語言模型的時候，句尾標點能區分一個單詞是否是結尾單詞，從這方面來說，額外的標點資訊是有價值的。

對於這個任務，我們要將一些標點符號（句號）作為一個詞，使用NLTK word_tokenizer（它是基於TreebankWordTokenizer來實現的）來做詞彙切分。這個分詞器有很多針對各式各樣的詞彙做切分的規則。舉例來說，“can’t”這樣的縮寫實際上被分成了兩個詞(token) – ca和n’t。有趣的是，這意味著我們最後會得到ca這樣的詞，它理想地匹配了can（在某些任務中）。這樣的錯誤匹配是這種符號化演算法帶來的不幸後果。NLTK支援多種分詞器。這是一個及其冗長的檔案，http://www.nltk.org/api/nltk.tokenize.html，但在裡面可以找到它所支援的分詞器的細節。

詞幹提取和詞形還原

一旦取到了文字我們就可以開始處理它。指令碼提供了許多簡單的工具，它們會幫助我們檢視我們所選擇的內容。之後我們會深入談到這些工具。首先，讓我們思考一下該用什麼方法來操作我們取到的文字。通常我們需要為ML演算法提供從語料庫提取的原始文字詞彙（單詞）。在其他情況下，將這些單詞轉成原始內容的各種變形也是有道理的。

具體來說，我們經常要將原始單詞截斷到它的詞根。那麼，什麼是一個詞根呢？英語單詞有從原始單詞延伸出的通用字尾。就拿單詞”run”為例。有很多的擴充套件它的詞 – “runner”，”runs”，”running”等，即對基本定義的進一步闡述。詞幹提取是從”runner”,”runs”以及“running”中去除所有和”run”不一致的部分的過程。請注意，在上述列表中不包含”ran” —— 後面我們再對此進行闡述。下面是一個被提取詞幹的句子的具體例項。

Python

stem(Jim is running to work.) =&gt; Jim is run to work.

1	stem(Jim isrunning to work.)=>Jim isrun to work.

我們已經丟失了”吉姆在跑步”這個資訊，儘管此處的上下文隱含的所有其他資訊都說不通。我們不可能完全扭轉這一點 —— 我們可以猜測那裡曾經是什麼詞，但我們很可能會弄錯。

此處提供的程式碼可以讓你對你的語料庫進行詞幹提取。實際的詞幹提取是微不足道的，因為我們會使用NLTK來進行這部分工作。我們只需通過輸入陣列迭代，並返回使用NLTK Porter Stemmer所得到的各種提取後的詞幹變體。有許多不同的詞幹分析器可供選擇，還包括非英語語言的選項。Porter Stemmer常用於英語。

Python

def stem_words_array(words_array):
    stemmer = nltk.PorterStemmer();
    stemmed_words_array = [];
    for word in words_array:
        stem = stemmer.stem(word);
        stemmed_words_array.append(stem);
    return stemmed_words_array;

1234567

defstem_words_array(words_array):stemmer=nltk.PorterStemmer();stemmed_words_array=[];forword inwords_array:stem=stemmer.stem(word);stemmed_words_array.append(stem);returnstemmed_words_array;

詞形還原類似於詞幹提取，但又有著重要的區別。與使用一系列簡單的規則將一個單詞截斷成它的詞根不同，詞形還原嘗試對輸入的單詞確定一個恰當的詞根。本質上，詞形還原試圖找到一個單詞的字典項，也稱為單詞的基本形(base term)。為了使這種查詢能正確的工作，詞形還原器必須知道您尋找的這個詞在句子中的詞性。生成語料庫的詞條與詞幹提取的程式碼基本上是相同的（儘管這段程式碼有上文略為提及的缺點，我們將在下面進一步對此進行討論）。這裡我們用了WordNetLemmatizer，它使用WordNet的資料庫作為其查詢指定詞條的字典。

Python

def lemmatize_words_array(words_array):
    lemmatizer = nltk.stem.WordNetLemmatizer()
    lemmatized_words_array = [];
    for word in words_array:
        lemma = lemmatizer.lemmatize(word)
        lemmatized_words_array.append(lemma)
    return lemmatized_words_array;

1234567

deflemmatize_words_array(words_array):lemmatizer=nltk.stem.WordNetLemmatizer()lemmatized_words_array=[];forword inwords_array:lemma=lemmatizer.lemmatize(word)lemmatized_words_array.append(lemma)returnlemmatized_words_array;

正如上文所述，詞形還原知道單詞的詞性。NLTK WordNetLemmatizer天真地假設，所有傳入的單詞都是名詞。這種假設意味著你必須告訴詞形還原器要傳遞的詞不是一個名詞，否則它會錯誤的地將其視為一個名詞。這個行為，加上對未知的單詞（特別是當它混在一段文字中的時候）不做任何處理直接輸出的行為，使得詞形還原器處理效果很差。舉例來說，如果讓詞形還原器處理”ran”這個詞，在不指出”ran”屬於一段文字的情況下，它將直接輸出”ran”。它不知道的作為名詞的”ran”，因為很明顯”ran”不是一個名詞。但是，如果你正確地指出”ran”是動詞,那麼詞形還原器就能輸出”run”。與相對，此處詞幹分析器就會輸出”ran”。因此，如果我們要有效地利用詞形還原器，我們也必須付出在原始碼中對詞性進行標註的代價，我們將在後面的課程中對詞性標註的部分進行討論。標記單詞詞性的額外成本也是詞形還原器不像詞幹分析器那樣應用廣泛的原因之一 —— 所新增的功能抵不上所花的成本。

詞彙量

現在，使用詞幹提取或詞形還原的方法，我們已經拉取了一個語料庫並且(視情況)對它做了變形，終於可以開始檢視它的內容了。下面不是一個詳盡的清單，但作為審查文字的技術參考。有些是立刻會用到的，其他則會在以後討論到。

第一項測量是最簡單的——詞彙計數。這個指標是語料庫內所有唯一字的計數。正如你所期望的，程式碼很容易實現。唯一一個你之後還會再遇到的技巧，是我們決定使用Python裡dictionary的唯一性。即任一字典的條目在字典中不能出現超過一次。

Python

def collect_unique_terms(corpus):
    unique_vocabulary = {}
    for term in corpus:
        unique_vocabulary[term] = 1;
    return unique_vocabulary;

12345

defcollect_unique_terms(corpus):unique_vocabulary={}forterm incorpus:unique_vocabulary[term]=1;returnunique_vocabulary;

這種方法可以讓我們對我們的資料有所認知。思考我們使用詞幹提取及詞形還原來考察ABC語料庫後的如下輸出。

首先是原始語料文字：

Python

&gt; python words.py -vv -abc -s -vs
Loading the ABC corpus.
Read 766811 words: [u&#039;PM&#039;, u&#039;denies&#039;, u&#039;knowledge&#039;, u&#039;of&#039;, u&#039;AWB&#039;, u&#039;kickbacks&#039;, u&#039;The&#039;, u&#039;Prime&#039;, u&#039;Minister&#039;, u&#039;has&#039;, u&#039;denied&#039;, u&#039;he&#039;, u&#039;knew&#039;, u&#039;AWB&#039;, u&#039;was&#039;, u&#039;paying&#039;, u&#039;kickbacks&#039;, u&#039;to&#039;, u&#039;Iraq&#039;, u&#039;despite&#039;]
The corpus contains 766811 elements after processing
The corpus has a total vocabulary of 31885 unique tokens.

12345

>python words.py-vv-abc-s-vsLoading the ABCcorpus.Read766811words:[u'PM', u'denies', u'knowledge', u'of', u'AWB', u'kickbacks', u'The', u'Prime', u'Minister', u'has', u'denied', u'he', u'knew', u'AWB', u'was', u'paying', u'kickbacks', u'to', u'Iraq', u'despite']The corpus contains766811elements after processingThe corpus hasatotal vocabulary of31885unique tokens.

其次是詞形還原後的語料庫：

Python

&gt; python words.py -vv -abc -l -vs
Loading the ABC corpus.
Read 766811 words: [u&#039;PM&#039;, u&#039;denies&#039;, u&#039;knowledge&#039;, u&#039;of&#039;, u&#039;AWB&#039;, u&#039;kickbacks&#039;, u&#039;The&#039;, u&#039;Prime&#039;, u&#039;Minister&#039;, u&#039;has&#039;, u&#039;denied&#039;, u&#039;he&#039;, u&#039;knew&#039;, u&#039;AWB&#039;, u&#039;was&#039;, u&#039;paying&#039;, u&#039;kickbacks&#039;, u&#039;to&#039;, u&#039;Iraq&#039;, u&#039;despite&#039;]
The corpus contains 766811 elements after processing
The corpus has a total vocabulary of 28699 unique tokens.

12345

>python words.py-vv-abc-l-vsLoading the ABCcorpus.Read766811words:[u'PM', u'denies', u'knowledge', u'of', u'AWB', u'kickbacks', u'The', u'Prime', u'Minister', u'has', u'denied', u'he', u'knew', u'AWB', u'was', u'paying', u'kickbacks', u'to', u'Iraq', u'despite']The corpus contains766811elements after processingThe corpus hasatotal vocabulary of28699unique tokens.

最後，是詞幹提取後的語料庫：

Python

&gt; python words.py -vv -abc -vs
Loading the ABC corpus.
Read 766811 words: [u&#039;PM&#039;, u&#039;denies&#039;, u&#039;knowledge&#039;, u&#039;of&#039;, u&#039;AWB&#039;, u&#039;kickbacks&#039;, u&#039;The&#039;, u&#039;Prime&#039;, u&#039;Minister&#039;, u&#039;has&#039;, u&#039;denied&#039;, u&#039;he&#039;, u&#039;knew&#039;, u&#039;AWB&#039;, u&#039;was&#039;, u&#039;paying&#039;, u&#039;kickbacks&#039;, u&#039;to&#039;, u&#039;Iraq&#039;, u&#039;despite&#039;]
The corpus contains 766811 elements after processing
The corpus has a total vocabulary of 22162 unique tokens.

12345

>python words.py-vv-abc-vsLoading the ABCcorpus.Read766811words:[u'PM', u'denies', u'knowledge', u'of', u'AWB', u'kickbacks', u'The', u'Prime', u'Minister', u'has', u'denied', u'he', u'knew', u'AWB', u'was', u'paying', u'kickbacks', u'to', u'Iraq', u'despite']The corpus contains766811elements after processingThe corpus hasatotal vocabulary of22162unique tokens.

可以看到，從原始資料到詞形還原到詞幹提取後，語料庫中唯一字計數值總體在減少，從31K至28K到22K。這個模式重複於每個語料庫。在每個例項中，原始語料庫的字數統計大於詞幹提取後的，而詞幹提取後的字數統計則大於詞形還原後的。

上面的圖表是使用我們共享工程的Python程式碼生成。它對非定製語料庫列表進行遍歷，並分別計算原始、詞幹提取後、詞形還原後的唯一字數量。你可以用命令列重現這個圖表。你還可以得到一份同樣內容的文字轉儲。

Python

&gt; python words.py  -v --stemVsLemma
2015-02-02 19:49:22,255 (INFO): Corpora: [&#039;ABC&#039;, &#039;Genesis&#039;, &#039;Gutenberg&#039;, &#039;Inaugural&#039;, &#039;Union&#039;, &#039;Web&#039;]
2015-02-02 19:49:22,255 (INFO): Word Counts: [31885, 25841, 51156, 9754, 14591, 21538]
2015-02-02 19:49:22,255 (INFO): Lemmatized Word Counts: [28699, 25444, 46456, 8763, 13111, 20056]
2015-02-02 19:49:22,255 (INFO): Stemmed Word Counts: [22162, 23542, 33521, 6135, 9533, 16599] 
2015-02-02 19:49:22,466 (INFO): The corpus contains 0 elements after processing

123456

>python words.py-v--stemVsLemma2015-02-0219:49:22,255(INFO):Corpora:['ABC', 'Genesis', 'Gutenberg', 'Inaugural', 'Union', 'Web']2015-02-0219:49:22,255(INFO):Word Counts:[31885,25841,51156,9754,14591,21538]2015-02-0219:49:22,255(INFO):Lemmatized Word Counts:[28699,25444,46456,8763,13111,20056]2015-02-0219:49:22,255(INFO):Stemmed Word Counts:[22162,23542,33521,6135,9533,16599]2015-02-0219:49:22,466

ML/NLP入門教程Python版（第一部分：文字處理）

文字提取

詞彙切分

詞幹提取和詞形還原

詞彙量

ML/NLP入門教程Python版（第一部分：文字處理）

RabbitMQ官方中文入門教程(PHP版) 第三部分:釋出／訂閱（Publish/Subscribe）

《SQL入門經典》筆記（第一章：歡迎進入SQL世界）

RabbitMQ官方中文入門教程(PHP版) 第四部分:路由(Routing)

Axis2/C入門教程之二（服務端實現詳細分析）

RabbitMQ學習筆記（第一章：Rabbit簡介）

三步學會用spring開發OSGI——（第一步：環境篇）

robot framework rf自動化測試例項（第一篇：啟動應用）

第一部分：批處理的專用命令

【CC2530入門教程-增強版】基礎技能綜合實訓案例（基礎版）-題目需求

Python核心程式設計第三版練習參考（第一章：正則表示式）

RabbitMQ官方中文入門教程(PHP版) 第一部分:Hello World

Python NLP入門教程

Spark英中對照翻譯(PySpark中文版新手快速入門-Quick Start)-中文指南,教程(Python版)-20161115

Python學習（第一篇）

【python】（第一章）1.4 數字和表達式

紅米1線刷救磚教程V5版（移動聯通適用，線刷包永久有效）

Python練習（第一周）: 編寫登陸認證程序

一看就懂的ReactJs入門教程-精華版-轉載

Python學習（第一章）

ML/NLP入門教程Python版（第一部分：文字處理）

文字提取

詞彙切分

詞幹提取和詞形還原

詞彙量

相關推薦