所謂“自然語言”,是指人們日常交流使用的語言。相對於程式語言和數學符號這樣的人工語言自然語言隨著一代代的傳遞而不斷演化因而很難用明確的規則來確定。從廣義上講,“自然語言處理( Natural Language Processing,NLP)包含所有用計算機對自然語言進行的操作,從最簡單的通過計詞彙出現的頻率來比較不同的寫作風格到最複雜的完全“理解”人所說的話,或至少達到能對人的話語作出有效反應的程度,NLP的技術應用日益廣泛。例如:手機和手持電腦對輸入法聯想提示和手寫識別的支援:網路搜尋引擎能搜尋到非結構化文字中的資訊:機器翻譯能把中文文字翻譯成西班牙文。在應用領域,包括從事人機互動、商業資訊分析、Web軟體開發。
教程基於 Python程式語言及名為自然語言工具包( Natural Language ToolkitNLTK)的開源庫。