自然語言處理工具fastText快速入門1.1介紹-簡介

當今互聯的世界中會產生大量的文字資料。該文字資訊包括對事物的描述。比如人們在亞馬遜評論產品,或者通過部落格撰寫想法。自然語言處理(NLP
Natural Language Processing)是應用機器學習和其他計算技術來理解和表示口頭及書面文字。以下是NLP的關注點:

主題建模:用於確定隱藏結構或存在於文件集合中的“抽象主題”。 主題建模 的有效應用是總結。例如法律檔案複雜和冗長,系統將幫助讀者獲得文件的要點和事情的概括描述。
### 參考資料
- 討論qq群144081101 591302926 567351477
- [本文最新版本地址](https://china-testing.github.io/python_opencv3_exmaple1.html)
- [本文涉及的python測試開發庫](https://github.com/china-testing/python-api-tesing) 謝謝點贊!
- [本文相關海量書籍下載](https://github.com/china-testing/python-api-tesing/blob/master/books.md)
句子分類:分類為不同的標籤。例如系統應該能夠正確地將“Shahrukh Khan在迪拜事件中著火”歸類為“娛樂”,另一句話“火災爆發在商店對面的Breach糖果醫院”進行分類為“新聞”。
機器翻譯:世界上語言至少有3000種。大約有一半的使用者少於10,000,大約25%的使用者少於1,000。目前最好的翻譯系統是谷歌翻譯,但它只涵蓋了100多種語言,所以需要開發機器學習翻譯模型。
問答 (QA) 系統:根據人們在自然語言中的問題自動回答問題。圍繞封閉的域系統構建的QA系統非常準確,因為它們可以檢索與搜尋相關的文件和文字。
情感分析:理解使用者在談論某事時的需求和意圖。人們經常感情用事。
事件提取:以文字形式儲存大量資料。例如一些法律文字可能描述了“犯罪”事件,其後是“調查”事件,其後是多個“聽證”事件。事件本身可以巢狀,使得“聽證”事件可以包括“呈現引數”事件和“呈現證據”事件。
命名實體檢測:根據某些預定義的類別提取分類實體或特定資訊,如人,組織,地理等。例如文字:“我們習慣湖南的辣味”,我們可以理解“買家”喜歡“辣味且地點有可能在湖南。如果從湖南的買家那裡收到足夠的證據,更多的這類食品可以在市場上銷售。
關係檢測:解析文字和識別焦點和代理,然後嘗試找到它們之間的關係。例如,句子“邁克有流感”可以轉換為人[關係:有] - >疾病。然後可以在業務環境中探索這些關係,以構建智慧應用程式。

許多先前方法的建模技術面臨的挑戰是NLP需要大量文字資料,並且資料中存在大量的上下文資訊。計算模型很難以有效的方式瞭解所有資料。
目前NLP模型只針主要針對對英語, fastText有可能改變這一切。 fastText團隊已經發布了294種語言的預訓練wor向量