1. 程式人生 > >中文自然語言處理可能是 NLP 中最難的?

中文自然語言處理可能是 NLP 中最難的?

現如今,在更多情況下,我們通過感測器和位元組來與機器獲得交流,而不是依靠交換情感,那如何讓超級智慧機器能夠和人類正常交流溝通呢?

在人工智慧背景技術下,自然語言處理(NLP)技術被越來越多的人看好,並受到重視。

其中,以微軟小冰為代表的聊天機器人,如今卻成了網紅,迅速刷爆了微信和朋友圈,一個17歲純情少女懂禮貌、有素質和會作詩,眾多網友對她可是情有獨鍾!下面這幅圖是小冰的一個簡介。


那什麼是 NLP?

NLP (NaturalLanguage Processing) 是人工智慧(AI)的一個子領域。自然語言是人類智慧的結晶,自然語言處理是人工智慧中最為困難的問題之一,它是能夠讓人類與智慧機器進行溝通交流的重要技術手段。

因此,自然語言處理的研究也是充滿魅力和挑戰的。

NLP 的主要範疇有哪些?

NLP 作為一種人工智慧方法,能夠處理機器和人類自然語言之間的互動,即 NLP 幫助計算機機器以各種形式使用自然人類語言進行交流,包括進行分析、理解、改變或生成自然語言。主要涉及的範疇如下(維基百科):

中文自動分詞

• 詞性標註

• 句法分析

• 文字分類

• 資訊抽取

• 知識圖譜

• 問答系統和自動聊天機器人

• 機器翻譯

• 自動摘要

為什麼要學 NLP?

人工智慧的發展勢不可擋,不可否認,當前從事網際網路的人們已經制造出了海量的資料,未來還將繼續持續,其中包括結構化資料、半結構化和非結構化資料。

筆者發現,對於結構化資料而言,在大資料、雲端計算技術“上下齊心”的大力整合下,其技術基本趨向成熟和穩定,而半結構化、非結構化的資料,因其自身的複雜性,在當前和未來更多領域應用都具有很大的困難和挑戰。


而當前市場對於 NLP 技術人才的需求又非常急切,而且這種狀態將持續5-10年,大部分企業需要懂 NLP 技術的人來處理海量非結構資料。

對於大多數人來說,學完一門技術,最終的目的是找到自己滿意的工作,包括自己感興趣的領域、舒適的環境和高薪。

單純從高薪來看,不僅意味著很多 money,更是來證明自己優秀。下面是 BOSS 直聘上對 NLP 技術人員的待遇需求,可以看到僅僅是NLP開發工程師(當然要懂演算法)薪資在30-60k。


如何入門中文 NLP ?

作為初學者,筆者當初也是走過很多彎路。其中很重要的一點是,我們常常遇到這樣的尷尬。

網上大部分自然語言處理內容都是英文為基礎,大多數人先是學好了英語的處理,回頭來再處理中文,卻發現有很大的不同,這樣不僅讓中文自然語言處理學習者走了彎路,也浪費了大量時間和精力。

中文的處理比英文複雜的多,網上中文相關資料少之又少,國內純中文自然語言處理書籍只有理論方面的,卻在實戰方面比較空缺,這讓中文自然語言處理的學習者感到舉步維艱,很難下筆。

對於這樣的難點,是不是認為中文 NLP 就很難學呢?答案是:非也。相反筆者認為,入門中文 NLP 最快的捷徑就是以小數量的例項,邊學邊實戰。

因此,本場達人課,定位為中文自然語言處理初學者邊學邊實戰的入門級教程,筆者希望從中文實際出發,針對中文語料以小資料量的“簡易版”例項,通過實戰帶大家快速掌握NLP在中文方面開發的基本能力。

課程共19節,目錄如下:

課程目錄

第01課:中文自然語言處理的完整機器處理流程

第02課:簡單好用的中文分詞利器 jieba 和 HanLP

第03課:動手實戰中文文字中的關鍵字提取

第04課:瞭解資料必備的文字視覺化技巧

第05課:面向非結構化資料轉換的詞袋和詞向量模型

第06課:動手實戰基於 ML 的中文短文字分類

第07課:動手實戰基於 ML 的中文短文字聚類

第08課:從自然語言處理角度看 HMM 和 CRF

第09課:一網打盡神經序列模型之 RNN 及其變種 LSTM、GRU

第10課:動手實戰基於 CNN 的電影推薦系統

第11課:動手實戰基於 LSTM 輕鬆生成各種古詩

第12課:完全基於情感詞典的文字情感分析

第13課:動手製作自己的簡易聊天機器人

第14課:基於 HanLP 分詞的命名實體提取

第15課:基於 CRF 的中文命名實體識別模型實現

第16課:知識挖掘與知識圖譜概述

第17課:Neo4j 從入門到構建一個簡單知識圖譜

第18課:中文自然語言處理的應用、現狀和未來

學完本課程我能收穫什麼?

學完本課程,按照課程給出的簡易版案例,你將知道如何快速進行中文語料的處理,包括分詞、關鍵字提取等,並通過資料視覺化手段熟悉和了解你的資料。緊接著通過詞袋或者詞向量,把文字資料轉換成計算機可以計算的矩陣向量。

後續從機器學習簡單的有監督分類和無監督聚類入手,到機器情感分析、深度學習神經網路的應用,以及掌握簡易聊天機器人和知識圖譜的構建過程。

無論是初入 AI 行業的新人,還是想轉行成為AI領域的技術工程師,本場達人課帶你直觀、高效地瞭解 NLP 開發的流程,全方位提升你的技術實力與思維方式,收穫中文自然語言處理方面的技能和知識。


微信掃碼參與: