1. 程式人生 > >阿里雲大學:使用自然語言處理進行簡歷篩選 筆記

阿里雲大學:使用自然語言處理進行簡歷篩選 筆記

第一課

自然語言處理介紹

自然語言就是人類日常使用的語言,比如漢語,英語等。

自然語言處理就是機器處理。用計算機處理自然語言。

用途:機器翻譯,情感分析,褒義,貶義;文字相似度匹配;新聞推薦,資訊搜尋;聊天機器人;

第二課 通用技術

分詞,停用詞過濾,刪除無幫助的詞,詞幹提取,詞性還原,詞袋模型,把文字轉化向量的表示,,TF-IDF,詞頻加權計算,改變權重,Word2vect,對映到n維空間

分詞:把連續的文字,分割成語義合理的若干詞彙序列,主要針對中文分詞。分詞方式不唯一;分詞是基礎;

停用詞過濾:回憶語文知識,把句子分為主幹和枝葉,定語,狀語等。主幹不可以去掉,枝葉部分可以刪除,去掉後句子核心意思不會變化。小白兔在雪地奔跑,核心就是兔子奔跑;

停用詞:在文字中大量存在,對語義分析沒有幫助的詞。萬一下雨呢?把停用詞萬一,呢去掉,保留核心的下雨;為啥要過濾掉停用詞,如果不過濾,也沒有關係,但是會造成空間儲存的浪費,保留更多的資訊。

 

第三課 通用技術

詞幹提取,詞性還原,詞袋模型。

 

詞幹提取:對一個單詞去掉字尾,還原本身,用於英文中。例如:play, played, plays, playing,他們是同一個單詞;

詞性還原:對同一個單詞不同形式的識別,把單詞還原為標準形式,用於英語等西方語言;比如is,are, was;

詞幹提取和詞性還原:相同點:都是對同一個單詞不同形式處理。不通點:詞幹提取是去掉單詞字尾;詞性還原是以詞元為依據,根據語義進行分析,獲取單詞標註形式;ate詞幹提取變成at;詞性還原就是eat

 

詞袋模型:把文字表示為數值特徵向量的表示形式。方式為將每個文件構建一個特徵向量,其中包含每個單詞在文件中出現的次數。

每個單詞在對應文件中出現的次數。特徵:第一:文字向量存在大量0,稀疏的,因為很多詞沒有出現;第二不考慮順序,語句結構和語法;

 

課時4 通用技術TFIDF, word2vec;

詞頻-逆文件頻率,針對詞語重要性的一種加權統計方式。核心思想:詞條重要性隨著詞條在當前文件中出現的次數成正比,所有文件中出現的頻率成反比。逆詞頻合理矯正權重;

TF:term frequence,詞頻統計,詞語出現頻率進行次數統計;

TF=單詞出現的次數/當前文件中單詞總數

 

IDF:inverse document frequency, 逆文件頻率;取對數:(語料庫中文件總數/(語料庫中包含該詞的文件數+1))

 

word2vec詞袋模型的替換演算法,谷歌2013年提出的開源演算法,屬於神經網路部分了;把詞對映為n維度空間;神經網路無監督演算法,把近義詞劃分到相同的簇當中;詞條轉為詞向量,通過兩個向量的餘弦相似度計算文字之間的相似性。iw1 = [1,3], w2= [2,1];[email protected]=1*2 + 3*1/開根號的和

 

第五課:

阿里雲機器學習平臺

構建在阿里雲端計算平臺上,集資料處理,建模,離線預測,線上預測為一體的機器學習平臺。封裝了各種成熟演算法,支援tf,caffe,MXNET,提供分散式計算,視覺化操作環境,

一站式體驗服務:

 

第六課

阿里雲學習平臺使用方法:登入官網,註冊使用者,支援淘寶,1688直接登入,選擇資料只能選單,大資料基礎服務,機器學習pai,點選管理控制檯,開通相應服務。建立專案,勾選服務,包年,按照數量,等方式,點選進入機器學習,各種介面,新建實驗,使用自然語言處理進行簡歷篩選,描述:使用阿里雲機器學習平臺進行監理篩選。建立新的目錄。點選建立按鈕,就可以建立新的實驗。進行拖拽組建就可以了。拖拽到中間面板就可以了。

 

要求和簡歷文字進行匹配,匹配度越高越好。點選右鍵,檢視資料,兩個模組連線,右側屬性進行設定,點選右鍵,執行該節點。stop_word

 

第七課

任務介紹

第八課

實驗環節,有時間限制。想重複使用,必須重複交錢。

 

最後點評

 

花費68塊錢,對自然語言基本概念有個瞭解,總共課時2小時,最後有個小實驗,實現簡歷的相似度檢查,求最佳匹配的簡歷。

 

主要兩個檔案,一個是工作崗位的描述,一個是很多求職者的簡歷描述,對這兩個檔案進行相似度匹配,關鍵是拖拽模組進行學習,我還以為是Python程式設計呢,有點失望。最後還可以參加測試,對學習的兩個小時進行檢驗。

測試前要提交身份證照片,然後考試期間全程攝像頭監控,如果你切換頁面搜尋答案,或者其他有可能作弊的行為都會發出警告,總之,考試還是挺嚴格的。考試內容也是挺難的,雖然講課看起來很簡單,但是考試內容很難做。考試題是15道選擇題,有單項選擇和多項選擇。

 

 

68塊買了2小時的課程和一張證書。

 

認識你是我們的緣分,同學,等等,學習人工智慧,記得關注我。

 

 

微信掃一掃
關注該公眾號

《灣區人工智慧》

回覆《人生苦短,我用Python》便可以獲取下面的超高清電子書和程式碼