資料探勘乾貨總結（一）--NLP基礎

阿新 • • 發佈：2019-02-01

本文共計1463字，預計閱讀時長八分鐘

NLP-基礎和中文分詞

一、本質

NLP (Natural Language Processing)自然語言處理是一門研究計算機處理人類語言的技術

二、NLP用來解決什麼問題

語音合成（Speech synthesis）

語音識別（Speech recognition）

中文分詞（Chinese word segmentation）☆

文字分類（Text categorization）☆

資訊檢索（Information retrieval）

問答系統（Question answering）

機器翻譯（Machine translation）

自動摘要（Automatic summarization）

。。。

三、NLP基礎

1.相似度度量

1)意義

計算個體間相似程度，是機器學習和資料探勘的基礎，作為評判個體間差異的大小

2)度量的方法

空間：歐氏距離

路徑：曼哈頓距離

加權：標準化歐氏距離

編碼差別：漢明距離

集合近似度：傑卡德類似係數與距離

相關：相關係數與相關距離

向量差距：夾角餘弦（最常用的度量方法）

3)相似文字計算的流程

– 找出兩篇文章的關鍵詞；

– 每篇文章各取出若干個關鍵詞，合併成一個集合，計算每篇文章對於這個集合中詞的詞頻；

– 生成兩篇文章各自的詞頻向量；

–

計算兩個向量的餘弦相似度，值越大就表示越相似。

2. TF-IDF詞頻與反文件頻率

1)意義

找出文章中重要性最高的詞，是自動摘要、推薦演算法等技術的基礎

2)概念

僅僅用詞頻TF，並不能表明一個詞的重要性，還要綜合考慮每個詞的權重，因此需要計算IDF。TF*IDF可以有效地表示一個詞對文章的重要性。

3)相似文章計算的流程

– 使用TF-IDF演算法，找出兩篇文章的關鍵詞；

– 每篇文章各取出若干個關鍵詞（比如20個），合併成一個集合，計算每篇文章對於這個集合中的詞的詞頻（為了避免文章長度的差異，可以使用相對詞頻）；

– 生成兩篇文章各自的詞頻向量；

– 計算兩個向量的餘弦相似度

，值越大就表示越相似。

4)生成自動摘要的流程

– 使用TF-IDF演算法，找出文章的關鍵詞；

– 過濾掉停用詞後排序；

– 將文章分成句子/簇；

– 計算每個句子/簇的重要性；

– 將重要性最高的句子/簇組合，生成摘要。

3. LCS最長公共子序列（Longest Common Subsequence）

1)意義

即找出兩個序列中最長的公共子序列，廣泛的應用在圖形相似處理、媒體流的相似比較、計算生物學方面

2)演算法——動態規劃

①如果xm = yn(最後一個字元相同)，則：Xm與Yn的最長公共子序列LCS(Xm,Yn)的最後一個字元必定為xm(=yn)

②如果xm ≠ yn，則LCS(Xm,Yn) = max{LCS(Xm−1,Yn), LCS(Xm, Yn−1)}

③建立一個二維陣列C[m,n]，用C[i,j]記錄序列Xi和Yj的最長公共子序列的長度

④那麼對於兩個序列：X =<A, B, C, B, D, A, B>和Y=<B, D, C, A, B, A>，可以通過如下二維陣列求出LCS的長度

4. 中文分詞☆

1)意義

自然語言處理中，與英文不同，中文詞之間沒有空格。所以為了實現機器對中文資料的處理，多了一項很重要的任務——中文分詞。

2)方法：基於詞典匹配的最大長度查詢（有前向查詢和後向查詢兩種）

資料結構：Trie樹（單詞查詢樹，字典樹），明顯提高查詢效率

3)工具：Jieba分詞(下一篇詳細介紹)

4)概率語言模型：

概率語言模型的任務是：在全切分所得的所有結果中求某個切分方案S，使得P(S)最大。

#STEP1

從統計思想的角度來看，分詞問題的輸入是一個字串C=c1,c2……cn ，輸出是一個詞串S=w1,w2……wm ，其中m<=n。對於一個特定的字串C，會有多個切分方案S對應，分詞的任務就是在這些S中找出一個切分方案S，使得P(S|C)的值最大。

P(S|C)就是由字串C產生切分S的概率，也就是對輸入字串切分出最有可能的詞序列，基於貝葉斯公式可以得到如下推論：

轉換的精髓：

#STEP2

• P(C)只是一個用來歸一化的固定值

• 從詞串恢復到漢字串的概率只有唯一的一種方式，所以P(C|S)=1。

• 所以：比較P(S1|C)和P(S2|C)的大小變成比較P(S1)和P(S2) 的大小

#STEP3

• 為了容易實現，假設每個詞之間的概率是上下文無關的(註釋)

• 最後算 logP(w)，取log是為了防止向下溢位，如果一個數太小，10^-30可能會向下溢位。

• 如果這些對數值事前已經算出來了，則結果直接用加法就可以得到，而加法比乘法速度更快

注：

***N元模型***

在此，需要引入一個N元模型的概念：前後兩詞出現概率並不是相互獨立的，嚴格意義上：

P(w1,w2)= P(w1)P(w2|w1)

P(w1,w2,w3)= P(w1,w2)P(w3|w1,w2)

那麼

P(w1,w2,w3)= P(w1)P(w2|w1)P(w3|w1,w2)

所以

P(S)=P(w1,w2,...,wn)= P(w1)P(w2|w1)P(w3|w1,w2)…P(wn|w1w2…wn-1)

這個式子叫做概率的鏈規則

顯然這個式子不好求解，需要進行簡化：

① 如果簡化成一個詞的出現僅依賴於它前面出現的一個詞，那麼就稱為二元模型(Bigram)

P(S) = P(w1,w2,...,wn)≈P(w1) P(w2|w1)P(w3|w2)…P(wn|wn-1)

② 如果簡化成一個詞的出現僅依賴於它前面出現的兩個詞，就稱之為三元模型(Trigram)。

③ 如果一個詞的出現不依賴於它前面出現的詞，叫做一元模型(Unigram)。

P(S)=P(w1,w2,...,wn)= P(w1)P(w2)P(w3)…P(wn)

以上。

聽說，愛點讚的人運氣都不會太差哦

如果有任何意見和建議，也歡迎在下方留言~

關注這個公眾號，定期會有大資料學習的乾貨推送給你哦~

點選這裡檢視往期精彩內容：

資料探勘乾貨總結（一）--NLP基礎

本文共計1463字，預計閱讀時長八分鐘 NLP-基礎和中文分詞一、本質 NLP (Natural Language Processing)自然語言處理是一門研究計算機處理人類語言的技術二、NLP用來解決什麼問題語音合成（Speech synth

資料探勘乾貨總結（二）--NLP進階-詳解Jieba分詞工具

NLP進階-詳解Jieba分詞工具一、Jieba分詞工具 1. 三種模式 • 精確模式：將句子最精確的分開，適合文字分析 • 全模式：句子中所有可以成詞的詞語都掃描出來，速度快，不能解決歧義 • 搜尋引擎模式：在精確模式基礎上，對長詞再次切分，提高召回 2.實現的演算法 • 基於Tri

資料探勘乾貨總結（六）--推薦演算法之CF

本文共計1245字，預計閱讀時長八分鐘推薦演算法(二）--CF演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容C

資料探勘乾貨總結（五）--推薦演算法之CB

本文共計927字，預計閱讀時長六分鐘推薦演算法(一)--CB演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容Co

Python資料探勘學習筆記（12）淘寶圖片爬蟲實戰

所謂圖片爬蟲，即是從網際網路中自動把對方伺服器上的圖片爬下來的爬蟲程式。一、圖片爬蟲前的網頁連結分析 1.首先開啟淘寶首頁，在搜尋框中輸入關鍵詞，如“神舟”，在搜尋結果介面中點選下一頁，分別開啟第一頁，第二頁，第三頁的搜尋結果，並記下每一頁結果的URL至記

在Talend 的tMap元件中資料型別轉換函式總結（一）

1.1 字串與數值型別相互轉換 1.1.1 字串轉為浮點型、整形 1)Float.parseFloat(row3.working_time ) Float.valueOf(String s) Float.valueOf(int s) 2)Integer.pars

Python資料探勘學習筆記（1）文字挖掘入門

一、準備階段：（1）開啟cmd，pip安裝jieba（pip install jieba）（2）開啟python安裝目錄的Lib->site-packages->jieba，開啟dict.txt，可以看到這是jieba模組的詞典：每

MADlib——基於SQL的資料探勘解決方案（17）——迴歸之Cox比例風險迴歸

一、Cox比例風險迴歸簡介 Cox比例風險迴歸模型（Cox’s proportional hazards regression model），簡稱Cox迴歸模型，由英國統計學家D.R.Cox於1972年提出，主要用於腫瘤和其它慢性病的預後分析，也可用於佇列研究的

資料結構和演算法總結（一）

任何一位有志於駕馭計算機的學生，都應該從這些方面入手，重點是：不斷學習，反覆練習，勤於總結。究竟什麼是演算法呢？所謂演算法，是指基於特定的計算機模型，旨在解決某一問題而設計的一個指令序列。演算法應具有以下流程:輸入與輸出；基本操作即加減乘除；確定性即明確的指令序列，可行性即可在對應計算機

MADlib——基於SQL的資料探勘解決方案（21）——分類之KNN

一、分類方法概要1. 分類的概念資料探勘中分類的目的是學會一個分類函式或分類模型，該模型能把資料庫中的資料項對映到給定類別中的某一個。分類可描述如下：輸入資料，或稱訓練集（Training Set），是由一條條資料庫記錄（Record）組成的。每一條記錄包含

MADlib——基於SQL的資料探勘解決方案（8）——資料探索之描述性統計

對資料進行統計是從定量的角度去探索資料，是最基本的資料探索方式，其主要目的是瞭解資料從統計學上反映的量的特徵，以便我們更好地認識這些將要被挖掘的資料。我們先要清楚兩個關於統計學的基本概念：總體和樣本。統計的總體是人們研究物件的全體，又稱母體，如

MADlib——基於SQL的資料探勘解決方案（26）——聚類之k-means方法

“物以類聚，人以群分”，其核心思想就是聚類。所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析中十分重要的一種手段。比如古典生物學中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界

資料探勘文字分類（七）特徵提取

上一篇我們做完了詞頻統計，下面就該提取文字特徵了。其實詞的頻率就是文字最重要的特徵了，但是我們如果只靠詞的頻率去判斷文字的分類的話，顯然正確率是很低的。當然，文字的特徵提取有很多辦法了，我上這門課程老師著重介紹的是TF-IDF和卡方校驗兩種

資料探勘文字分類（八）訓練和測試

今天來個大結局吧，我們有了chi值或者TF-IDF值以後，就可以拿他們用lib-svm工具進行訓練了。當然我們還要對資料進行一些標準化處理，我們需要將某詞與該詞對應的值作為一個向量處理，這個就是特徵向量了。舉個例子，

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

測試開發工程師面試總結（一）——Java基礎篇

本文面向物件：測試開發工程師（服務端自動化方向）。隨手百度一下都能找到**崗位面試總結，但是有關測開崗位的面試總結卻寥寥無幾。總體原因可能是這兩個：1 測試行業整體水平參差不齊，導致不同公司面試的問題不能抽象出來寫概覽。2 很多做測開的人可能內心對

JAVA SE11環境變數配置（Windows） java.lang.ClassNotFoundException與java.lang.NoClassDefFoundError的區別 JavaSE學習總結（一）——Java基礎

JAVA SE官網下載並執行jdk-11.0.1_windows-x64_bin.exe 配置環境變數示例 path C:\Java JDK;%JAVA_HOME%\bin JAVA_HOME C:\Java JDK CLASSPATH &n

資料結構與演算法分析（一） —— 數學基礎

這段時間，該開始資料結構與演算法分析的學習了。跟以前一樣，學習同時整理成博文是個不錯的學習方式，因此，後面一段時間將對資料結構與演算法分析進行講解學習，希望有興趣的同學一起討論學習。資料結構，即組織大量資料的方法；演算法分析，即演算法執行時間的估計。很多

c++後臺開發面試常見知識點總結（一）c++基礎

指標和引用的區別 extern,const,static,volatile關鍵字 #define 和const的區別關於typedef和#define; C++程式中記憶體使用情況分析（堆和棧的區別） new 與 malloc的異同處，new和delete是如何實現的。 C和C++的區別 C++中的過載，

（一）NLP基礎知識

1、NLTK 一種流行的自然語言處理庫、自帶語料庫、具有分類，分詞等很多功能，國外使用者居多，類似中文的jieba處理庫 2、文字處理流程 3、分詞英文用NLTK，中文用jieba等，比較難處理時候，可能得藉助正則表示式。 4、複雜的詞形處理

資料探勘乾貨總結（一）--NLP基礎

相關推薦