機器學習筆記筆記之三——文字型別處理-詞袋法、TF-IDF理解

阿新 • • 發佈：2018-12-24

在面對文字型特徵時，大致可以分為兩種。

一是列舉型別，比如：男女，小學生初中生高中生大學生……這種型別下類別一般不會超過百種，那麼就可以使用啞編碼（one-hot）來處理。

另一種就是真正意義上的文字，一條評論或是一篇文章。對於這樣的資料，我們介紹兩種方法：

（1）、詞袋法。

什麼是詞袋法？將文本當作一個無序的集合，可以採用文字中的詞條T進行體現，那麼文字中出現的所有詞條以及其出現的次數就可以體現文件的特徵。

即，將文章分成一個個詞語，然後統計各個詞語的次數。

但是這樣做法一般情況下都會造成分出詞語過多，尤其無用詞語過多，例如“是”，“的”，“啊”等無意義的詞語。為了處理一些詞袋法處理的不太好的問題，我們使用TF-IDF法。

（2）、TF-IDT。

TF-IDF如何處理上述問題。

首先，我們有語料庫的概念：以｛文章1：詞條1 : 2個，文章1：詞條2 : 3個｝類似的形式去儲存已有文章和詞條。

然後，我們用語料庫來解決無用詞語的問題：

詞條的重要性隨著 在語料庫中出現頻率的增加

而減少。

比如有個關於動物的各種文章語料庫，“動物”這個詞在所有文章中出現的頻率極高，那麼“動物”這個詞對於我們區分語料庫中的文章有幫助嗎？

並沒有，也就是說 詞條在語料庫中出現的越少，作用才會越大。那麼我們就去計算詞條在語料庫中出現的頻率就可以了。

IDF 就是在計算詞條在語料庫中出現的頻率，具體計算規則如下。

IDF（逆向檔案頻率）：檔案頻率 = 包含該詞的檔案數 / 所有檔案數。逆向檔案頻率 = 所有檔案數 / 包含該詞的檔案數。（IDF只是對檔案頻率取了倒數，原因很簡單，按照上面講的邏輯，檔案頻率與該詞作用成反比，我們想要一個變數和該詞作用成正比，那就取倒數嘍！）

值得一提，有時候為了後面的計算和衡量，還會對IDF取個對數。

那麼TF又是什麼？這個更簡單了，就是詞袋法的核心：該詞條在文字中出現的次數。

所謂的TF-IDF = TF *IDF 。這樣既保證了該詞條在文章中出現次數與該詞作用成正比，又保證了無用詞語不會產生太大影響。

機器學習筆記筆記之三——文字型別處理-詞袋法、TF-IDF理解

在面對文字型特徵時，大致可以分為兩種。一是列舉型別，比如：男女，小學生初中生高中生大學生……這種型別下類別一般不會超過百種，那麼就可以使用啞編碼（one-hot）來處理。另一種就是真正意義上的文字，一條評論或是一篇文章。對於這樣的資

《機器學習實戰》之三——決策樹

花了差不多三天時間，終於把《機器學習實戰》這本書的第三章的決策樹過了一遍，知道了決策樹中ID3的一個具體編法和流程。【一】計算資料資訊熵這段程式碼主要是用於計算資料的每個特徵資訊熵，資訊熵用於描述資料的混亂程度，資訊熵越大說明資料包含的資訊越多，也就是資料的波動越大。而ID3演算

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

1.詞袋模型（Bags of Words）詞袋模型是最基礎的文字表示模型，就是把每一篇文章看成一袋子單詞，並忽略每個此出現的順序。具體就是將整段文字以詞為單位分開，每篇文章可以表示成一個長向量，向量中的每一維代表一個單詞，而該維對應的權重代表這個詞在文章中的重要程度。

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

方法事務家裏分類筆記判斷都是 rom tro 一、決策樹決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代

ElasticSearch學習筆記之三十三 IK分詞器擴充套件字典及text全文型別資料分詞聚合查詢

ElasticSearch學習筆記之三十三 IK分詞器擴充套件字典及text全文型別資料分詞聚合查詢專屬詞彙分詞失敗擴充套件字典檢視當前詞庫自定義詞典更新配置再次檢視分詞 text全文型別資料分詞聚合

Andrew Ng機器學習課程筆記（四）之神經網絡

【機器學習基石筆記】三、不同類型的機器學習

質數一個非監督輸入編號不同象棋按順序 pla 一、不同的output 1、二分類 2、多分類 3、回歸問題 4、structured learn: 從一個句子 -> 句子每個詞的詞性。　　輸出是一個結構化的東西。　　例子：蛋白質數據 ->

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發

CS229機器學習課程筆記---監督學習之線性模型

監督學習首先，我們考慮以下資料集，基於此資料集預測房價。可以畫出如下散點圖：定義符號 m — 訓練集樣本總數 x — 輸入變數/輸入特徵 (例，living area) y — 輸出/目標變數（例，price） { (x(i),y(i)) ；i =

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 18—Photo OCR 應用例項:圖片文字識別

Lecture 18—Photo OCR 應用例項:圖片文字識別 18.1 問題描述和流程圖 Problem Description and Pipeline 影象文字識別需要如下步驟: 1.文字偵測(Text detection)——將圖片上的文字與其他環境物件分離開來2.字元切分(Character

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

Preface Jensen’s Inequality（Jensen不等式） Expectation-Maximization Algorithm（EM演算法） Jensen’s Inequality 對於凸函式令f(x)f(x)為

機器學習演算法筆記之4：貝葉斯分類器

一、貝葉斯分類器詳解貝葉斯分類器是一類分類演算法的總稱，這類演算法均以貝葉斯定理為理論基礎。貝葉斯分類器的分類原理是通過先驗概率，利用貝葉斯公式計算出後驗概率，選擇最大後驗概率所對應的分類結果。貝葉斯準則其中，P(c)是先驗概率，P(x|c)樣本x相對於；類標記c的類

機器學習讀書筆記第三章(1):線性模型

一、基本形式：　　1.在機器學習中，X一般表示m行1列的列向量：　　　對於一個m行n列的X矩陣而言，每一行是一個樣本，每一列是其特徵值。給定d個屬性描述的示例x=(x1;x2;x3;.........xd)，其中xi是在第i個屬性上的取值。線性模型試圖學得一個通過屬性的線性組合來進行函式的預測

glib學習筆記之三——GLib核心應用支援：glib 中 IO Channels 理解

原文連結 GUI系統都是基於事件驅動的，其中必有一個事件迴圈過程來獲取和處理事件。gtk也一樣，gtk的事件迴圈過程是由glib提供的，而iochannel是glib中把IO事件整合到事件的一種手段。 iochannel可以把開發者指定的發生在檔案描述符、管道和socke

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

WebService學習筆記系列之三----通過javax.xml.ws.Service的方式呼叫WebService

在上一篇《WebService學習筆記系列之二----通過wsimport的方式呼叫WebService》文章中講解了通過wsimport的方式呼叫WebService。本文章學習使用javax.xml.ws.Service類來呼叫WebService。下面貼出呼叫

【OpenCV學習筆記】之三：Mat初始建立方法----要求資料連續儲存

int rows=15; // int cols=40; int size=rows*cols; vector<int>Va(size); vector<Vec<int, 8>>Vb(size); vector<Vec4i>V

王小草【機器學習】筆記--無監督演算法之聚類

標籤（空格分隔）：王小草機器學習筆記 1. 聚類的概述存在大量未標註的資料集，即只有特徵，沒有標籤的資料。根據這些特徵資料計算樣本點之間的相似性。根據相似性將資料劃分到多個類別中。使得，同一個類別內的資料相似度大，類別之間的資料相似度小。

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

Preface Marginals and Conditionals of Gaussians（高斯分佈的邊緣分佈與條件分佈） Restrictions of ΣΣ（限制協方差矩陣） Factor Analysis（因子分析模型） EM Alg

Andrew NG機器學習課程筆記系列之——Introduction to Machine Learning

引言本系列文章是本人對Andrew NG的機器學習課程的一些筆記，如有錯誤，請讀者以課程為準。在現實生活中，我們每天都可能在不知不覺中使用了各種各樣的機器學習演算法。例如，當你每一次使用 Google 時，它之所以可以執行良好，其中一個重要原因便是由 Google 實

機器學習筆記筆記之三——文字型別處理-詞袋法、TF-IDF理解

相關推薦