機器學習-2.特徵工程和文字特徵提取

阿新 • • 發佈：2018-12-14

1. 資料集的組成

前面講了，機器學習是從歷史資料當中獲得規律，那這些歷史資料的組成是個什麼格式？大都儲存在哪裡？
– 在機器學習裡大多數資料不會存在資料庫中，大都存在檔案中（比如csv檔案）
– 不存在資料庫原因：1. 讀取速度導致存在效能瓶頸。2. 儲存的格式不太符合機器學習要求的資料格式。3. 由於我們有pandas，讀取檔案資料及處理速度非常快。
– pandas為什麼快？1. 基於numpy，numpy非常快，因為numpy釋放了GIL鎖，它是真正的多執行緒。
可用的資料集

– kaggle網址：https://www.kaggle.com/datasets

– UCI資料集網址：http://archive.ics.uci.edu/ml/
– scikit-learn網址：https://scikit-learn.org/stable/datasets/index.html#datasets
常用資料集資料的結構組成
– 結構：特徵值+目標值
– 舉例：pandas裡的dataFrame由行列索引，其中列索引一般作為特徵值資料，依據這些資料進行分析判斷得出目標值。比如：根據人的身高，體重，膚色，頭髮長度等分析這個人的性別。其中性別作為目標值。

2. 特徵工程定義

在這裡插入圖片描述

定義：特徵工程是將原始資料轉換為更好地代表預測模型的潛在問題的特徵的過程，從而提高對未知資料預測的準確性。

意義：它會直接影響預測的結果。
Scikit-learn工具介紹
– python語言的機器學習工具
– 包含很多機器學習演算法的實現，文件完善，容易上手，豐富的API，在學術界頗受歡迎。
– 安裝：pip install Scikit-learn，需要提前安裝Numpy和pandas庫。
– 匯入：import sklearn

3. 特徵抽取

特徵抽取就是對文字等資料進行特徵值化，特徵值化是為了計算機更好的去理解資料。
sklearn特徵抽取api：sklearn.feature_extraction

(1). 字典特徵抽取

字典特徵抽取：對字典資料進行特徵值化，api：sklearn.feature_extraction.DictVectorizer

抽取示例：

from sklearn.feature_extraction import DictVectorizer


def dictvec():
    """
    字典特徵抽取示例
    1. 準備資料
    2. 例項化sklearn字典特徵抽取類
    3. 呼叫fit_transform方法進行轉換
    4. 輸出特徵名稱
    5. 輸出轉換後的資料檢視效果
    :return: None
    """

    datalist = [{'city':'北京','temperature':20}, {'city':'上海','temperature':30}, {'city':'深圳','temperature':40}]  # 準備資料
    dictvec = DictVectorizer(sparse=False)  # 例項化, 預設輸出sparse矩陣格式,加上sparse=False後輸出正常矩陣格式。
    data = dictvec.fit_transform(datalist)  # 轉化資料，字典特徵抽取
    print(dictvec.get_feature_names())
    print(data)
 	# print(dictvec.inverse_transform(data)) # 將轉化的資料反轉成原來的狀態，即datalist
    return None


if __name__ == '__main__':
    dictvec()

– sparse矩陣格式：
在這裡插入圖片描述
– 加入sparse=False引數後輸出矩陣格式（numpy中的ndarray 二維陣列）：

由以上示例看出，數值型的資料並沒有被轉換，因為數值型本身適合進行處理。
那麼輸出的轉換資料[[0. 1. 0. 20.][1. 0. 0. 30.][0. 0. 1. 40.]]，如何得來，這裡涉及到one-hot編碼。
one-hot編碼分析：
– 假設要提取特徵，把city分類，加入北京為1，上海為2，深圳為3，那麼123之間會不會存在優先順序之說，起碼在含義上是有歧義的，容易誤解，為了更加公平所以發明了one-hot編碼。看下圖：

上圖可以看到，有7個樣本，假設第一個樣本屬於人型別，則human這一列標記為1，其餘為0，依次類推即為一個熱編碼。

(2). 文字特徵抽取

第一種方式-CountVectorizer

文字特徵抽取就是對文字資料進行特徵值化
api：sklearn.feature_extraction.text.CountVectorizer
示例：

from sklearn.feature_extraction.text import CountVectorizer

def countvec():
    '''
    文字特徵值抽取示例
    1. 準備資料
    2. 例項化sklearn文字特徵抽取類
    3. 呼叫fit_transform方法轉換
    4. 輸出特徵名稱
    5. 輸出轉換後的資料
    :return: None
    '''
    textlist = ["life is short,i like python", "life is too long,i dislike python"]
    cv = CountVectorizer()
    data = cv.fit_transform(textlist)
    print(cv.get_feature_names())
    print(data.toarray())  # 和字典特徵抽取不同，沒有sparse矩陣設定的引數，因此需要手動toarray()轉換為正常陣列形式
    return None


if __name__ == '__main__':
    countvec()

– 輸出如下圖：
在這裡插入圖片描述
由輸出結果可以看出：

統計了所有文章當中所有的詞，重複的只做一次
對每篇文章，在詞的列表裡面進行統計每個詞出現的次數
單個字母不統計。

對中文的處理
預設sklearn不支援對中文分詞處理。需要引入jieba，pip install jieba，然後import jieba,之後jieba.cut(“我是一個程式設計師”)會返回詞語生成器。
示例：

from sklearn.feature_extraction.text import CountVectorizer
import jieba

def cutword():
    '''
    jieba對中文段落進行分詞
    :return: c1,c2
    '''
    con1 = jieba.cut("生活苦短，我喜歡python")
    con2 = jieba.cut("人生漫長,我不用python")

    # 轉換成列表
    content1 = list(con1)
    content2 = list(con2)

    # 把列表轉換為字串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)

    return c1,c2

def countvec():
    '''
    文字特徵值抽取示例
    1. 獲取jieba分詞後的字串
    2. 例項化sklearn文字特徵抽取類
    3. 呼叫fit_transform方法轉換
    4. 輸出特徵名稱
    5. 輸出轉換後的資料
    :return: None
    '''
    c1,c2 = cutword()
    cv = CountVectorizer()
    data = cv.fit_transform([c1,c2])
    print(cv.get_feature_names())
    print(data.toarray())  # 和字典特徵抽取不同，沒有sparse矩陣設定的引數，因此需要手動toarray()轉換為正常陣列形式
    return None


if __name__ == '__main__':
    countvec()

– 輸出如下圖：
在這裡插入圖片描述

第二種方式-TF-IDF（term frequency–inverse document frequency）

TF意思是詞頻(Term Frequency)，IDF意思是逆文字頻率指數(Inverse Document Frequency)。
主要思想：如果某個詞或短語在一篇文章中出現的概率高，並且在其他文章中很少出現，則認為該詞或者短語具有很好的類別區分能力，適合用來分類。
作用：用以評估一個詞對於一個檔案集或一個語料庫中的其中一份檔案的重要性。
IDF公式：log(總文件數量/該詞出現的文件數量)
TF*IDF即為重要性指標
API：sklearn.feature_extraction.text.TfidfVectorizer
示例：

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def cutword():
    '''
    jieba對中文段落進行分詞
    :return: c1,c2
    '''
    con1 = jieba.cut("生活苦短，我喜歡python")
    con2 = jieba.cut("人生漫長,我不用python")

    # 轉換成列表
    content1 = list(con1)
    content2 = list(con2)

    # 把列表轉換為字串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)

    return c1,c2

def tfidfvec():
    '''
    文字特徵值抽取示例
    1. 獲取jieba分詞後的字串
    2. 例項化sklearn文字特徵抽取類
    3. 呼叫fit_transform方法轉換
    4. 輸出特徵名稱
    5. 輸出轉換後的資料
    :return: None
    '''
    c1,c2 = cutword()
    tf = TfidfVectorizer()
    data = tf.fit_transform([c1,c2])
    print(tf.get_feature_names())
    print(data.toarray())  # 和字典特徵抽取不同，沒有sparse矩陣設定的引數，因此需要手動toarray()轉換為正常陣列形式
    return None

if __name__ == '__main__':
    tfidfvec()

輸出如下圖：

根據上圖中輸出數字的大小找到重要詞彙，並根據這些詞彙可對文章進行分類，輸出的數字是tf*idf得來的。
針對文字的特徵提取就是以上內容，目前記錄的仍是相對過時的技術，但還是需要理解，為後邊打下基礎。

機器學習-2.特徵工程和文字特徵提取

1. 資料集的組成前面講了，機器學習是從歷史資料當中獲得規律，那這些歷史資料的組成是個什麼格式？大都儲存在哪裡？ – 在機器學習裡大多數資料不會存在資料庫中，大都存在檔案中（比如csv檔案） – 不存在資料庫原因：1. 讀取速度導致存在效能瓶頸。2. 儲存的格式不太符合機器學習

機器學習——特徵工程和文字特徵工程提取

機器學習的資料:檔案csv 可用的資料集: scikit-learn ：資料量小，方便學習 kaggle: 大資料競賽平臺，真實資料，資料量巨大 UCI:收錄了360個數據集，覆蓋科學、生活、經濟等領域，資料量幾十萬常用資料集資料的結構組成

【特徵工程】2 機器學習中的資料清洗與特徵處理綜述

背景隨著美團交易規模的逐步增大，積累下來的業務資料和交易資料越來越多，這些資料是美團做為一個團購平臺最寶貴的財富。通過對這些資料的分析和挖掘，不僅能給美團業務發展方向提供決策支援，也為業務的迭代指明瞭方向。目前在美團的團購系統中大量地應用到了機器學習和資料探勘技術，例

特徵工程和模型融合--機器學習--思維導圖和筆記（29）

一、思維導圖（點選圖方法）二、補充筆記（1）常見的特徵工程主要指對各種型別的特徵進行處理，包括數值型特徵、類別型特徵、時間型特徵和其他型別特徵和組合特徵。對於數值型特徵，可以進行幅度調整（包括min-max縮放、標準化、歸一化）、統計值分析（最大值、最小值、平

機器學習2-特徵工程

特徵工程特徵抽取文字特徵提取-CountVectorizer 作用：對文字資料進行特徵值化 sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回詞頻矩陣 CountVect

吳恩達機器學習（第五章）--特徵縮放和學習率

一、特徵縮放 ----(1) 對於我們假設的式子（1），可能存在這樣一種情況就是有些資料遠大於另一些資料（eg:x_1>>x_2) 比如房子價格的例子：房子的面積要遠大於房子的層數和房間數。在這種情況下可以看下圖，所產生的等高線的圈會很窄，在做梯度下降

機器學習 --2 特徵預處理之資料將維

特徵選擇概念特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵，特徵在選擇前和選擇後可以改變值、也不改變值，但是選擇後的特徵維數肯定比選擇前小，畢竟我們只選擇了其中的一部分特徵。方差過濾式 # 按照方差過濾 from sklearn.f

機器學習 --2 特徵預處理之資料標準化

歸一化: API位置 sklearn.preprocessing 歸一化: 特點：通過對原始資料進行變換把資料對映到(預設為[0,1])之間注意也可以通過指定MinMaxScalar 裡邊的feature_range 來指定縮放的範圍示例程式碼

機器學習入門講解：什麼是特徵和特徵選擇

首先我們來看看中文字典裡是怎麼解釋特徵的：一事物異於其他事物的特點。那我們再來看看英文字典裡是怎麼解釋feature的：A feature of something is an interesting or important part or characteristic of it.

機器學習裡資料預處理及特徵工程總結

機器學習裡有一句名言：資料和特徵決定了機器學習的上限，而模型和演算法的應用只是讓我們逼近這個上限。這個說法形象且深刻的提出前期資料處理和特徵分析的重要性。這一點從我們往往用整個資料探勘全流程60%以上的時間和精力去做建模前期的資料處理和特徵分析也能看出。那

機器學習框架ML.NET學習筆記【3】文字特徵分析

一、要解決的問題問題：常常一些單位或組織召開會議時需要錄入會議記錄，我們需要通過機器學習對使用者輸入的文字內容進行自動評判，合格或不合格。（同樣的問題還類似垃圾簡訊檢測、工作日誌質量分析等。）處理思路：我們人工對現有會議記錄進行評判，標記合格或不合格，通過對這些記錄的學習形成模型，學習演算法仍採用二元

[斯坦福大學2014機器學習教程筆記]第四章-特徵和多項式迴歸

通過之前的學習，我們知道多變數的線性迴歸。在這節中，將介紹一些可供選擇的特徵以及如何得到不同的學習演算法。當選擇了合適的特徵後，這些演算法往往是非常有效的。另外還將介紹多項式迴歸。它使得我們能夠使用線性迴歸的方法來擬合非常複雜的函式，甚至是非線性函式。 &

機器視覺、影象處理、機器學習領域相關程式碼和工程專案和資料集集合

SIFT [1] [Demo program][SIFT Library] [VLFeat] PCA-SIFT [2] [Project] Affine-SIFT [3] [Project] SURF [4] [OpenSURF] [Matlab Wrapper] Af

機器學習第十篇——尋找獨立特徵

尋找獨立特徵如何在資料集並未明確標識結果的前提下，從中提取出重要的潛在特徵來，和聚類一樣，這些方法的目的不是為了預測，而是要嘗試對資料進行特徵識別，並且告訴我們值得關注的重要資訊尋找獨立特徵應用： *雞尾酒宴會 ????????????????? *對重複出現於

機器學習系列：（三）特徵提取與處理

第一個SURF描述符： [ 1.15299134e+02 2.56185453e+02 3.51230841e+00 3.32786485e+02 1.00000000e+00 1.75644866e+00 -2.94268692e-03 3.30736379e-03 2

機器學習中的資料清洗與特徵處理綜述

https://tech.meituan.com/machinelearning_data_feature_process.html 機器學習中的資料清洗與特徵處理綜述 caohao ·2015-02-10 11:30 背景隨著美團交易規模的逐步增大，積

【ML--05】第五課如何做特徵工程和特徵選擇

一、如何做特徵工程？ 1.排序特徵：基於7W原始資料，對數值特徵排序，得到1045維排序特徵 2. 離散特徵：將排序特徵區間化（等值區間化、等量區間化），比如採用等量區間化為1-10，得到1045維離散特徵 3. 計數特徵：統計每一行中，離散特徵1-10的

時間序列預測問題中特徵工程和訓練的經驗小結

鑑於影象的語義分析需求已經不再侷限於常規的單幀影象，視訊語義分析的地位日漸重要。初步考慮，幀與幀之間依靠時間維度進行銜接，或許需要適當研究基礎的LSTM與RNN結構。特徵工程/訓練: 許多大資料工程師都認為，預測任務中80%的時間用來做特徵工程，

【方法】機器學習中的資料清洗與特徵處理

來源：http://tech.meituan.com/machinelearning-data-feature-process.html 背景隨著美團交易規模的逐步增大，積累下來的業務資料和交易資料越來越多，這些資料是美團做為一個團購平臺最寶貴的財富。通過對這些資料的

圖解機器學習：神經網路和 TensorFlow 的文字分類

開發人員經常說，如果你想開始機器學習，你應該首先學習演算法。但是我的經驗則不是。我說你應該首先了解：應用程式如何工作。一旦瞭解了這一點，深入探索演算法的內部工作就會變得更加容易。那麼，你如何開發直覺學習，並實現理解機器學習這個目的？一個很好的方法是建立機器學習模型。假設

機器學習-2.特徵工程和文字特徵提取

1. 資料集的組成

2. 特徵工程定義

3. 特徵抽取

(1). 字典特徵抽取

(2). 文字特徵抽取

第一種方式-CountVectorizer

第二種方式-TF-IDF（term frequency–inverse document frequency）

相關推薦