機器學習 -- 1 特徵抽取

阿新 • • 發佈：2018-12-24

1 概述

使用Scikit-learn提供的特徵抽取API進行特徵的抽取

字典特徵抽取

from sklearn.feature_extraction import DictVectorizer


# 1 例項化DictVectorizer
def dicvec():
    # 例項化:
    # 預設sparse為True打印出sparse矩陣型別用以節約記憶體
    '''
    (0, 1)	1.0
    (0, 3)	100.0
    (1, 0)	1.0
    (1, 3)	60.0
    (2, 2)	1.0
    (2, 3)	30.0
    '''
    # false輸出
    '''
    [[  0.   1.   0. 100.]
    [  1.   0.   0.  60.]
    [  0.   0.   1.  30.]]  
    '''
    dict = DictVectorizer(sparse=False)
    # 呼叫fit_transfom
    data = dict.fit_transform([{'city': '北京', 'temperature': 100},
                        {'city': '上海', 'temperature': 60},
                        {'city': '深圳', 'temperature': 30}])
    # 字典資料抽取
    # 把離散值每一個轉化為多列 有多少種可能取值就有多少列  其值那一列為1 其餘為0
    # 即符合 one-hot 編碼
    # 連續值轉化為 一列 輸入數
    print(dict.get_feature_names())
    print(data)
    return None

if __name__=="__main__":
    dicvec()

文字特徵抽取(漢字使用jieba分詞)

from sklearn.feature_extraction.text import CountVectorizer
import jieba

# CountVectorizer 返回詞頻矩陣
# 對文字進行特徵值化
def CoubtVec():

    cv = CountVectorizer()
    data = cv.fit_transform(["life is short,i like python like","python is the thing for commom people"])
    # 按照字母順序排列單詞
    print(cv.get_feature_names())
    # 1- 統計文章中所有的詞 重複的只看一次
    # 2- 對每篇文章統計每個單詞出現的字數
    # 注意:單個字母不參與統計 預設直接放棄 一個英文字母對文章的分析用處不是很大 所以加以放棄
    # 在文字特徵抽取時沒有sparse=False選項
    # 但是給予sklearn就會有 .toarray()
    print(data.toarray())
    print('*'*50)
    # 對中文預設不支援
    data_zh = cv.fit_transform(["人生苦短,我用python","python太難,我學java"])
    print(cv.get_feature_names())
    # ['python太難', '人生苦短', '我學java', '我用python']
    print(data_zh)
    print("*"*50)

    return None
# 使用jieba分詞
def cutWord(senten):
    # 返回的是詞法生成器
    con = jieba.cut(senten)
    # 返回以空格隔開的字串
    return ' '.join(list(con))

def hanzi():
    # 使用jieba分詞結果:

    seten1 = "今天很殘酷，明天更殘酷，後天很美好，但絕對大部分是死在明天晚上，所以每個人不要放棄今天。"
    seten2 = "我們看到的從很遠星系來的光是在幾百萬年之前發出的，這樣當我們看到宇宙時，我們是在看它的過去。"
    seten3 = "如果只用一種方式瞭解某樣事物，你就不會真正瞭解它。瞭解事物真正含義的祕密取決於如何將其與我們所瞭解的事物相聯絡。"
    con1 = cutWord(seten1)
    con2 = cutWord(seten2)
    con3 = cutWord(seten3)

    cv = CountVectorizer()
    data = cv.fit_transform([con1,con2,con3])
    print(cv.get_feature_names())
    print(data.toarray())

    return None

if __name__ == "__main__":
    CoubtVec()
    hanzi()

– 輸出結果

['一種', '不會', '不要', '之前', '瞭解', '事物', '今天', '光是在', '幾百萬年', '發出', '取決於', '只用', '後天', '含義', '大部分', '如何', '如果', '宇宙', '我們', '所以', '放棄', '方式', '明天', '星系', '晚上', '某樣', '殘酷', '每個', '看到', '真正', '祕密', '絕對', '美好', '聯絡', '過去', '這樣']
[[0 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 0]
 [0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 1]
 [1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0]]

tf idf
tf: term frequency :詞頻
idf inverse document frquency :逆文件頻率
公式: log(總文件/該詞出現的文件數量)
重要性程度: tf * idf
TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的概率高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。
TF-IDF作用：用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度

類：sklearn.feature_extraction.text.TfidfVectorizer

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

# 使用jieba分詞
def cutWord(senten):
    # 返回的是詞法生成器
    con = jieba.cut(senten)
    # 返回以空格隔開的字串
    return ' '.join(list(con))

def tf_idfhanzi():
    seten1 = "今天很殘酷，明天更殘酷，後天很美好，但絕對大部分是死在明天晚上，所以每個人不要放棄今天。"
    seten2 = "我們看到的從很遠星系來的光是在幾百萬年之前發出的，這樣當我們看到宇宙時，我們是在看它的過去。"
    seten3 = "如果只用一種方式瞭解某樣事物，你就不會真正瞭解它。瞭解事物真正含義的祕密取決於如何將其與我們所瞭解的事物相聯絡。"
    con1 = cutWord(seten1)
    con2 = cutWord(seten2)
    con3 = cutWord(seten3)
    tf = TfidfVectorizer()
    data = tf.fit_transform([con1,con2,con3])
    print(tf.get_feature_names())
    print(data.toarray())
    return None

if __name__ =="__main__":
    tf_idfhanzi()

輸出重要性矩陣

['一種', '不會', '不要', '之前', '瞭解', '事物', '今天', '光是在', '幾百萬年', '發出', '取決於', '只用', '後天', '含義', '大部分', '如何', '如果', '宇宙', '我們', '所以', '放棄', '方式', '明天', '星系', '晚上', '某樣', '殘酷', '每個', '看到', '真正', '祕密', '絕對', '美好', '聯絡', '過去', '這樣']
[[0.         0.         0.21821789 0.         0.         0.
  0.43643578 0.         0.         0.         0.         0.
  0.21821789 0.         0.21821789 0.         0.         0.
  0.         0.21821789 0.21821789 0.         0.43643578 0.
  0.21821789 0.         0.43643578 0.21821789 0.         0.
  0.         0.21821789 0.21821789 0.         0.         0.        ]
 [0.         0.         0.         0.2410822  0.         0.
  0.         0.2410822  0.2410822  0.2410822  0.         0.
  0.         0.         0.         0.         0.         0.2410822
  0.55004769 0.         0.         0.         0.         0.2410822
  0.         0.         0.         0.         0.48216441 0.
  0.         0.         0.         0.         0.2410822  0.2410822 ]
 [0.15698297 0.15698297 0.         0.         0.62793188 0.47094891
  0.         0.         0.         0.         0.15698297 0.15698297
  0.         0.15698297 0.         0.15698297 0.15698297 0.
  0.1193896  0.         0.         0.15698297 0.         0.
  0.         0.15698297 0.         0.         0.         0.31396594
  0.15698297 0.         0.         0.15698297 0.         0.        ]]

機器學習 -- 1 特徵抽取

1 概述使用Scikit-learn提供的特徵抽取API進行特徵的抽取字典特徵抽取 from sklearn.feature_extraction import DictVectorizer # 1 例項化DictVectorizer def dicvec(

機器學習特徵值特徵抽取

根據文字的的特徵值，進行特徵值的抽取 from sklearn.feature_extraction import DictVectorizer from sklearn.feature_extraction.text import CountVectorizer def coun

機器學習1《特征抽取，歸一化與標準化》

成了平方根穩定性人生返回值放棄 array 目的 extract 機器學習的數據來源：　　1.大多以文件的形式儲存，csv 等。　　2. 為什麽不用數據庫呢，因為會有瓶頸，可能30m 以上就不行了。　　3. 數據格式不匹配，數據庫格式是json，

機器學習1：數據預處理

出了替代線性復雜邊際大數據關系虛擬引入分類 1、缺失值處理首先根據df.info( )可查看各列非空值個數；df.isnull( ).sum( )可查看數據框各列缺失值個數 >>>import pandas as pd >>

Python機器學習(1)：KMeans聚類

ima mea arr src ont array imp rom open Python進行KMeans聚類是比較簡單的，首先需要import numpy，從sklearn.cluster中import KMeans模塊： import numpy as np f

機器學習1-關於回歸問題的準確性評價

均方誤差定性完美 absolute post div red ria var 網址https://book.douban.com/reading/46607817/ 建立回歸器後，需要建立評價回歸器擬合效果的指標模型。平均誤差(mean absolute error)

麥子學院學習視頻之機器學習(1):1.1 機器學習介紹

社會學家學生策略能夠預測輸入 min 外部程序歸納今天開始學習機器學習，在網上找了很多視頻還有書籍。由於本人不是計算機專業的學生，基礎知識還是比較薄弱，但我非常想學習機器學習以及深度學習。最後還是選擇了麥子學院的彭亮老師的《機器學習基礎介紹》（以

機器學習筆記——特徵選擇

常見的特徵選擇方法大致可分為三類：過濾式：過濾式方法先對資料集進行特徵選擇，然後再訓練學習器，特徵選擇過程與後續學習器無關。這相當於先用特徵選擇過程對初始特徵進行“過濾”，再用過濾後的特徵來訓練模型。包裹式：包裹式特徵選擇直接把最終將要使用的學習器的效能作為特徵子集的評價標準。換言之，包

機器學習-文字特徵值抽取，中文分詞

在文字特徵值抽取過程中，將用到jieba分詞特點支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析；全模式，把句子中所有的可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義。搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高

機器學習1-基礎知識

機器學習1-基礎知識小書匠演算法工程師機器學習《機器學習》第2章-模型評估與選擇《統計學習方法》第1章-統計學習方法概論 1. 機器學習三要素

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

機器學習-1（基礎概念介紹）

首先我們要明白一點，什麼是機器學習？我現在的理解就是資料，以及資料背後能夠被我們挖掘的含義。我們能利用這些資料去做些什麼機器學習的主要任務就是分類為了測試機器學習演算法的效果，通常使用兩套獨立的樣本集：訓練資料和測試資料當機器學

機器學習1---模型基礎知識

1. 誤差：在機器學習中演算法的預測輸出與實際輸出之間的差異，包含經驗誤差和泛化誤差。 2. 經驗誤差：學習演算法在訓練集上的誤差，也稱為訓練誤差。 3. 泛化誤差：學習演算法在新樣本集上的誤差，優秀的學習演算法都具有泛化誤差較小的特點。泛化誤差一定程度上可以被拆解為

機器學習——資料特徵預處理

歸一化以及標準化歸一化特定:通過對原始資料進行變換把資料對映到(預設為[0,1])之間公式:X'=(x-min)/(max-min) X''=X'*(mx-mi)+mi 注意:作用於每一列，max為一列的最大值，min為一列的最小值，那麼X''為最終結果，mx，mi分別為指定區

機器學習1-概述

機器學習包含監督學習、非監督學習、以及強化學習三大部分。監督學習分為分類和迴歸兩大類。分類：例如經過大量水果圖片訓練，識別新水果圖片中是否含有蘋果迴歸：例如經過大量面積-房價的資料的訓練，預測某個面積的房價迴歸分析中，又依據描述自變數與因變數之間因果關係的函式表示式是線

機器學習---1.聚類演算法綱領總結

近期定了研究生畢設的課題，有種一錘定兩年的趕腳。心裡還是有點方，只好天天催眠自己現在的選擇就是最好的選擇。其中一塊應該會用到聚類演算法，這就需要我對各種種類的適用條件、引數摸清楚了，到時候再選出效果最好的聚類方式。

機器學習1：梯度下降（Gradient Descent）

分別求解損失函式L(w,b)對w和b的偏導數，對於w，當偏導數絕對值較大時，w取值移動較大，反之較小，通過不斷迭代，在偏導數絕對值接近於0時，移動值也趨近於0，相應的最小值被找到。 η選取一個常數引數，前面的負號表示偏導數為負數時（即梯度下降時），w向增大的地方移動。對於非單調函式，

機器學習-特徵值的抽取

特徵值化為了計算機更好的理解資料 # 匯入包 from sklearn.feature_extraction.text import CountVectorizer # 例項化CountVectori

機器學習-字典資料抽取

字典資料抽取 from sklearn.feature_extraction import DictVectorizer def dictverc(): """ 字典資料抽取

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

特徵選擇之最小冗餘最大相關性(mRMR) 最小冗餘最大相關性(mRMR)是一種濾波式的特徵選擇方法，由Peng et.al提出。主要用途有機器學習，影象識別等。一種常用的特徵選擇方法是最大化特徵與分類變數之間的相關度，就是選擇與分類變數擁有最高相關度的前k個變數。但是，在特徵選擇中，

機器學習 -- 1 特徵抽取

1 概述

相關推薦