1. 程式人生 > >機器學習特徵值特徵抽取

機器學習特徵值特徵抽取

根據文字的的特徵值,進行特徵值的抽取

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer

def countvec():
    """
    對文字進行特徵值化
    """
    cv = CountVectorizer()
    # 把資料返回給data
    data = cv.fit_transform(["life is short,i like python","life is too long,i dislike python"])
    
    # 列印data的值
    print("列印data的值:")
    print(data)
    
    # 統計所有文章中點給錢所有的詞,重複只看做一次
    print(cv.get_feature_names())
    
    
    # 對每篇文章,在詞的列表裡面進行統計每個詞出現的次數,單個字母不進行統計
    print("將資料轉換成陣列形式:")
    print(data.toarray())
    
    
    return None


if __name__ == "__main__":
    countvec()

在這裡插入圖片描述