Python文字特徵及分類

阿新 • • 發佈：2019-01-24

1、情感分析

# 簡單的例子
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.classify import NaiveBayesClassifier

text1 = 'I like the movie so much!'
text2 = 'That is a good movie.'
text3 = 'This is a great one.'
text4 = 'That is a really bad movie.'
text5 = 'This is a terrible movie.' 

def proc_text(text):
    """
        預處處理文字
    """
    # 分詞
    raw_words = nltk.word_tokenize(text)    
    # 詞形歸一化
    wordnet_lematizer = WordNetLemmatizer()    
    words = [wordnet_lematizer.lemmatize(raw_word) for raw_word in raw_words]    
    # 去除停用詞
    filtered_words = [word for word in words if 
 word not in stopwords.words('english')]

    # True 表示該詞在文字中，為了使用nltk中的分類器
    return {word: True for word in filtered_words}
# 構造訓練樣本
train_data = [[proc_text(text1), 1],
              [proc_text(text2), 1],
              [proc_text(text3), 1],
              [proc_text(text4), 0],
              [proc_text(text5), 0 
]]
print(train_data)
# 訓練模型
nb_model = NaiveBayesClassifier.train(train_data)

# 測試模型
text6 = 'That is a not bad one.'
print(nb_model.classify(proc_text(text6)))

2、文字相似度

import nltk
from nltk import FreqDist
text1 = 'I like the movie so much '
text2 = 'That is a good movie '
text3 = 'This is a great one '
text4 = 'That is a really bad movie '
text5 = 'This is a terrible movie'
text = text1 + text2 + text3 + text4 + text5
words = nltk.word_tokenize(text)
freq_dist = FreqDist(words)
print(freq_dist['That'])
print(freq_dist)
# 取出常用的n=5個單詞
n = 5
# 構造“常用單詞列表”
most_common_words = freq_dist.most_common(n)
print(most_common_words)
def lookup_pos(most_common_words):
    """
        查詢常用單詞的位置
    """
    result = {}
    pos = 0
    for word in most_common_words:
        result[word[0]] = pos
        pos += 1
    return result
# 記錄位置
std_pos_dict = lookup_pos(most_common_words)
print(std_pos_dict)
# 新文字
new_text = 'That one is a good movie. This is so good!'
# 初始化向量
freq_vec = [0] * n
# 分詞
new_words = nltk.word_tokenize(new_text)
# 在“常用單詞列表”上計算詞頻
for new_word in new_words:
    if new_word in list(std_pos_dict.keys()):
        freq_vec[std_pos_dict[new_word]] += 1
print(freq_vec)
new_text = 'That one is a good movie.'

3、文字分類及TF-IDF

# 3.1 NLTK中的TF-IDF
from nltk.text import TextCollection

text1 = 'I like the movie so much '
text2 = 'That is a good movie '
text3 = 'This is a great one '
text4 = 'That is a really bad movie '
text5 = 'This is a terrible movie'

# 構建TextCollection物件
tc = TextCollection([text1, text2, text3, 
                        text4, text5])
new_text = 'That one is a good movie. This is so good!'
word = 'That'
tf_idf_val = tc.tf_idf(word, new_text)
print('{}的TF-IDF值為：{}'.format(word, tf_idf_val))

# 3.2 sklearn中的TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
feat = vectorizer.fit_transform([text1, text2, text3, text4, text5])
print(feat.toarray())
print(vectorizer.get_feature_names())
print(feat_array = feat.toarray())
print(feat_array.shape)
print(feat_array[0:2, :])

# 3.2 3.3 中文TF-IDF
import os
import re
import jieba.posseg as pseg

ch_text1 = ' 非常失望，劇本完全敷衍了事，主線劇情沒突破大家可以理解，可所有的人物都缺乏動機，正邪之間、婦聯內部都沒什麼火花。團結-分裂-團結的三段式雖然老套但其實也可以利用積攢下來的形象魅力搞出意思，但劇本寫得非常膚淺、平面。場面上排程混亂呆板，滿屏的鐵甲審美疲勞。只有笑點算得上差強人意。'
ch_text2 = ' 2015年度最失望作品。以為面面俱到，實則畫蛇添足；以為主題深刻，實則老調重彈；以為推陳出新，實則俗不可耐；以為場面很high，實則high勁不足。氣！上一集的趣味全無，這集的笑點明顯刻意到心虛。全片沒有任何片段給我有緊張激動的時候，太弱了，跟奧創一樣。'
ch_text3 = ' 《鐵人2》中勾引鋼鐵俠，《婦聯1》中勾引鷹眼，《美隊2》中勾引美國隊長，在《婦聯2》中終於……跟綠巨人表白了，黑寡婦用實際行動告訴了我們什麼叫忠貞不二；而且為了治療不孕不育連作戰武器都變成了兩支驗孕棒(堅決相信快銀沒有死，後面還得回來)'
ch_text4 = ' 雖然從頭打到尾，但是真的很無聊啊。'
ch_text5 = ' 劇情不如第一集好玩了，全靠密集笑點在提神。僧多粥少的直接後果就是每部寡姐都要換著隊友談戀愛，這特麼比打鬥還辛苦啊，真心求放過～～～（結尾彩蛋還以為是洛基呢，結果我呸！）'
ch_texts = [ch_text1, ch_text2, ch_text3, ch_text4, ch_text5]
# 載入停用詞表
stop_words_path = './stop_words/'
stopwords1 = [line.rstrip() for line in open(os.path.join(stop_words_path, '中文停用詞庫.txt'), 'r',encoding='utf-8')]
stopwords2 = [line.rstrip() for line in open(os.path.join(stop_words_path, '哈工大停用詞表.txt'), 'r',encoding='utf-8')]
stopwords3 = [line.rstrip() for line in
open(os.path.join(stop_words_path, '四川大學機器智慧實驗室停用詞庫.txt'), 'r', encoding='utf-8')]
stopwords = stopwords1 + stopwords2 + stopwords3
print(len(stopwords))

def proc_text(raw_line):
    """
        處理文字資料
        返回分詞結果
    """
    # 1. 使用正則表示式去除非中文字元
    filter_pattern = re.compile('[^\u4E00-\u9FD5]+')
    chinese_only = filter_pattern.sub('', raw_line)
    # 2. 結巴分詞+詞性標註
    word_list = pseg.cut(chinese_only)
    # 3. 去除停用詞，保留有意義的詞性
    # 動詞，形容詞，副詞
    used_flags = ['v', 'a', 'ad']
    meaninful_words = []
    for word, flag in word_list:
        if (word not in stopwords) and (flag in used_flags):
            meaninful_words.append(word)
    return ' '.join(meaninful_words)
corpus = [proc_text(ch_text) for ch_text in ch_texts]
print(corpus)
ch_vectorizer = TfidfVectorizer()
ch_feats = ch_vectorizer.fit_transform(corpus)
print(ch_vectorizer.get_feature_names())
print(ch_feats.toarray()[0, :])

Python文字特徵及分類

1、情感分析 # 簡單的例子 import nltk from nltk.stem import WordNetLemmatizer from nltk.corpus import stopwords from nltk.classify import Nai

python 引數傳遞及分類

在我們有不定數目的或者額外集合的關鍵字的情況中,引數被放入一個字典中,字典中鍵為參數名,值為相應的引數值。為什麼一定要是字典呢?因為為每個引數-引數的名字和引數值--都是成對給出---用字典來儲存這些引數自然就最適合不過了。 >>> def add_person(ssn,su

利用Matlab生成文字格式的影象目錄及分類標籤

話不多說，直接上程式碼，有問題請留言 clc;clear;close; %% 生成txt格式的影象分類標籤 path='D:\人工智慧\影象識別資料\'; folders=dir(path);% dir是direcory的縮寫，是目錄的意思，返回的folders是結構體，包

Python爬蟲-0：爬蟲的概念及分類

目錄 1. 為什麼要爬蟲? 2. 什麼是爬蟲？ 3. 爬蟲如何抓取網頁資料？ 4. Python爬蟲的優勢？ 5. 學習路線 6. 爬蟲的分類 6.1 通用爬蟲: 6.2 聚焦爬蟲： 1. 為什麼要爬蟲? “大資料時代”，資料獲取的方式：

用Python開始機器學習（5：文字特徵抽取與向量化）

假設我們剛看完諾蘭的大片《星際穿越》，設想如何讓機器來自動分析各位觀眾對電影的評價到底是“贊”（positive）還是“踩”（negative）呢？這類問題就屬於情感分析問題。這類問題處理的第一步，就是將文字轉換為特徵。因此，這章我們只學習第一步，如何從文字中抽取特徵，並將其向量化。由於中文的處理涉及

Python 面向物件程式設計的一些特徵及單例模式的實現

一.面向物件程式設計幾個特徵(封裝, 繼承,多型) 1.封裝:類裡面封裝函式和變數, 在將類進行例項化成例項物件時進行傳參, 從而生成不同的例項物件,增加程式碼的複用. 2.繼承:子類可以繼承父類的方法和屬性. 3.多型建立在繼承的基礎之上, 先有繼承才能有多型, 指子類繼承父類後分別重寫覆蓋了父類

基於sklearn的文字特徵提取與分類

文章開的比較久但內容沒怎麼寫，不好意思！題目是80萬條簡訊作為訓練資料，10%的垃圾簡訊(label = 1)，90%正常簡訊(label = 0),然後在20萬條資料作為測試物件，找出垃圾簡訊與正常簡訊。我最終的評分是0.985，相對於第一0.997還是有很大差距，排

Python機器學習及實踐——基礎篇7（分類整合模型）

常言道：“一個籬笆三個樁，一個好漢三個幫”。整合分類模型便是綜合考量多個分類器的預測結果，從而做出決策。只是這種“綜合考量”的方式大體上分為兩種：一種是利用相同的訓練資料同時搭建多個獨立的分類模型，然後通過投票的方式，以少數服從多數的原則作出最終的分類決策。比

Python 文字挖掘：使用機器學習方法進行情感分析（一、特徵提取和選擇）

def create_word_bigram_scores(): posdata = pickle.load(open('D:/code/sentiment_test/pos_review.pkl','r')) negdata = pickle.load(open('D:/code/senti

Python中缺失值分類及Pandas中缺失資料處理函式

一、Python中缺失值分類 Python中有三種缺失值（空值）：形式含義 None Python內建的None值，如建立一個空的列表list=[] NA 在pandas中，將缺失值表示為NA，表示不可用not available，主

NLP中的語言模型及文字特徵提取演算法

本文以基本語言模型為邏輯主線，漫談NLP中兩個核心問題，即文字表示（Text Representation）與文字特徵提取（Feature Engineering）。通過本文你會發現，NLP的一部分經典演算法以及目前的發展都能夠通過文字表示串聯在一起，有個

使用TfidfVectorizer並且不去掉停用詞的條件下，對文字特徵進行量化的樸素貝葉斯分類效能測試

from sklearn.datasets import fetch_20newsgroups news = fetch_20newsgroups() from sklearn.model_selection import train_test_split x_train

用Python開始機器學習（5：文字特徵抽取與向量化） sklearn

http://blog.csdn.net/lsldd/article/details/41520953 假設我們剛看完諾蘭的大片《星際穿越》，設想如何讓機器來自動分析各位觀眾對電影的評價到底是“贊”（positive）還是“踩”（negative）呢？這類問題就屬於情感分析問題。這類問題處理的第一步，就是

python實現LBP方法提取影象紋理特徵實現分類

題目描述這篇博文是數字影象處理的大作業. 題目描述:給定40張不同風格的紋理圖片,大小為512*512,要求將每張圖片分為大小相同的9塊,利用其中的5塊作為訓練集,剩餘的4塊作為測試集,構建適當的模型實現圖片的分類. 圖片如下圖所示: 分析:由於資

機器學習經典分類演算法 —— k-近鄰演算法（附python實現程式碼及資料集）

目錄工作原理 python實現演算法實戰約會物件好感度預測故事背景準備資料：從文字檔案中解析資料分析資料：使用Matplotlib建立散點圖

Python基本數據分類方式

python 數據類型一、內存模型依據變量在內存中的組織分類 Python的類型，就象絕大多數其它語言一樣，能容納一個或多個值。一個能保存單個字面對象的類型我們稱它為原子或標量存儲，那些可容納多個對象的類型，我們稱之為容器存儲。（容器對象有時會在文檔中被稱為復合

linux和windows下安裝python拓展包及requirement.txt安裝類庫

too tor == 引導 -cp mod flask utf addition http://blog.csdn.net/pipisorry/article/details/39902327python拓展包安裝直接安裝拓展包默認路徑：Unix(Linux)默認路徑：/

python輸出格式化及函數format

for 地址 osc tle images %20 混合 array char 總結了一些簡單基本的輸出格式化形式以及函數format函數基本使用形式。字符串格式化代碼：格式描述 %% 百分號標記 %c

python變量及淺復制與深復制

python變量深淺復制一、變量及定義：變量定義：一段存放在內存特定區域的空間，在python中變量名沒有類型，引用的對象有類型之分; 命名規則：字母或下劃線開頭，不能以數字開頭。特殊變量：以單下劃線（_）開頭的變量不能被 from xxx import * 導入;即保護類型只

python中帶*及**參數

python特殊參數 python在定義函數的時候，不僅可以設置普通的形參：如def fun(arr1,arr2=‘我是2號參數‘): #arr1為必傳參數，arr2可以不用，另外還可以傳入兩種特殊的參數:帶*或**的參數。這兩類形式的參數都可以傳入任意數量的實參，它們的不同點主要在於*參數傳入的為一個

Python文字特徵及分類

相關推薦