自然語言處理中的詞袋模型

阿新 • • 發佈：2018-12-30

詞袋模型

from sklearn.feature_extraction.text import CountVectorizer
import os
import re
import jieba.posseg as pseg

# 載入停用詞表
stop_words_path = './stop_words/'
stopwords1 = [line.rstrip() for line in open(os.path.join(stop_words_path, '中文停用詞庫.txt'), 'r',encoding='utf-8')]
stopwords2 = [line.rstrip() for 
 line in open(os.path.join(stop_words_path, '哈工大停用詞表.txt'), 'r',encoding='utf-8')]
stopwords3 = [line.rstrip() for line in
              open(os.path.join(stop_words_path, '四川大學機器智慧實驗室停用詞庫.txt'), 'r', encoding='utf-8')]
stopwords = stopwords1 + stopwords2 + stopwords3

def proc_text(raw_line):
    """
        處理文字資料
        返回分詞結果
    """ 


    # 1. 使用正則表示式去除非中文字元
    filter_pattern = re.compile('[^\u4E00-\u9FD5]+')
    chinese_only = filter_pattern.sub('', raw_line)

    # 2. 結巴分詞+詞性標註
    word_list = pseg.cut(chinese_only)

    # 3. 去除停用詞，保留有意義的詞性
    # 動詞，形容詞，副詞
    used_flags = ['v', 'a', 'ad']
    meaninful_words = []
    for word, flag in 
 word_list:
        if (word not in stopwords) and (flag in used_flags):
            meaninful_words.append(word)
    return ' '.join(meaninful_words)
count_vectorizer = CountVectorizer()
print(count_vectorizer)
ch_text1 = ' 非常失望，劇本完全敷衍了事，主線劇情沒突破大家可以理解，可所有的人物都缺乏動機，正邪之間、婦聯內部都沒什麼火花。團結-分裂-團結的三段式雖然老套但其實也可以利用積攢下來的形象魅力搞出意思，但劇本寫得非常膚淺、平面。場面上排程混亂呆板，滿屏的鐵甲審美疲勞。只有笑點算得上差強人意。'
ch_text2 = ' 2015年度最失望作品。以為面面俱到，實則畫蛇添足；以為主題深刻，實則老調重彈；以為推陳出新，實則俗不可耐；以為場面很high，實則high勁不足。氣！上一集的趣味全無，這集的笑點明顯刻意到心虛。全片沒有任何片段給我有緊張激動的時候，太弱了，跟奧創一樣。'
ch_text3 = ' 《鐵人2》中勾引鋼鐵俠，《婦聯1》中勾引鷹眼，《美隊2》中勾引美國隊長，在《婦聯2》中終於……跟綠巨人表白了，黑寡婦用實際行動告訴了我們什麼叫忠貞不二；而且為了治療不孕不育連作戰武器都變成了兩支驗孕棒(堅決相信快銀沒有死，後面還得回來)'
ch_text4 = ' 雖然從頭打到尾，但是真的很無聊啊。'
ch_text5 = ' 劇情不如第一集好玩了，全靠密集笑點在提神。僧多粥少的直接後果就是每部寡姐都要換著隊友談戀愛，這特麼比打鬥還辛苦啊，真心求放過～～～（結尾彩蛋還以為是洛基呢，結果我呸！）'
ch_texts = [ch_text1, ch_text2, ch_text3, ch_text4, ch_text5]
corpus = [proc_text(ch_text) for ch_text in ch_texts]
print(corpus)
X = count_vectorizer.fit_transform(corpus)
print(X)
print(X.toarray())
new_text = '劇情混亂，太失望了'
new_pro_text = proc_text(new_text)
print(new_pro_text)
print(count_vectorizer.transform([new_pro_text]).toarray())

自然語言處理詞向量模型-word2vec

技術分享 alt 自然語言 inf bsp word 學習向量 9.png 自然語言處理與深度學習：語言模型： N-gram模型：自然語言處理詞向量模型-word2vec

自然語言處理-LDA主題模型

一、LDA主題模型簡介 LDA(Latent Dirichlet Allocation)中文翻譯為：潛在狄利克雷分佈。LDA主題模型是一種文件生成模型，是一種非監督機器學習技術。它認為一篇文件是有多個主題的，而每個主題又對應著不同的詞。一篇文件的構造過程，首先是以一定的概率

自然語言處理中CNN模型幾種常見的Max Pooling操作

CNN是目前自然語言處理中和RNN並駕齊驅的兩種最常見的深度學習模型。圖1展示了在NLP任務中使用CNN模型的典型網路結構。一般而言，輸入的字或者詞用Word Embedding的方式表達，這樣本來一維的文字資訊輸入就轉換成了二維的輸入結構，假設輸入X包含m個字元，而每個

自然語言處理神經網路模型入門

主要內容自然語言輸入編碼前饋網路卷積網路迴圈網路(recurrent networks ) 遞迴網路(recursive networks) 自動計算梯度的計算圖抽象（ the computation graph abstraction for aut

自然語言處理中的詞袋模型

詞袋模型 from sklearn.feature_extraction.text import CountVectorizer import os import re import jieba.posseg as pseg # 載入停用詞表 stop_

自然語言處理(NLP) 三：詞袋模型 + 文字分類

1.詞袋模型（BOW,bag of words) 用詞頻矩陣作為每個樣本的特徵 Are you curious about tokenization ? Let’s see how it works! we need to analyze a coupl

【自然語言處理】預測電影影評情感的深度學習詞袋模型

翻譯自外網：https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/ 教程概述： 1.電影評論集 2.資料準備 3.詞包表示法 4.情感分析模型 1.電

自然語言處理——簡單詞袋模型

What Is Natural Language Processing? 本文將學習自然語言處理，當給予計算機一篇文章，它並不知道這篇文章的含義。為了讓計算機可以從文章中做出推斷，我們需要將文章

自然語言處理---用隱馬爾科夫模型（HMM）實現詞性標註---1998年1月份人民日報語料---learn---test---evaluation---Demo---java實現

fileinput 流程 n) 一次 tostring model pen mem rbd 先放上一張Demo的測試圖測試的句子及每個分詞的詞性標註為：目前/t 這/rzv 條/q 高速公路/n 之間/f 的/ude1 路段/n 已/d 緊急/a 封閉/v 。/

自然語言處理--LDA主題聚類模型

src 隨機 pos 一個改變筆記整體應該定性 LDA模型算法簡介：算法的輸入是一個文檔的集合D={d1, d2, d3, ... , dn}，同時還需要聚類的類別數量m；然後會算法會將每一篇文檔 di 在所有Topic上的一個概率值p；這樣每篇

自然語言處理中的語言模型預訓練方法

16px 預測網絡語言緩解 lang 大數一中標準小數自然語言處理中的語言模型預訓練方法最近，在自然語言處理（NLP）領域中，使用語言模型預訓練方法在多項NLP任務上都獲得了不錯的提升，廣泛受到了各界的關註。就此，我將最近看的一些相關論文進行總結，選取了幾

自然語言處理——CBOW模型

CBOW一個用於快速訓練得到詞向量的神經網路模型，它的核心原理是中心詞的前R個詞和後R個詞來預測中心詞。它的網路模型相比NNLM模型來說，最大的變化是直接去除隱層的非線性啟用過程，以此來加速網路的訓練速度。 CBOW的輸入：假設中心詞

[NLP自然語言處理]谷歌BERT模型深度解析

BERT模型程式碼已經發布，可以在我的github: NLP-BERT--Python3.6-pytorch 中下載，請記得start哦目錄一、前言二、如何理解BERT模型三、BERT模型解析論文的核心：詳解BE

斯坦福大學-自然語言處理入門筆記第十一課最大熵模型與判別模型（2）

一、最大熵模型 1、模型介紹基本思想：我們希望資料是均勻分佈的，除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵（high entropy）。所以，最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下，同時熵最高的分佈。熵：表示分佈的不

斯坦福大學-自然語言處理入門筆記第八課最大熵模型與判別模型

一、生成模型與判別模型 1、引言到目前為止，我們使用的是生成模型（generative model)，但是在實際使用中我們也在大量使用判別模型（discriminative model)，主要是因為它有如下的優點：準確性很高更容易包含很多和

斯坦福大學-自然語言處理入門筆記第四課語言模型

一、介紹N-grams 1、概率語言模型對每個句子給出一個概率，用以判斷機器翻譯中哪個句子是最佳的選擇，拼寫校準中哪個句子可能出現錯誤。目標：計算句子或者是一系列單詞的概率

《NLP漢語自然語言處理原理與實踐》第四章 NLP中的概率圖模型

目前最流行的演算法思想包含如下兩大流派：基於概率論和圖論的概率圖模型；基於人工神經網路的深度學習理論。 4.1概率論迴歸 4.1.1 多元概率論的幾個基本概念 4.1.2 貝葉斯與樸素貝葉斯演算法

python 自然語言處理統計語言建模 - （n-gram模型）

N-gram語言模型考慮一個語音識別系統，假設使用者說了這麼一句話：“I have a gun”，因為發音的相似，該語音識別系統發現如下幾句話都是可能的候選：1、I have a gun. 2、I have a gull. 3、I have a gub. 那麼問題來了，到底哪一個是正確答案呢？

自然語言處理之Bag-of-words，TF-IDF模型

轉自：https://blog.csdn.net/m0_37744293/article/details/78881231 Bag-of-words，TF-IDF模型 Bag-of-words model （BoW model）忽略文字的語法和語序，用一組無序的單詞（words）來表達一段文

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

本課概要 1、機器翻譯（MT） 2、帶attention的序列模型 3、序列模型解碼器（decoder）一、機器翻譯（MT）機器翻譯是一個十分經典的語言理解的測試，涉及語言分析（language analysis）與語言生成（language generat

自然語言處理中的詞袋模型

相關推薦