CNN中文垃圾郵件分類（二）

阿新 • • 發佈：2019-01-06

本文整理自唐宇迪老師視訊，謝謝他！

1.思路

在上一篇部落格CNN中文垃圾郵件分類（一）中介紹了兩種預處理方式，現在來介紹第二種，先用分好詞的資料作為訓練語料，選擇前n個詞作為詞表（或者去掉出現頻率較低的詞），然後先訓練出每個詞所代表的詞向量。再根據詞表得到每封郵件中每個詞在詞表中的索引，然後按索引取出向量量堆疊起來。

2. 資料預處理

第一步同之前一樣，先去掉非中文的其它字元，然後分詞

def clean_str(string):
    string.strip('\n')
    string = re.sub(r"[^\u4e00-\u9fff]", " ", string)
    string = re.sub(r"\s{2,}" 
, " ", string)
    return string.strip()


def cut_line(line):
    line = clean_str(line)
    seg_list = jieba.cut(line)
    cut_words = " ".join(seg_list)
    return cut_words


def load_data_and_labels(positive_data_file, negative_data_file):
    positive = []
    negative = []
    for line in open(positive_data_file, encoding='utf-8' 
):
        positive.append(cut_line(line).split())
    for line in open(negative_data_file, encoding='utf-8'):
        negative.append(cut_line(line).split())

    x_text = positive + negative

    positive_label = [[0, 1] for _ in positive]  # 構造one-hot 標籤[[0, 1], [0, 1], [0, 1], [0, 1],....]
    negative_label = [[1 
, 0] for _ in negative]  # 構造one-hot 標籤[[0, 1], [0, 1], [0, 1], [0, 1],....]
    y = np.concatenate([positive_label, negative_label], axis=0)

    return x_text, y

positive_data_file = '../data/ham_100.utf8'
negative_data_file = '../data/ham_100.utf8'
x_text, y = load_data_and_labels(positive_data_file,negative_data_file)
print(x_text)

處理後的結果形式如下:

[['溶血', '幾乎', '可以', '忽略不計', '沒什麼', '關係', '關鍵', '是', '溶血', '不過', '亞洲', '人', '大多數', '都', '是', '因子', '陽性', '所以', '溶血', '的', '概率', '很', '低', '不太', '清楚', '國內', '的', '驗血', '查不查', '因子', '米國', '這邊', '是', '查', '的', '只要', '陽性', '人家', '就', '不會', '管', '你', '是否', '溶血', '呢', '其實', '偶是'],['型', '老公', '是', '型', '按', '血型', '系統', '偶們', '這種', '組合', '是', '很', '容易', '溶血', '的', '但是', '這邊', '醫生', '提都', '沒', '跟', '偶提', '過', '估計', '是', '忽略不計', '的', '從', '網上', '看', '的', '文章', '周', '的', '時候', '去', '醫院', '建卡', '然後', '做', '第一次', '產檢', '周', '的', '時候', '再', '做', '第一次', '超', '是不是', '這樣', '呢']]

按設定的最大句子長度來Padding樣本（長度不夠的用’UNK’來填充）

def padding_sentence(sentences, padding_token='UNK', padding_sentence_length=None):
    max_padding_length = padding_sentence_length if padding_sentence_length is not \
                                                    None else max([len(sentence) for sentence in sentences])
    for i,sentence in enumerate(sentences):
        if len(sentence) < max_padding_length:
            sentence.extend([padding_token] * (max_padding_length - len(sentence)))
        else:
            sentences[i] = sentence[:max_padding_length]
    return sentences, max_padding_length

padded_sentences, max_padding_length = \
    padding_sentence(sentences=x_text, padding_sentence_length=100)
print(padded_sentences)

處理後的結果形式如下:

['浙江', '杭蕭', '鋼構', '股份', '有限公司', '為', '國內', '最大', '的', '鋼結構', '公司', '現在', '北京', '設立', '海外部', '誠徵', '致力於', '此', '的', '有識之士', '共同', '開拓', '海外', '市場', '文祕', '要求', '熟練', '運用', '常用', '辦公', '軟體', '會', '英文', '打字', '及', '日常', '英文', '商業', '信函', '的', '處理', '為', '人', '可靠', '踏實', '專案經理', '要求', '有', '進出口', '貿易', '或', '工程', '方面', '的', '經驗', '熟練', '運用', '英文', '進行', '交流', '對', '事業', '具有', '開拓精神', '對', '專業', '要求', '上', '進', '而', '不僅', '限於', '皮毛', '工作', '地點', '北京', '三環', '以內', '有意者', '請', '將', '簡歷', '電郵', '至', '請', '註明', '應聘', '的', '職位', '或', '致電', 'UNK', 'UNK', 'UNK', 'UNK', 'UNK', 'UNK', 'UNK', 'UNK', 'UNK']

將每個樣本用對應詞的詞向量堆疊的形式代替

def embedding_sentences(embedding_file='./embedding.model',
                        padded_sentences=None,
                        embedding_size=50,
                        min_count=5,
                        window=5):
    if os.path.exists(embedding_file):
        model = Word2Vec.load(embedding_file)
    else:
        model = word2vector(sentences=padded_sentences,
                            embedding_size=embedding_size,
                            min_count=min_count,
                            window=window)
    all_vectors = []
    embedding_unknown = [0 for i in range(embedding_size)]
    for sentence in padded_sentences:
        this_vector = []
        for word in sentence:
            if word in model.wv.vocab:
                this_vector.append(model[word])
            else:
                this_vector.append(embedding_unknown)
        all_vectors.append(this_vector)
    return all_vectors, len(model.wv.vocab)

x = np.array(embedded_sentences)
print(x.shape)

#結果（每個樣本都是一個[100,50]的矩陣
(200, 100, 50)

3.訓練

總體上CNN的結構不變，可以看如下對比：

沒有預訓練詞向量的版本：

with tf.device('/cpu:0'), tf.name_scope('embedding_layer'):
    self.W = tf.Variable(tf.truncated_normal([vocab_size, embedding_size])) # 隨機初始化一個詞向量矩陣
    self.embedded_chars = tf.nn.embedding_lookup(self.W, self.input_x)# 將每個樣本用詞向量堆疊的形式表示
    self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)# 擴維

預先訓練好詞向量的版本：

self.embedded_chars = self.input_x #輸入的就已經是詞向量的表示形式
self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1)

原始碼

CNN中文垃圾郵件分類（二）

本文整理自唐宇迪老師視訊，謝謝他！ 1.思路在上一篇部落格CNN中文垃圾郵件分類（一）中介紹了兩種預處理方式，現在來介紹第二種，先用分好詞的資料作為訓練語料，選擇前n個詞作為詞表（或者去掉出現頻率

CNN英文垃圾郵件分類（資料預處理）

整理自唐宇迪老師的視訊課程，感謝他！本文最後會貼出所有的原始碼檔案，下文只是針對每個小點貼出程式碼進行註釋說明，可以略過。 1.思路關於利用CNN做文字分類，其主要思想通過下面這幅圖就能夠一目瞭然。本文主要記錄了利用CNN來分類英文垃圾郵件的全

資料探勘文字分類（二）蒐集中文語料庫與ICTCLAS分詞

在上一篇部落格中簡單介紹了實驗環境和流程，這一篇我們繼續。第一步，下載搜狗中文語料庫。連結：http://www.sogou.com/labs/dl/c.html 我們下載

使用Python+TensorFlow2構建基於卷積神經網路（CNN）的ECG心電訊號識別分類（二）

## 心律失常資料庫目前，國際上公認的標準資料庫包含四個，分別為美國麻省理工學院提供的MIT-BIH（Massachusetts Institute of Technology-Beth Israel Hospital Database, MIT-BIH）資料庫、美國心臟學會提供的AHA（ America

opencv中的SVM圖像分類（二）

proc 文本 c_str lec 源碼 open right tle 特征描述 opencv中的SVM圖像分類（二）標簽： svm圖像 2015-07-30 08:45 8296人閱讀評論(35) 收藏舉報分類：【opencv應用】（5）版

.NET垃圾回收機制（二）

sel 結點是個 pac public 良好的方案環境哪裏一、GC的必要性　　1、應用程序對資源操作，通常簡單分為以下幾個步驟：為對應的資源分配內存 → 初始化內存 → 使用資源 → 清理資源 → 釋放內存。　　2、應用程序對資源（內存使用）管理的方式，常見的

垃圾回收策略（二）

垃圾回收：即收集已經“死去”的物件。Java記憶體執行時資料區中程式計數器、虛擬機器棧、本地方法棧三個部分的隨執行緒而生，隨執行緒而滅。每個棧幀中分配多少記憶體在類結構確定時就是可知的，因此這三個區域的記憶體分配和回收都具備確定性，不需過多考慮回收問題，因為方法結束或執行

【opencv、機器學習】opencv中的SVM影象分類（二）

上一篇博文對影象分類理論部分做了比較詳細的講解，這一篇主要是對影象分類程式碼的實現進行分析。理論部分我們談到了使用BOW模型，但是BOW模型如何構建以及整個步驟是怎麼樣的呢？可以參考下面的部落格http://www.cnblogs.com/yxy8023ustc/p/33

文字分類（二）：scrapy爬取網易新聞

文字分類的第一項應該就是獲取文字了吧。在木有弄懂scrapy的情況下寫的，純應用，或許後續會補上scrapy的原理。首先說一下我的環境：ubuntu14.10 scrapy安裝指南（肯定官網的最權威了）：[傳送門](http://scrapy-chs.rea

Redhat7.0下搭建郵件伺服器（二）

前言：上次簡單的說明了郵件伺服器的工作原理以及簡單的配置郵件伺服器實現兩臺linux主機互相傳送郵件，這次再接著聊聊郵件伺服器。概要： 1.Telnet 2.mutt 3.Thundbird 4.postfix+mysql+dovecot

TensorFlow-Slim 圖片分類（二）

TensorFlow-Slim圖片分類 TensorFlow-Slim image classification1 將圖片資料轉換成TF-Record格式檔案 Converting Images to TFRecord formatpython download_and_co

利用樸素貝葉斯（Navie Bayes）進行垃圾郵件分類

判斷 ase create numpy water 向量 not in imp img 貝葉斯公式描寫敘述的是一組條件概率之間相互轉化的關系。在機器學習中。貝葉斯公式能夠應用在分類問題上。這篇文章是基於自己的學習所整理。並利用一個垃圾郵件分類的樣例來加深對於理論的理解

搭建簡單圖片分類的卷積神經網路（二）-- CNN模型與訓練

一、首先，簡單來說CNN卷積神經網路與BP神經網路主要區別在於： 1、網路的層數的多少（我這裡的CNN是比較簡單的，層數較少，真正應用的話，層數是很多的）。 2、CNN名稱來說，具有卷積運算的特點，對於大型的圖片或者數量多的圖片，卷積運算可以大量提高計算效能，而BP神經網路大都為全連線層，計

機器學習之樸素貝葉斯（附垃圾郵件分類）

樸素貝葉斯分類器介紹概述樸素貝葉斯分類器技術基於貝葉斯定理，特別適用於輸入維數較高的情況。儘管樸素貝葉斯方法簡單，但它通常比更復雜的分類方法更勝一籌。

垃圾郵件分類器的原理（1）

學習完了斯坦福大學《機器學習》第7周課程，做完程式設計作業垃圾郵件分類器，準備分享下實現原理和實現方法，對自己也是起到總結作用，對博友是個參考，估計得寫好幾篇才能講完，這是第一篇。先看執行結果：訓練樣本有4000個，測試樣本有1000個，結果顯示判斷準確率都在98%以上

Machine Learning第六講[應用機器學習的建議] --（三）建立一個垃圾郵件分類器

內容來自Andrew老師課程Machine Learning的第六章內容的Building a Spam Classifier部分。一、Prioritizing What to Work on（優

表情識別（二）--基於CNN分類

說白了，就是個分類任務，但是純粹的CNN分類，只是對傳統方式的提升，本質思路沒有改變，效果也不是很明顯。轉自：https://blog.csdn.net/walilk/article/details/58709611 前言　　[機器學習] 實驗筆記系列是以我在演算法

機器學習系列——樸素貝葉斯分類器（二）

表示 -h line log ima 條件 code 樸素貝葉斯 spa 貝葉斯定理：其中：表示事件B已經發生的前提下，事件A發生的概率，叫做事件B發生下事件A的條件概率。其基本求解公式為：。機器學習系列——樸素貝葉斯分類器（二）

（二）軟件測試分類

測試結果需求規格說明書人員不同的準備電話易用黑盒測試 net 軟件測試領域名詞頗多，許多測試新手容易混淆概念因為從不同的角度對軟件測試有不同的分類方法，所以，這裏魂總常見軟件測試的相關名詞，讓讀者對軟件測試領域有個概括性了解。根據項目流程階段劃分軟件測試

SpringMVC中文件的上傳（上傳到服務器）和下載問題（二）--------下載

cat exc stream log trac close pri page fin 一、建立一個簡單的jsp頁面。我們在建好的jsp的頁面中加入一個超鏈接：<a href="${pageContext.request.contextPath}/down

CNN中文垃圾郵件分類（二）

相關推薦