自然語言處理（二）——PTB數據集的預處理

阿新 • • 發佈：2019-02-20

ESS resize urn rain style nim base64 utf ems

參考書

《TensorFlow：實戰Google深度學習框架》（第2版）

首先按照詞頻順序為每個詞匯分配一個編號，然後將詞匯表保存到一個獨立的vocab文件中。

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
# coding=utf-8 

"""
@author: Li Tian
@contact: [email protected]
@software: pycharm
@file: word_deal1.py
@time: 2019/2/20 10:42
@desc: 首先按照詞頻順序為每個詞匯分配一個編號，然後將詞匯表保存到一個獨立的vocab文件中。
 
"""

import codecs
import collections
from operator import itemgetter

# 訓練集數據文件
RAW_DATA = "./simple-examples/data/ptb.train.txt"
# 輸出的詞匯表文件
VOCAB_OUTPUT = "ptb.vocab"

# 統計單詞出現的頻率
counter = collections.Counter()
with codecs.open(RAW_DATA, "r", "utf-8") as f:
    for line in f:
        for word in line.strip().split():
            counter[word]  
+= 1

# 按照詞頻順序對單詞進行排序
sorted_word_to_cnt = sorted(counter.items(), key=itemgetter(1), reverse=True)
sorted_words = [x[0] for x in sorted_word_to_cnt]

# 稍後我們需要在文本換行處加入句子結束符“<eos>”，這裏預先將其加入詞匯表。
sorted_words = ["<eos>"] + sorted_words
# 在後面處理機器翻譯數據時，出了"<eos>"，還需要將"<unk>"和句子起始符"<sos>"加入 

# 詞匯表，並從詞匯表中刪除低頻詞匯。在PTB數據中，因為輸入數據已經將低頻詞匯替換成了
# "<unk>"，因此不需要這一步驟。
# sorted_words = ["<unk>", "<sos>", "<eos>"] + sorted_words
# if len(sorted_words) > 10000:
#     sorted_words = sorted_words[:10000]

with codecs.open(VOCAB_OUTPUT, ‘w‘, ‘utf-8‘) as file_output:
    for word in sorted_words:
        file_output.write(word + "\n")

運行結果：

技術分享圖片 ?

在確定了詞匯表之後，再將訓練文件、測試文件等都根據詞匯文件轉化為單詞編號。每個單詞的編號就是它在詞匯文件中的行號。

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
# coding=utf-8 

"""
@author: Li Tian
@contact: [email protected]
@software: pycharm
@file: word_deal2.py
@time: 2019/2/20 11:10
@desc: 在確定了詞匯表之後，再將訓練文件、測試文件等都根據詞匯文件轉化為單詞編號。每個單詞的編號就是它在詞匯文件中的行號。
"""

import codecs
import sys

# 原始的訓練集數據文件
RAW_DATA = "./simple-examples/data/ptb.train.txt"
# 上面生成的詞匯表文件
VOCAB = "ptb.vocab"
# 將單詞替換成為單詞編號後的輸出文件
OUTPUT_DATA = "ptb.train"

# 讀取詞匯表，並建立詞匯到單詞編號的映射。
with codecs.open(VOCAB, "r", "utf-8") as f_vocab:
    vocab = [w.strip() for w in f_vocab.readlines()]
word_to_id = {k: v for (k, v) in zip(vocab, range(len(vocab)))}


# 如果出現了被刪除的低頻詞，則替換為"<unk>"。
def get_id(word):
    return word_to_id[word] if word in word_to_id else word_to_id["<unk"]


fin = codecs.open(RAW_DATA, "r", "utf-8")
fout = codecs.open(OUTPUT_DATA, ‘w‘, ‘utf-8‘)
for line in fin:
    # 讀取單詞並添加<eos>結束符
    words = line.strip().split() + ["<eos>"]
    # 將每個單詞替換為詞匯表中的編號
    out_line = ‘ ‘.join([str(get_id(w)) for w in words]) + ‘\n‘
    fout.write(out_line)
fin.close()
fout.close()

運行結果：

技術分享圖片 ?

自然語言處理（二）——PTB數據集的預處理

ESS resize urn rain style nim base64 utf ems 參考書《TensorFlow：實戰Google深度學習框架》（第2版）首先按照詞頻順序為每個詞匯分配一個編號，然後將詞匯表保存到一個獨立的vocab文件中。 #!/usr/

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

乾貨 | 自然語言處理（5）之英文文字挖掘預處理流程

前言原文連結：http://www.cnblogs.com/pinard/p/6756534.h

redis學習（二）——String數據類型

字符串類型創建復雜度 back nbsp 命令時間復雜度 value con 一、概述字符串類型是Redis中最為基礎的數據存儲類型，它在Redis中是二進制安全的，這便意味著該類型可以接受任何格式的數據，如JPEG圖像數據或Json對象描述信息等。在R

scikit-learn：4. 數據集預處理（clean數據、reduce降維、expand增維、generate特征提取）

ova trac ict mea res additive track oval mmc 本文參考：http://scikit-learn.org/stable/data_transforms.html 本篇主要講數據預處理，包含四部分：數據清洗、數據

Python 日誌處理（二）使用正則表達式處理Nginx 日誌

表示 cnblogs sunday sta return __main__ pattern eth 解析使用正則表達式來處理Nginx 日誌一、先對單行的日誌進行分組正則匹配，返回匹配後的結果(字典格式)： from datetime import dateti

[讀書筆記] R語言實戰（四）基本數據管理

mean 圖片數值函數 nbsp 一個 img order 分享 1. 創建新的變量 mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8)) #方法一 mydata$sumx<-mydata$x1+mydat

Python基礎（二）之數據類型和運算（1）——數字

spa 發生 double類型圖片 body poi 存在 discard 交互模式數據類型初識數字 2 是一個整數的例子。長整數不過是大一些的整數。 3.23和52.3E-4是浮點數的例子。E標記表示10的冪。在這裏，52.3E-4表示52.3 * 1

Python基礎（二）之數據類型和運算（2）——字符串

創建 options 生成 quotes 字符串表達 ngs 字符串格式化 lib 字符串基礎 Python 也提供了可以通過幾種不同方式表示的字符串。它們可以用單引號 (‘...‘) 或雙引號 ("...") 標識。\ 可以用來轉義引號: >>>

python基礎（二）基礎數據類型

原則組成 res default ace 需要占用常用方法哈希函數一，引子。 1 什麽是數據？　　x=10，10是我們要存儲的數據 2 為何數據要分不同的類型　　數據是用來表示狀態的，不同的狀態就應該用不同的類型的數據去表示 3 數據類型　　數字　　字符串

eShopOnContainers學習系列（二）：數據庫連接健康檢查

技術分享負載 star bsp 方法 containe 需要正常連接項目裏使用數據庫的時候，我們有時候需要知道數據庫當前的健康狀態，特別是當數據庫連接不上的時候能夠立馬獲悉。eShopOnContainers裏存在著大量的服務健康、連接健康的檢查，數據庫連接是其中之

python3入門教程（二）操作數據庫一

pri 只需要圖片 pytho 對象 ima cdc 一行結果概述　　最近在準備寫一個爬蟲的練手項目，基本想法是把某新聞網站的內容分類爬取下來，保存至數據庫，再通過接口對外輸出（提供後臺查詢接口）。那麽問題就來了，python到底是怎麽去操作數據庫的呢？我們今天就來

bat批處理（二）：%0 %1——給批處理指令碼傳遞引數

初次接觸批處理指令碼覺得有點意思，所以決定寫一個小功能試驗一下，誰知剛一開始就發現遇到了麻煩，本想著使用引數來控制程式的執行結果，可是引數怎麼傳進去呢，於是研究了一番，最終發現這個引數的傳遞與main函式居然非常相似，我們一起來寫個小例子試驗一下。內容批處理檔案中可引用的引數為%0~%9，%0是指批處理

.bat批處理（二）：%0 %1——給批處理指令碼傳遞引數

前言初次接觸批處理指令碼覺得有點意思，所以決定寫一個小功能試驗一下，誰知剛一開始就發現遇到了麻煩，本想著使用引數來控制程式的執行結果，可是引數怎麼傳進去呢，於是研究了一番，最終發現這個引數的傳遞與m

Python數據分析與展示（二）：數據分析與展示

轉載數組 .net pan die oat 文件存取 format 默認數據的CSV文件存取： 1 np.savetxt(frame, array, fmt=‘%.18e‘, delimiter=None) 2 ? frame : 文件、字符串或產生器，可以是.gz或

【Tensorflow】怎樣為你的網路預加工和打包訓練資料？（二）：小資料集的處理方案

實驗環境：python2.7 第二篇我們來講一講小資料集的處理方法，小資料集一般多以文字儲存為主，csv是一種流行的資料格式，另外也有txt等。當然也會有.mat或者.npy這種經過處理的格式。一.處理csv格式資料集實驗資料集是鳶尾花卉資料集iris，格式是.csv

深度學習（tensorflow） —— 自己數據集讀取opencv

spa 屬於有效測試大小打開文件需要深度學習 ray 先來看一下我們的目錄： dataset1 和creat_dataset.py 屬於同一目錄 mergeImg1 和mergeImg2 為Dataset1的兩子目錄（兩類為例子）目錄中存儲圖像等

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

自然語言處理（二）

all form 方法 clas lib port sha err model 使用python進行自然語言處理，有一些第三方庫供大家使用： ·NLTK（Python自然語言工具包）用於諸如標記化、詞形還原、詞幹化、解析、POS標註等任務。該庫具有

自然語言處理（二）——PTB數據集的預處理

參考書

運行結果：

運行結果：

相關推薦