python與自然語言處理（六）：中文文字轉影象

阿新 • • 發佈：2019-01-07

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。

python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pillow （pip install Pillow / conda install Pillow）。詞向量模型使用的是gensim的word2vec工具，具體操作見這裡。

#-*-coding=utf-8-*-

from gensim import models
import numpy as np
from PIL import Image

text_width = 10

#load word2vec model
word_vector_size =25
base_model_path = './word_vector_' 
modelpath = base_model_path+str(word_vector_size)
emotion_model = models.Word2Vec.load(modelpath) #載入詞向量模型

#得到字元向量
def getCharVec(char):
	vector = np.zeros(word_vector_size)
	if char in emotion_model:
		vector[0:word_vector_size] = emotion_model[char]
	else: #若詞彙不在詞向量模型中則按正態分佈隨機初始化
		loc,scale = 0,0.5 #均值和標準差
		vector[0:word_vector_size] = np.random.normal(loc,scale,word_vector_size)		
	return vector

#得到句子向量
def getSentenceVec(sentence):
	vectors = np.zeros((text_width,word_vector_size))
	sentence_array = sentence.split(' ')
	for i in range(len(sentence_array)-1):
		vector = getCharVec(sentence_array[i])
		vectors[i] = vector
	return vectors

def drawPic(vectors,savepath):
	img = Image.fromarray(vectors)
	img.save(savepath)

if __name__ == '__main__':
	text1 = '預告片 裡 的 服 化 道 時而 素雅 時而 華貴 曉彤 演繹 的 劉楚玉 演技 提高 很 值得 期待'
	text2 = '這部 劇 的 攝影師 和 剪輯師 是不是 已經 做好 了 隨時 領 盒飯 的 準備 了'

	if len(text1.split())>text_width:
		text_width = len(text1.split())
	if len(text2.split())>text_width:
		text_width = len(text2.split())

	vectors = getSentenceVec(text1)
	print(vectors)
	drawPic(vectors,'./text1.tiff')

	vectors = getSentenceVec(text2)
	print(vectors)
	drawPic(vectors,'./text2.tiff')

執行後得到的影象分別為：

text1.tiff

text2.tiff

備註：之所以儲存影象為tiff格式，是因為陣列資料為float型別，直接存為png格式會報錯 can't save mode 'F' image，故參考相關回答將格式改為tiff，執行成功。

python與自然語言處理（六）：中文文字轉影象

最近使用word2vec對文字進行向量化表示，然後模仿基於CNN的影象分類實現文字分類。既然是模仿影象，那就應該可以將文字用影象視覺化一下，看看量化後的文字是什麼樣子。python處理影象的基本模組是Image庫，由於實驗中使用的是python3，需要安裝的影象處理庫為Pil

python與自然語言處理（五）：中文文字詞雲

之前一直想要做一個文字的視覺化：詞雲，然後在網上搜到的一些製作詞雲的工具，有些是線上的就沒有使用，今天偶然看到python提供的wordcloud庫，可以方便製作詞雲，中英文皆可，趕緊試試，做個筆記，

Python與自然語言處理（三）：Tensorflow基礎學習

看了一段時間的TensorFlow，然而一直沒有思路，偶然看到一個講解TensorFlow的系列視訊，通俗易懂，學到了不少，在此分享一下，也記錄下自己的學習過程。教學視訊連結：點這裡在機器學習中，常見的就是分類問題，郵件分類，電影分類等等我這裡使用iris的

Python與自然語言處理（一）搭建環境

參考書籍《Python自然語言處理》，書籍中的版本是Python2和NLTK2，我使用的版本是Python3和NLTK3 安裝NLTK3，Natural Language Toolkit，自然語言工

Python與自然語言處理（二）基於Gensim的Word2Vec

繼續學習摸索，看到很多部落格都在研究Word2Vec，感覺挺有意思，我也來嘗試一下。實驗環境：Python3，Java8 Word2Vec的輸入是句子序列，而每個句子又是一個單詞列表，由於沒有這樣結構的現成輸入，所以決定自己動手對原始語料進行預處理。這裡還有一個自然語

《使用Python進行自然語言處理（Nltk）》2

import nltk from nltk.corpus import * '''1、古騰堡語料庫''' gutenberg.fileids() #所有古騰堡語料庫中的文字 emma = nltk.corpus.gutenberg.words('austen-e

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

python自然語言處理（NLP）1------中文分詞1，基於規則的中文分詞方法

python中文分詞方法之基於規則的中文分詞目錄常見中文分詞方法推薦中文分詞工具參考連結一、四種常見的中文分詞方法：基於規則的中文分詞基於統計的中文分詞深度學習中文分詞混合分詞方法基於規則的中

深度學習與自然語言處理（一）

自然語言處理主要研究用計算機來處理、理解以及運用人類語言（又稱自然語言）的各種理論和方法，屬於人工智慧領域的一個重要研究方向，是電腦科學與語言學的交叉學科，又常被稱為計算語言學。隨著網際網路的快速發展，網路文字尤其是使用者生成的文字成爆炸式增長，為自然語言處理帶來了巨大的應用

深度學習與自然語言處理（三）——深度學習運用到自然語言處理領域的成功案例

目錄 1.全連線前饋神經網路（MLP）的應用大部分情況下，全連線前饋神經網路（MLP）能被用來替代線性學習器。這包括二分類或多分類問題，以及更復雜的結構化預測問題。網路的非線性以及易於整合預訓練詞嵌入的能力經常帶來更高的分類精度。一系列工作通過簡單地將句

乾貨 | 自然語言處理（5）之英文文字挖掘預處理流程

前言原文連結：http://www.cnblogs.com/pinard/p/6756534.h

1.自然語言處理（NLP）與Python

自然語言工具包（NLTK） NLTK 創建於 2001 年，最初是賓州大學計算機與資訊科學系計算語言學課程的一部分。從那以後，在數十名貢獻者的幫助下不斷髮展壯大。如今，它已被幾十所大學的課程所採納，並作為許多研究專案的基礎。NLTK模組及功能介紹如下：

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

python自然語言處理（一）

1標識化處理何為標識化處理？實際上就是一個將原生字串分割成一系列有意義的分詞，其複雜性根據不同NLP應用而異，目標語言的複雜性也佔了很大部分，例如中文的標識化是要比英文要複雜。 word_tokenize()是一種通用的，面向所有語料庫的標識化方法，基本能應付絕大多數。 reg

自然語言處理（NLP）- HMM+VITERBI演算法實現詞性標註（解碼問題）（動態規劃）（Python實現）

NLP- HMM+維特比演算法進行詞性標註（Python實現）維特比演算法針對HMM解碼問題，即解碼或者預測問題（下面的第二個問題），尋找最可能的隱藏狀態序列：對於一個特殊的隱馬爾可夫模型(HMM)及一個相應的觀察序列，找到生成此序列最可能的隱藏狀態序列。也就是說

Python 自然語言處理（NLP）工具庫彙總

6.spaCy 這是一個商業的開源軟體。結合了Python 和Cython 優異的 NLP 工具。是快速的，最先進的自然語言處理工具。網站：安裝： pip install spacy 7.Polyglot Polyglot 支援大規模多語言應用程式的處理。它支援165種語言的分詞，196中語言的辨識，

Python自然語言處理（NLP）工具小結

Python 的幾個自然語言處理工具自然語言處理（Natural Language Processing，簡稱NLP）是人工智慧的一個子域。自然語言處理的應用包括機器翻譯、情感分析、智慧問答、資訊提取、語言輸入、輿論分析、知識圖譜等方面。也是深度學習的一個分

c語言數字影象處理（六）：二維離散傅立葉變換

基礎知識複數表示 C = R + jI 極座標：C = |C|(cosθ + jsinθ) 尤拉公式：C = |C|ejθ 有關更多的時域與複頻域的知識可以學習複變函式與積分變換，本篇文章只給出DFT公式，性質，以及實現方法二維離散傅立葉變換(DFT) 其中f(x,y)為原影象，F(u,

自然語言處理（3）——Word2Vec理論

word2vec是一個將單詞轉換成向量形式的工具。可以把對文字內容的處理簡化為向量空間中的向量運算，計算出向量空間上的相似度，來表示文字語義上的相似度。一、理論概述（主要來源於http://licstar.net/archives/328這篇部落格） 1.詞向量是什麼自然語言理

關於自然語言處理（NLP）的個人學習資料

個人研究的各種亂七八糟無聊資料~：深入看過的論文：連結：https://pan.baidu.com/s/19mlS8eSY8vbzr96FPYfOvw 提取碼：vy3o 期待深入看的論文連結：https://pan.baidu.com/s/1-OT3c-x

python與自然語言處理（六）：中文文字轉影象

相關推薦