Python自然語言處理—統計詞頻

阿新 • • 發佈：2018-11-02

一資料的預處理

本文所有的例子我都將使用中文文字進行，所以在分析前需要對中文的文字進行一個預處理的過程（暫時只用的分詞，去除停用詞的部分後面介紹）

# -*- coding:utf-8 -*-
from nltk import FreqDist
import jieba
import pymssql

# 我的資料來源於資料庫，用的是爬蟲的小學數學題
conndb = pymssql.connect(host=".", user="**", password="****", database="JD")
cursor = conndb.cursor()
cursor.execute("SELECT TOP 2000 [題目] FROM [JD].[dbo].[題庫]")
rows = cursor.fetchall()


#將200道題目中文分詞後，並放到一個List中
text = []
for line in rows:
    content = list(jieba.cut(line[0]))
    for word in content:
        text.append(word)

結果如下圖所示，可以看到有很多標點符號和單個無意義數字

二頻率分佈

fdist1 = FreqDist(text)  # 生成詞頻的字典，格式（“詞1”：數量，“詞2”：數量...）
vocabulary1 = fdist1.keys()  # 字典的Key，就是所有的詞
print(list(vocabulary1)[0:10])  # 詞的前10個是什麼，注意字典的Keys是亂序的所有前10並不是數量最多的top10
for word,num in fdist1.items():  # 如果想看看字典內到底是什麼，可以執行這個迴圈
    print(word,num)

結果如下圖

那麼如何獲得出現數量最多的Top10詞語呢？

f = zip(fdist1.keys(),fdist1.values())  # 將字典壓縮成list[('詞1'，num1),('詞2',num2),...]
sortf = list(sorted(f,key=lambda s: s[1], reverse=True))  # f按照num排序
for i in range(10):  
    print(sortf[i])

結果如下，這就是不去除停用詞的後果，得到的top10都是無意義的詞。

低頻的詞可以一行程式碼獲取到

fdist1.hapaxes()

三細粒度的選擇詞

利用for迴圈和條件判斷對詞進行篩選，但是是用一行程式碼實現，這在python中叫列表解析。

程式碼可以理解成迴圈V中所有詞，如果詞長度大於4，就把詞放到一個List中，最終所有長度大於4的片語成了Long_words

V=set(text) #文字去重
long_words = [w for w in V if len(w)>4]
print(long_words)

結果如下，很明顯本次使用的資料集除了要剔除停用詞，對於全數字全英文的詞也應該做剔除操作

列表解析後的判斷可以是多個條件

print([w for w in V if len(w)>2 and fdist1[w]>10])

通過多個條件篩選出的值更具有代表意義，代表著這個文字的特徵

四其他——詞長的分佈

fdist = FreqDist([len(w) for w in text])
fdist.items()
fdist.max()  # 數量最多的詞長度
fdist[1]  # 長度為1的詞的數量
fdist.freq(1) # 長度為1的詞的頻率
fdist.tabulate() # 生成分佈表

首先將每個詞的長度放到一個List中，接著呼叫FreqDist即可

Python自然語言處理—統計詞頻

一資料的預處理本文所有的例子我都將使用中文文字進行，所以在分析前需要對中文的文字進行一個預處理的過程（暫時只用的分詞，去除停用詞的部分後面介紹） # -*- coding:utf-8 -*- from nltk import FreqDist import jieba import py

Python自然語言處理—條件詞頻分佈

一條件詞頻統計由於要按條件統計詞頻，自己準備資料較為麻煩，本次資料集呼叫NLTK自帶的資料集， from nltk.corpus import brown cdf = nltk.ConditionalFreqDist((genre,word) for genre in brown.cat

python 自然語言處理統計語言建模（1/2）

一、計算單詞頻率例子：生成1-gram，2-gram，4-gram的Alpino語料庫的分詞樣本 import nltk # 1 - gram from nltk.util import ngrams from nltk.corpus import alp

python 自然語言處理統計語言建模 - （n-gram模型）

N-gram語言模型考慮一個語音識別系統，假設使用者說了這麼一句話：“I have a gun”，因為發音的相似，該語音識別系統發現如下幾句話都是可能的候選：1、I have a gun. 2、I have a gull. 3、I have a gub. 那麼問題來了，到底哪一個是正確答案呢？

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

NLP-python 自然語言處理01

count ems odin 頻率分布 str sep mon location don 1 # -*- coding: utf-8 -*- 2 """ 3 Created on Wed Sep 6 22:21:09 2017 4 5 @author: A

Python自然語言處理1

cmd 輸入函數調用 down load src 選擇分享 cnblogs 首先，進入cmd 輸入pip install的路徑隨後開始下載nltk的包一、準備工作 1、下載nltk 我的之前因為是已經下載好了，我現在用的參考書是Python自然語言處理這本書，最

Python自然語言處理 Chapter 1

col ont otl python import 搜索 text2 div load() from __future__ import division import nltk nltk.download() from nltk.book import * #搜索文本

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

Python | 自然語言處理 (一)

res sent 處理簡單的 *** ima examples 表示 rds 小白博主最近想參加一個關於NLP的比賽，於是入坑自然語言處理,想借博客一邊學習，一邊整理首先安裝庫nltk，直接pip install nltk即可 1 from nltk.book imp

《精通Python自然語言處理》高清中文版PDF+高清英文版PDF+源代碼

http 自然語言下載 pdf color 語言源代碼書籍 https 下載：https://pan.baidu.com/s/1p9MgH2HDTGfUmWx8jHRsxw 《精通Python自然語言處理》高清中文版PDF+高清英文版PDF+源代碼高清中文版PDF，

python自然語言處理-—安裝NLTK

安裝Anaconda後，進入Prompt介面依次輸入 easy_install pip pip install pyyaml nltk 結果如下下載nltk中的資料集 import nltk nltk.download() 選擇book文字集合下載相關資料集

精通Python自然語言處理 pdf 下載

自然語言處理（NLP）是有關計算語言學與人工智慧的研究領域之一。NLP主要關注人機互動，它提供了計算機和人類之間的無縫互動，使得計算機在機器學習的幫助下理解人類語言。本書詳細介紹如何使用Python執行各種自然語言處理（NLP）任務，並幫助讀者掌握利用Python設計和構建基於NLP的應用的

python自然語言處理-讀書筆記5

#使用UniCode進行文書處理 #Unicode支援超過一百萬種字元。每個字元分配一個編號，稱為編碼點。在 Python中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進位制形式數。 #從檔案中提取已編碼文字 import codecs path = nltk.data.fin

python自然語言處理-讀書筆記4

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk, re, pprint #從網路和硬碟訪問文字 #電子書 from urllib.request import urlopen from bs4 import Beautif

python自然語言處理-讀書筆記3

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.corpus import gutenberg #古騰堡語料庫 from nltk.corpus import webtext #w網路聊天文字 from

python自然語言處理-讀書筆記9

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #第六章學習分類文字 # 1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵？ 2. 我們怎樣才能構建語言模型，用於自動執行語言處理任務？ 3. 從這些模型中我們可以學到哪些關於語言的知識？

python自然語言處理-讀書筆記8

#N-Gram Tagging N元語法標註 #一元標註（Unigram Tagging）一元標註器基於一個簡單的統計演算法：對每個識別符號分配這個獨特的識別符號最有可能的標記。例如：它將分配標記 JJ 給詞 frequent 的所有出現，因為frequent 用作一個形容詞（例如：a f

python自然語言處理-讀書筆記7

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #分類和標註詞彙 #使用詞性標註器 import nltk # text = nltk.word_tokenize("And now for something completely diffe

python自然語言處理-讀書筆記6

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #4.1 回到基礎 #賦值 #等式 #條件語句 #all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項目滿足一些條件： # sent = ['No',

Python自然語言處理—統計詞頻

一 資料的預處理

二 頻率分佈

三 細粒度的選擇詞

四 其他——詞長的分佈

相關推薦

一資料的預處理

二頻率分佈

三細粒度的選擇詞

四其他——詞長的分佈