python 自然語言處理統計語言建模（1/2）

阿新 • • 發佈：2018-12-04

一、計算單詞頻率

例子：生成1-gram，2-gram，4-gram的Alpino語料庫的分詞樣本

import nltk # 1 - gram
from nltk.util import ngrams
from nltk.corpus import alpino
print(alpino.words())
unigrams=ngrams(alpino.words(),1)
for i in unigrams:
print(i)

import nltk #2 - gram
from nltk.util import ngrams
from nltk.corpus import alpino
print(alpino.words())
bigrams_tokens=ngrams(alpino.words(),2)
for i in bigrams_tokens:
print(i)

import nltk #4 - gram
from nltk.util import ngrams
from nltk.corpus import alpino
print(alpino.words())
quadgrams=ngrams(alpino.words(),4)
for i in quadgrams:
print(i)

生成一段文字的2 - grams 和 2 - grams的頻數以及 4 - grams和4 - grams的頻數

import nltk # 2 - grams
from nltk.collocations import *
import nltk
text="Hello how are you doing ? I hope you find the book interesting"
tokens=nltk.wordpunct_tokenize(text)
twograms=nltk.collocations.BigramCollocationFinder.from_words(tokens)
for twogram, freq in twograms.ngram_fd.items():
print(twogram,freq)

import nltk # 4 - grams
from nltk.collocations import *
import nltk
text="Hello how are you doing ? I hope you find the book interesting"
tokens=nltk.wordpunct_tokenize(text)
fourgrams=nltk.collocations.QuadgramCollocationFinder.from_words(tokens)
for fourgram, freq in fourgrams.ngram_fd.items():
print(fourgram,freq)

二、NLTK的頻率

import nltk
from nltk.probability import FreqDist
text="How tragic that most people had to get ill before they understood what a gift it was to be alive"
ftext=nltk.word_tokenize(text)
fdist=FreqDist(ftext)

print(fdist.N())#總數
print(fdist.max())#數值最大的樣本的頻率
print(fdist.freq("How"))#頻率

for i in fdist:
print(i,fdist.freq(i))#輸出全部的樣本的頻率

words=fdist.keys()
print(words)#map中的key

fdist.tabulate()#繪製頻數分佈圖
fdist.plot()

頻率、概率之間的關係

在一定的實驗情況下頻率與概率可以相互替換，比如扔一枚硬幣10000次，向上的頻數是5023次，概率可以相當於5023/10000，為了獲取這些頻率之間的分佈（概率之間的分佈）；我們通常用估計來求解

三、NLTK中的概率分佈（在nltk中的probability.py檔案中，大家可以去拜讀）

我們知道了頻率就大概知道了概率，概率論中應該有學過估計，利用樣本來求解一些方差、期望。這裡使用頻率來求解概率分佈

import nltk #最大似然估計
from nltk.probability import FreqDist, MLEProbDist
text="How tragic that most people had to get ill before they understood what a gift it was to be alive"
ftext=nltk.word_tokenize(text)
fdist=FreqDist(ftext)
print(MLEProbDist(fdist).max())
print(MLEProbDist(fdist).samples())
for i in MLEProbDist(fdist).freqdist():
   print(i,MLEProbDist(fdist).prob(i))

import nltk #Lidstone估計
from nltk.probability import FreqDist, LidstoneProbDist
text="How tragic that most people had to get ill before they understood what a gift it was to be alive"
ftext=nltk.word_tokenize(text)
fdist=FreqDist(ftext)
print(LidstoneProbDist(fdist,0.5).max())
print(LidstoneProbDist(fdist,0.5).samples())
for i in LidstoneProbDist(fdist,0.5).freqdist():
   print(i,LidstoneProbDist(fdist,0.5).prob(i))

還有其他估計函式可以檢視文件 probability

python 自然語言處理統計語言建模（1/2）

一、計算單詞頻率例子：生成1-gram，2-gram，4-gram的Alpino語料庫的分詞樣本 import nltk # 1 - gram from nltk.util import ngrams from nltk.corpus import alp

python 自然語言處理統計語言建模 - （n-gram模型）

N-gram語言模型考慮一個語音識別系統，假設使用者說了這麼一句話：“I have a gun”，因為發音的相似，該語音識別系統發現如下幾句話都是可能的候選：1、I have a gun. 2、I have a gull. 3、I have a gub. 那麼問題來了，到底哪一個是正確答案呢？

第六章（1.2）自然語言處理實戰——打造屬於自己的中文word2vector工具

一、環境二、實戰演練訓練語料source.txt 9月12日隨著頒獎典禮的結束,我院獲得了商委系統運動會系列活動之一——足球比賽的季軍,本次比賽立時十天,十二隻球隊分成兩個小組比賽。我院代表隊以小組第二名的成績出現,在和另一小組第二名石油公

Python編程入門到實踐 - 筆記（1,2章）

python編程 python入門自學 Python 有段時間了，總是覺得自己基礎不牢，想著把看完的兩本基礎書寫個博客做個筆記啥的。準備在重新看一遍《Python編程入門到實踐》，堅持寫博客筆記。Python編程入門到實踐的前兩章筆記，學習的內容如下：查看當前環境中的 python 版本python

阿裏數加（1-2）api調用分析

-c demo spm 保留字使用場景 sta 字段 3.2 app https://data.aliyun.com/product/nls?spm=5176.doc30437.2.1.UPDABu 下面以最常用的”一句話識別”服務給大家做一個入門級的示例，為您介紹如

Jetty入門（1-2）配置Jetty - 獨立運行模式

https monitored log www rtu mon 方式新版本 demo 本文詳述如何安裝和配置Jetty服務器，主要講述Jetty的獨立運行模式（Standalone）。隨後介紹它的配置選項，以及模塊化的架構。 Jetty有獨立運行模式、嵌入運行模式和J

luogu cogs . [NOIP2003] 傳染病控制 WA（1/2）

getch 特定 start using def algo logs space blog ★★★ 輸入文件：epidemic.in 輸出文件：epidemic.out 簡單對比時間限制：1 s 內存限制：128 MB 【問題背景】近來，一種新的傳

深入理解計算機系統（1.2）------存儲設備

高速計算想法知識 1-1 運用文件字符設備　　上一章我們講解了hello world 程序在計算機系統中是如何運行的。 hello 程序的機器指令最初是存放在磁盤上的，當程序加載時，他們被復制到主存；當處理器運行程序的時候，指令又從主存復制到處理器。相似的，數

（1-2）line-height的各類屬性值

　　　　　　　　　　　　　　　　　　　　（1-2）line-height的各類屬性值　首先來個疑問！沒有問題印象不深嘛一、line-height支援哪些屬性值呢？五隻手指頭就能數過來了咯。比如normal, <number>, <length>,<percent&g

匿名內部類類名規則（$1,$2）

匿名內部類屬於內部類的其中一種，從內部類講起，內部類型別共有如下： 1.成員內部類 public class A { String s; class B{ } } B就是成員內部類，例項化B需要先例項化A物件(B b =

躺雨沒的學習筆記（2）——藍芽概述（1.2）BLE概述

Agenda： 1.2藍芽低能耗（BLE）操作概述跟基礎速率和增強速率（BR/EDR）一樣，藍芽低功耗（LE）射頻工作在國際無授權2.4G Hz ISM頻道。藍芽系統使用跳頻技術用來對抗干擾、抗衰減，並且提供跳頻擴頻（FH

《Spring官方文件》IoC容器（1-2）

原文連結譯者：kl2422 3.1 Spring IoC容器和beans的介紹本章涵蓋了Spring框架實現控制反轉（IoC）[1]的原理。IoC又叫依賴注入（DI）。它描述了物件的定義和依賴的一個過程，也就是說，依賴的物件通過構造引數、工廠方法引數或者屬性注入，當物件例項化後依賴的物件

吳恩達Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第二週課程部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂。同時在閱讀以下

Coursera深度學習課程 DeepLearning.ai 提煉筆記（1-2）-- 神經網路基礎

以下為在Coursera上吳恩達老師的DeepLearning.ai課程專案中，第一部分《神經網路和深度學習》第二週課程部分關鍵點的筆記。筆記並不包含全部小視訊課程的記錄，如需學習筆記中捨棄的內容請至Coursera 或者網易雲課堂。同時在閱讀以下筆記之前，

關於需求分析，你不能不知道的4個必殺技：撿金子+ Warroom作戰室+情節串聯板+Build構建（1/2）

（作者：董奎，青銅器RDM產品經理、華成研發諮詢聯合創始人、青銅器軟體聯合創始人，1998~2004年就職華為技術，參與電信交換機、資料路由器等核心電信裝置的設計與開發；專注於研發管理、創新管理、專案管理，致力於研發管理資訊化；IPD+CMMI+Scrum一體化研發管理體系的踐行者，目前該體系已經被科大訊

HBase協處理器載入過程（1.2）

之前寫過HBase協處理器的一些原理和使用，基本上都是官方文件和官方的部落格翻過來的，知道了怎麼寫，怎麼用。現在需要思考的一個問題是，自己寫的協處理器是怎麼載入成功並呼叫的。一、首先來看ObserverCoprocessor: 1.觀察者協處理器的靜態載入的配置是在hb

微信支付各種坑--終章（-1&-2）

001.微信支付一路坑，走過一坑又一坑，總之，微信支付太過於坑爹，詳細大家也或多或少遇到過，一路艱辛終於完美繼承微信支付，下面進入填坑之路！！！ 002.一些微信平臺的

第一章（1.2）機器學習概念圖譜

一、機器學習概念圖譜二、什麼是機器學習機器學習(machine learning)是最近非常火的一個領域，關於其一些基本定義百度百科、維基百科或者網上隨便都可以找到很多資料，所以這裡不做過多解釋。我們解決一個問題有兩種模式：一種叫做模型驅動

Zend Studio使用教程：將應用程式部署到Zend Server（1/2）

Zend Studio允許您從現有的SVN專案中建立一個新的PHP專案。在本教程中，您將獲的一個現有的SVN專案。教程內容在本教程中，您將學習：從Zend Studio中的SVN建立一個新的PHP專案，您將獲得一個現有的SVN帳戶和專案。在本地Zend Ser

思科路由器的基本配置（1-2）

1.思科CLI 4種模式的圖片 2.四種模式使用者模式 Router>enable 可執行的命令：ping telnet tracerounte 特權模式 Rout

python 自然語言處理 統計語言建模（1/2）

相關推薦

python 自然語言處理統計語言建模（1/2）