機器學習-貝葉斯拼寫糾正器實戰

阿新 • • 發佈：2018-12-21

tdi eth 最大的 date oot 操作 dal 用戶優先

#python版本3.7

import re, collections
#將語料庫裏的單詞全部轉換為小寫
def words(text): return re.findall(‘[a-z]+‘, text.lower())
#詞頻統計
def train(features):
　　model = collections.defaultdict(lambda: 1)
　　for f in features:
　　　　model[f] += 1
return model

NWORDS = train(words(open(‘big.txt‘).read()))

alphabet = ‘abcdefghijklmnopqrstuvwxyz‘
#編輯距離1，構建所有可能出現的詞的集合，缺點是錯誤的詞也加進去了。後面會優化。

def edits1(word):
　　n = len(word)
　　return set([word[0:i]+word[i+1:] for i in range(n)] + # deletion
　　　　　　[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] + # transposition
　　　　　　[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + # alteration
　　　　　　[word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet]) # insertion
#編輯距離2，相當於編輯距離1的做兩次循環

def known_edits2(word):
　　return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
#判斷是否是一個正確或者已知的詞
def known(words): return set(w for w in words if w in NWORDS)
#拼寫糾正
def correct(word):
#返回所有可能出現的詞
　　candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
　　return max(candidates, key=lambda w: NWORDS[w])

correct(‘whi‘)

#糾正結果

技術分享圖片

求解：argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)

P(c), 文章中出現一個正確拼寫詞 c 的概率, 也就是說, 在英語文章中, c 出現的概率有多大
P(w|c), 在用戶想鍵入 c 的情況下敲成 w 的概率. 因為這個是代表用戶會以多大的概率把 c 敲錯成 w
argmaxc, 用來枚舉所有可能的 c 並且選取概率最大的

# 把語料中的單詞全部抽取出來, 轉成小寫, 並且去除單詞中間的特殊符號
def words(text): return re.findall(‘[a-z]+‘, text.lower())

def train(features):
　　model = collections.defaultdict(lambda: 1)
　　for f in features:
　　　　model[f] += 1
　　return model

NWORDS = train(words(open(‘big.txt‘).read()))

‘’‘要是遇到我們從來沒有過見過的新詞怎麽辦. 假如說一個詞拼寫完全正確, 但是語料庫中沒有包含這個詞, 從而這個詞也永遠不會出現在訓練集中. 於是, 我們就要返回出現這個詞的概率是0. 這個情況不太妙, 因為概率為0這個代表了這個事件絕對不可能發生, 而在我們的概率模型中, 我們期望用一個很小的概率來代表這種情況. lambda: 1

‘’‘

NWORDS

技術分享圖片

編輯距離:

兩個詞之間的編輯距離定義為使用了幾次插入(在詞中插入一個單字母), 刪除(刪除一個單字母), 交換(交換相鄰兩個字母), 替換(把一個字母換成另一個)的操作從一個詞變到另一個詞.

#返回所有與單詞 w 編輯距離為 1 的集合
def edits1(word):
　　n = len(word)
return set([word[0:i]+word[i+1:] for i in range(n)] + # deletion
　　　　[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] + # transposition
　　　　[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] + # alteration
　　　　[word[0:i]+c+word[i:] for i in range(n+1) for c in alphabet]) # insertion

#與 something 編輯距離為2的單詞居然達到了 114,324 個

優化:在這些編輯距離小於2的詞中間, 只把那些正確的詞作為候選詞,只能返回 3 個單詞: ‘smoothing’, ‘something’ 和 ‘soothing’

#返回所有與單詞 w 編輯距離為 2 的集合
#在這些編輯距離小於2的詞中間, 只把那些正確的詞作為候選詞
def edits2(word):
　　return set(e2 for e1 in edits1(word) for e2 in edits1(e1))

#正常來說把一個元音拼成另一個的概率要大於輔音 (因為人常常把 hello 打成 hallo 這樣); 把單詞的第一個字母拼錯的概率會相對小, 等等.但是為了簡單起見, 選擇了一個簡單的方法: 編輯距離為1的正確單詞比編輯距離為2的優先級高, 而編輯距離為0的正確單詞優先級比編輯距離為1的高.

def known(words): return set(w for w in words if w in NWORDS)

#如果known(set)非空, candidate 就會選取這個集合, 而不繼續計算後面的
def correct(word):
　　candidates = known([word]) or known(edits1(word)) or known_edits2(word) or [word]
　　return max(candidates, key=lambda w: NWORDS[w])

機器學習-貝葉斯拼寫糾正器實戰

tdi eth 最大的 date oot 操作 dal 用戶優先 #python版本3.7 import re, collections #將語料庫裏的單詞全部轉換為小寫def words(text): return re.findall(‘[a-z]+‘, text.l

機器學習-貝葉斯拼寫糾正器實戰

求解：argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)

編輯距離:

機器學習-貝葉斯拼寫糾正器實戰

機器學習----貝葉斯分類器（貝葉斯決策論和極大似然估計）

機器學習貝葉斯分類器第一天

[機器學習] 貝葉斯分類器1

貝葉斯拼寫檢查器

機器學習-貝葉斯算法

002-貝葉斯拼寫糾正實例

機器學習-貝葉斯相關知識點

機器學習-貝葉斯演算法

機器學習-貝葉斯新聞分類例項

基於C#的機器學習--貝葉斯定理-執行資料分析解決肇事逃逸之謎

機器學習-貝葉斯網路

用tensorflow學習貝葉斯個性化排序(BPR)

樸素貝葉斯法分類器的Python3 實現

貝葉斯決策分類器 MNIST手寫數據集分類 python實現

樸素貝葉斯（二：實戰）

機器學習算法整理（六）— 貝葉斯算法_拼寫糾正實例_垃圾郵件過濾實例

機器學習小實戰（三）貝葉斯實現拼寫檢查器

機器學習：貝葉斯分類器

機器學習系列——樸素貝葉斯分類器（二）

機器學習-貝葉斯拼寫糾正器實戰

求解：argmaxc P(c|w) -> argmaxc P(w|c) P(c) / P(w)

編輯距離:

相關推薦