自然語言處理基礎技術之分詞實戰

阿新 • • 發佈：2018-11-30

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84453008
更多學習筆記關注：
公眾號:StudyForAI
知乎專欄:https://www.zhihu.com/people/yuquanle/columns

昨天總結了一下分詞概念以及一些現有的python開源工具，今天就來一波實戰，順便說一下jupyter真是好用~~

-----------------------------------------分割線--------------------------------------------

jieba分詞

安裝：pip install jieba

國內源安裝更快：pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入jieba包

import jieba

全模式分詞

wordseg_all = jieba.cut("我愛自然語言處理技術！", cut_all=True)
print("全模式: " + " ".join(wordseg_all))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\yuquanle\AppData\Local\Temp\jieba.cache
Loading model cost 0.968 seconds.
Prefix dict has been built succesfully.


全模式: 我 愛 自然 自然語言 語言 處理 技術

精確模式分詞

wordseg = jieba.cut("我愛自然語言處理技術！", cut_all=False)
print("精確模式: " + " ".join(wordseg))

精確模式: 我 愛 自然語言 處理 技術 ！

搜尋引擎模式

wordseg_search = jieba.cut_for_search("我愛自然語言處理技術！")  
print("搜尋引擎模式:" + " ".join(wordseg_search))

搜尋引擎模式:我 愛 自然 語言 自然語言 處理 技術 ！

SnowNLP分詞

安裝：pip install snownlp

國內源安裝：pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入snownlp包

from snownlp import SnowNLP

model = SnowNLP(u'我愛自然語言處理技術！')
print(model.words)

['我', '愛', '自然', '語言', '處理', '技術', '！']

THULAC分詞

安裝：pip install thulac

國內源安裝：pip install thulac -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入thulac包

import thulac

預設模式：分詞的同時進行詞性標註

thulac_model = thulac.thulac()
wordseg = thulac_model.cut("我愛自然語言處理技術！")
print(wordseg)

Model loaded succeed
[['我', 'r'], ['愛', 'v'], ['自然', 'n'], ['語言', 'n'], ['處理', 'v'], ['技術', 'n'], ['！', 'w']]

只進行分詞

seg_only_model = thulac.thulac(seg_only=True)
wordseg_only = seg_only_model.cut("我愛自然語言處理技術！")
print(wordseg_only)

Model loaded succeed
[['我', ''], ['愛', ''], ['自然', ''], ['語言', ''], ['處理', ''], ['技術', ''], ['！', '']]

NLPIR分詞

安裝：pip install pynlpir

國內源安裝：pip install pynlpir -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入pynlpir包

如果發現載入報錯，則需要更換license：https://github.com/NLPIR-team/NLPIR/tree/master/License/

真是開源的不徹底~~~

import pynlpir

開啟分詞器

pynlpir.open()

分詞：這個工具會同時進行詞性標註

s = "我愛自然語言處理技術！"
word_seg = pynlpir.segment(s)
print(word_seg)

[('我', 'pronoun'), ('愛', 'verb'), ('自然', 'adjective'), ('語言', 'noun'), ('處理', 'verb'), ('技術', 'noun'), ('！', 'punctuation mark')]

Stanford CoreNLP分詞

安裝：pip install stanfordcorenlp

國內源安裝：pip install stanfordcorenlp -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入stanfordcorenlp包

from stanfordcorenlp import StanfordCoreNLP

先下載模型，然後匯入

下載地址：

nlp_model = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27', lang='zh')

分詞

s = '我愛自然語言處理技術！'
word_seg = nlp_model.word_tokenize(s)
print(word_seg)

['我愛', '自然', '語言', '處理', '技術', '！']

Hanlp分詞

安裝：pip install pyhanlp

國內源安裝：pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入pyhanlp包

from pyhanlp import *

s = '我愛自然語言處理技術！'
word_seg = HanLP.segment(s)
for term in word_seg:
    print(term.word)

我
愛
自然語言處理
技術
！

另外，程式碼我已經上傳github：https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/WordSegmentation.ipynb

自然語言處理基礎技術之分詞實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84453008 更多學習筆記關注：公眾號:StudyForAI 知乎專欄:https://www.zhihu.com/people/yuquanle/colum

自然語言處理基礎技術之分詞介紹

宣告：轉載請註明出處：https://blog.csdn.net/m0_37306360/article/details/84404130 更多學習筆記關注：公眾號:StudyForAI 知乎專欄:https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之詞性標註實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84553960 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之依存句法分析

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84639081 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之命名實體識別實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84592596 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之命名實體識別簡介

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84571654 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之依存句法分析實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84645682 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之成分句法分析

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84670800 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之成分句法分析實戰

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84712213 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

自然語言處理基礎技術之詞性標註

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84502176 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns 公眾號：

自然語言處理基礎技術之組合範疇文法

宣告：轉載請註明出處，謝謝：https://blog.csdn.net/m0_37306360/article/details/84719074 另外，更多實時更新的個人學習筆記分享，請關注：知乎：https://www.zhihu.com/people/yuquanle/columns

【NLP漢語自然語言處理與實踐】分詞_筆記

統計 The 計算分詞其余雙向 name -c max 一、兩種分詞標準： 1. 粗粒度。將詞作為最小基本單位。比如：浙江大學。主要用於自然語言處理的各種應用。 2. 細粒度。不僅對詞匯繼續切分，也對詞匯內部的語素進行切分。比如：浙江/大學。主要用於搜索

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

Python 自然語言處理（基於jieba分詞和NLTK）

----------歡迎加入學習交流QQ群：657341423 自然語言處理是人工智慧的類別之一。自然語言處理主要有那些功能？我們以百度AI為例從上述的例子可以看到，自然語言處理最基本的功能是詞法分析，詞法分析的功能主要有：分詞分句詞語標註詞法時態

自然語言處理(NLP) 一：分詞、分句、詞幹提取

需要安裝nltk自然語言處理包，anaconda預設已經安裝了還需要安裝nltk語料庫:http://www.nltk.org/data.html 自然語言基礎知識： 1、分詞魚香肉絲裡面多放點辣椒對稱加密需要DES處理引擎天兒冷了多穿點

統計自然語言處理梳理一：分詞、命名實體識別、詞性標註

進行統計自然語言處理系統梳理，學習資料《統計自然語言處理.宗成慶》。一、自動分詞詞，詞是最小的能夠獨立運用的語言單位。自動分詞問題由來。中文（還有日語、越南語、藏語等）的文字不像西方屈折語的文字，詞與詞之間沒有空格之類的標註來顯示

自然語言處理基礎（1）--基本分詞方法

基本的分詞方法包括最大匹配法、最大概率法（最短加權路徑法）、最少分詞法、基於HMM的分詞法、基於互現資訊的分詞方法、基於字元標註的方法和基於例項的漢語分詞方法等。 1.最大匹配法最大匹配法需要一個詞表，分詞的過程中用文字的候選

自然語言處理NLP技術里程碑、知識結構、研究方向和機構導師(公號回覆“NLP總結”下載彩標PDF典藏版資料)

自然語言處理NLP技術里程碑、知識結構、研究方向和機構導師(公號回覆“NLP總結”下載彩標PDF典藏版資料) 原創：秦隴紀資料簡化DataSimp 今天資料簡化DataSimp導讀：自然語言處理髮展史上的十大里程碑、NLP知識結構，以及NLP國內研究方向、機構、導師。祝大家學習

《統計自然語言處理基礎》作者Christopher D. Manning指出的NLP研究趨勢

ble text 自然語言處理 nlp pen rep 向量 att ext 20017-2018年本書作者Christopher D. Manning 在Bytedance演講時指出的NLP研究趨勢： (1) word2vec -> GloVe詞向量 (2) MT問

自然語言處理基礎知識

1.假設句子按單詞順序為w1,w2,...,wn ，那麼這個句子的概率公式為？句子S在語料庫中出現的概率P(S)=P(w1,w2,w3...wn)。根據條件概率公式P(w1,w2,w3...wn)=P(w1)*P(w2|w1)*p(w3|w1,w2)...P(wn|w1,w2...w(n-1))。

自然語言處理基礎技術之分詞實戰

jieba分詞

安裝：pip install jieba

國內源安裝更快：pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入jieba包

全模式分詞

精確模式分詞

搜尋引擎模式

SnowNLP分詞

安裝：pip install snownlp

國內源安裝：pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入snownlp包

THULAC分詞

安裝：pip install thulac

國內源安裝：pip install thulac -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入thulac包

預設模式：分詞的同時進行詞性標註

只進行分詞

NLPIR分詞

安裝：pip install pynlpir

國內源安裝：pip install pynlpir -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入pynlpir包

如果發現載入報錯，則需要更換license：https://github.com/NLPIR-team/NLPIR/tree/master/License/

真是開源的不徹底~~~

開啟分詞器

分詞：這個工具會同時進行詞性標註

Stanford CoreNLP分詞

安裝：pip install stanfordcorenlp

國內源安裝：pip install stanfordcorenlp -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入stanfordcorenlp包

先下載模型，然後匯入

下載地址：

分詞

Hanlp分詞

安裝：pip install pyhanlp

國內源安裝：pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple

匯入pyhanlp包

相關推薦