09.4 python基礎--jieba庫

阿新 • • 發佈：2018-12-18

09.4.1 簡介

jieba庫是優秀的中文分詞第三方庫
jieba庫提供三種分詞模式，最簡單隻需掌握一個函式

原理：利用一箇中文詞庫，確定漢字之間的關聯概率

09.4.2 分詞的三種模式

精確模式：把文字精確的切分開，不存在冗餘單詞
全模式：把文字中所有可能的詞語都掃描出來，有冗餘
搜尋引擎模式：在精確模式基礎上，對長詞再次切分

09.4.3 常用庫函式

分詞要點：jieba.lcut(s)

##精確模式，返回一個列表型別的分詞結果
a=jieba.lcut( "中國是一個偉大的國家");print(a)
>['中國', '是', '一個', '偉大', '的', '國家']

##全模式，返回一個列表型別的分詞結果，存在冗餘
b=jieba.lcut( "中國是一個偉大的國家",cut_all=True);print(b)
>['中國', '國是', '一個', '偉大', '的', '國家']

##搜尋引擎模式，返回一個列表型別的分詞結果，存在冗餘
c=jieba.lcut_for_search("中華人民共和國是偉大的");print(c)
>['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

##向分詞詞典增加新詞(兩種方式)
jieba.add_word('我愛')
jieba.load_userdict('1.txt')

09.4.4 程式碼

hamlet中字元出現次數

def getText():      ##文字轉換統一
    txt = open('C:/Users/ZY/Desktop/hamlet.txt','r').read()   ##讀取檔案
    txt = txt.lower()                ##轉換為小寫
    for o in '[email protected]#$%^&*()_-+=`~:;"/?>.<,|\\':
        txt =txt.replace(o,' ')   ## 替換特殊符號為空字元
    return txt

HamltTxt = getText()     ##呼叫轉換後的函式
words =HamltTxt.split()    ##按照空格拆分
counts = {}       ## 字典
for word in words:
    counts[word] = counts.get(word,0) + 1 ## 字典的get()方法計算出現次數
items = list(counts.items())    ##  將字典的每一個鍵值對當作一項轉化為列表
items.sort(key = lambda x:x[1],reverse=True)  ## 排序後倒排
for i in range(10):
    word, count = items[i]  ##取前10位
    print('{0:<10}{1:>5}'.format(word,count))
print(items)

>the 1138
 and 965
 to 752
 of 669
 you 550
 i 542
 a 542
 my 514
 hamlet 462
 in 436
>[('the', 1138), ('and', 965), ('to', 752), ('of', 669), ('you', 550), ('i', 542),.....

三國演義

import jieba
txt = open('C:/Users/ZY/Desktop/sanguo.txt','r',encoding ='utf-8').read()
words = jieba.lcut(txt)
counts={}
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word] =counts.get(word,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse = True)
for i  in range(10):
    word,count =items[i]
    print('{0:<10}{1:>5}'.format(word,count))

>呂布 180
 曹操 140
 董卓 104
 將軍 101
 玄德 98
 卻說 73
 天下 66
 孫策 65
 徐州 61
 袁紹 60

09.4 python基礎--jieba庫

09.4.1 簡介 jieba庫是優秀的中文分詞第三方庫 jieba庫提供三種分詞模式，最簡單隻需掌握一個函式原理：利用一箇中文詞庫，確定漢字之間的關聯概率 09.4.2 分詞的三種模式精確模式：把文字精確的切分開，不存在冗餘單詞全模式：把文字中所有可能的詞語都掃描出來

09.8 python基礎--PyQt5庫

09.8.1 程式 # -*- coding: utf-8 -*- import sys from PyQt5 import QtWidgets from PyQt5.QtGui import QFont,QIcon#QtWidgets不包含QFont必須呼叫QtGui from PyQ

09.7 python基礎--os庫

09.7.1 基本介紹 os庫是Python標準庫，提供通用的、基本的作業系統互動功能 09.7.2 路徑操作 os.path子庫以path為入口，用於操作和處理檔案路徑 import os.path ##返回path在當前系統中的絕對路徑 a = os.path.abs

09.6 python基礎--pyinstaller庫

09.6.1 簡介 python第三方庫，用於程式打包 09.6.2 使用 1、安裝 cmd視窗，輸入:pip install pyinstaller,等待安裝完成。 2、打包 cmd視窗，.py檔案路徑下輸入:pyinstaller -F 1.py,等待打包完成

09.5 python基礎--wordcloud庫

09.5.1 wordcloud庫簡介優秀的詞雲展示第三方庫以詞語為基本單位安裝：cmd下 pip install wordcloud 09.5.2 wordcloud庫基本使用基本方法 import wordcloud w =wordcloud.WordCloud

09.3 python基礎--random庫

09.3.1 簡介使用隨機數的python標準庫，用於產生隨機數 09.3.2 函式基本隨機數函式 + seed() :給隨機數物件一個種子值，用於產生隨機序列，完全相同的種子產生的隨機數列是相同的，所以如果想產生不同的隨機數就需要用當前時間作為種子 random

09.2 python基礎--time庫

09.2.1 常用函式 time()----獲取當前時間戳，即計算機內部時間值，浮點數 ctime()----獲取當前時間並以易讀方式表示，返回字串 gmtime()----獲取當前時間，表示為計算機可處理的時間格式 import time as t pr

09.1 python基礎--turtle庫

09.1.1 turtle庫畫布：turtle的一個畫布空間最小單位是畫素座標絕對座標—畫布的中心點為原點海龜座標—以自己為原點絕對角度座標—與數學座標系類似相對角度座標—以自己當前方向為0方向

09 python基礎--常用庫

09.1 資料處理->人工智慧簡介資料表示->資料清洗->資料統計->資料視覺化->資料探勘->人工智慧資料表示：採用合適方式用程式表達資料資料清理：資料歸一化、資料轉換、異常值處理資料統計：資料的概要理解，數量、分佈、中位數等資料視

python基礎===jieba模塊，Python 中文分詞組件

word cut 用法地址 api mas 精確 == com api參考地址：https://github.com/fxsjy/jieba/blob/master/README.md 安裝自行百度基本用法： import jieba #全模式 word = jie

python 利用jieba庫詞頻統計

clu eve color items text true eba word lambda 1 #統計《三國誌》裏人物的出現次數 2 3 import jieba 4 text = open(‘threekingdoms.txt‘,‘r‘,encoding=‘u

python引入jieba庫（引入第三方庫的方法）

1.在沒有引入之前，import jieba[顯示：No module named 'jieba'] 2.下載第三方庫到自己的電腦，譬如jieba(官方下載地址): https://pypi.org/project/jieba/ 3.而後通過cmd執行，參考如下：

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

python自動化測試筆記4-python基礎

python自動化測試筆記4-python基礎又到了每週筆記時間，有什麼可以表達我的心情，總有一種付出了很多，回報卻只有一點點的感覺，好難過。但是還得堅持呀，何必執著於結果，凡事看開些。在老師回顧的上週作業中，看到幾個之前不知道的寫法。 username,password = u

Python基礎——matplotlib庫的使用與繪圖視覺化

1、matplotlib庫簡介： Matplotlib 是一個 Python 的 2D繪相簿，開發者可以便捷地生成繪圖，直方圖，功率譜，條形圖，散點圖等。 2、Matplotlib 庫使用：注：由於深度學習實踐中常常會使用繪圖，主要包括生成

python中jieba庫篩選高頻詞語

安裝jieba庫 pip install jieba 如果失敗提示許可權問題輸入：sudo su #-*-coding:UTF-8-*- import json import jieba txt = open("data.txt", "r").read() words = jieba

Python：Python 中 jieba 庫的使用（中文分詞）

==================================================================一、說明： 1、支援三種分詞模式：精確模式，試圖將句子最精確地切開，適合文字分析全模式

Python安裝jieba庫的具體步驟

1.在具體地址上下載jieba——第三方中文分詞函式庫下載地址：https://pypi.org/project/jieba/#files2.在命令提示符裡面輸入命令來安裝jieba庫首先定位到jieba的setup.py檔案的上級檔案的地方，然後輸入>python s

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

Python基礎day-4[dict,set,bool]

pro 錯誤 name 特性字典無法密碼精確新增布爾類型: 　　True和False 　　所有的數據類型自帶布爾值,只有0，None，空的布爾值為False 字典dict: 　　特性:dict中使用key和對應的value來存儲數據,dict不像 list那樣,

09.4 python基礎--jieba庫

09.4.1 簡介

09.4.2 分詞的三種模式

09.4.3 常用庫函式

09.4.4 程式碼

相關推薦