詞法分析-利用Jieba實現高頻詞提取（Python）

阿新 • • 發佈：2018-12-31

Jieba是一箇中文分詞工具，可以進行關鍵詞提取、詞性標註等，並在python等中提供了介面。

任務：利用Jieba實現高頻詞的提取。

首先在中找到並安裝jieba（已安裝好）

然後直接使用即可。

Jieba有很多種模式（cut\cut_for_search\lcut\lcut_for_search），本次使用後兩種（全模式和搜尋引擎模式）。

首先利用open函式開啟某txt檔案，然後利用read把內容儲存在某變數中（檔案炒雞大的時候read可能會無法使用）

然後呼叫jieba.lcut（或lcut_for_search），會範圍一個炒雞長的列表，裡邊是對內容進行分詞的結果，然後統計詞頻（只統計兩個字以上）並放在字典中，最後使用sorted等函式進行排序即可。

Jiaba.py:(以上學期某課的《紅樓夢》為例)


import jieba
file=open('redmansiondream.txt',encoding="ansi")
file_context=file.read()
words1=jieba.lcut(file_context)#全模式
words2=jieba.lcut_for_search(file_context)#搜尋引擎模式

#統計詞頻

data1={}
for chara in words1:
    if len(chara)<2:
        continue
    if chara in data1:
        data1[chara]+=1
    else:
        data1[chara]=1
        
data1=sorted(data1.items(),key = lambda x:x[1],reverse = True) #排序


data2={}
for chara in words2:
    if len(chara)<2:
        continue
    if chara in data2:
        data2[chara]+=1
    else:
        data2[chara]=1
        
data2=sorted(data2.items(),key = lambda x:x[1],reverse = True) #排序

最後統計如下：

（左為全模式，右為搜尋引擎模式）

詞法分析-利用Jieba實現高頻詞提取（Python）

Jieba是一箇中文分詞工具，可以進行關鍵詞提取、詞性標註等，並在python等中提供了介面。任務：利用Jieba實現高頻詞的提取。首先在中找到並安裝jieba（已安裝好）然後直接使用即可。 Jieba有很多種模式（cut\cut_for_search\lcut\lcut

【NLP學習筆記】用jieba實現高頻詞提取

高頻詞高頻詞提取（TF，Term Frequency）,高頻詞指在文件中出現頻率較高並且有用的詞，關鍵點有兩個:出現頻率高、有用。第一步定義獲取語料的函式 def getContent(path,encoding='gbk): with open(

Python小程式——利用wordcloud庫生成詞雲（二）

wordcloud庫利用wordcloud物件生成詞雲，其中可以配置很多屬性，讓你的詞雲更加個性化。 w_cloud = wordcloud.WordCloud( font_path=font, background_color=None, mode="RGBA", # 背

Python小程式——利用wordcloud庫生成詞雲（一）

最近自學Python的中文處理，其中用到了wordcloud庫生成一篇文章的詞雲，能更直觀的表現出文章的主題，是一個不錯的工具。雖然現在網上有很多詞雲線上生成的應用，不過為了更個性化一點，還是寫一個自己的詞雲生成工具吧。 import jieba import wordcloud from

利用nodejs實現商品管理系統（二）

下面實現商品管理系統第一步：對應的ejs與資料交換的編寫格式。商品列表介面product.ejs <% for(var i=0;i<list.length;i++){%> <tr>

利用trie樹實現字首輸入提示（python）

程式碼來自https://github.com/wklken/suggestion/blob/master/easymap/suggest.py 還實現了快取功能，搜尋某個字首超過一定次數時，進行快取，減少搜尋時間：將詞字尾部分儲存在節點使用了詞頻資訊，可以對返回的列表進行排序使用dict實現tri

Java for Web學習筆記（九十）：訊息和叢集（5）利用websocket實現訂閱和釋出（上）

叢集中的訂閱和釋出利用spring framework在本app內的訂閱和釋出十分簡單。當我們系統越來越複雜的時候，我們需要向其他app釋出訊息。本學習將給出一個通過websocket來實現不同app之間訊息的訂購和釋出。在小例子中，我們在所有節點之間都建立webSoc

KNN實現圖片的分類（python）

一 . K-近鄰演算法（KNN）概述最簡單最初級的分類器是將全部的訓練資料所對應的類別都記錄下來，當測試物件的屬性和某個訓練物件的屬性完全匹配時，便可以對其進行分類。但是怎麼可能所有測試物件都會找到與之完全匹配的訓練物件呢，其次就是存在一個測試物件同時與多個訓練

ros系統下通過pyserial模組實現串列埠通訊（Python）

經過幾天的摸索終於實現了：在ros系統下，訂閱Twist/cmd_vel 訊息，經過USB轉串列埠通訊，實現了通過燈帶實時反映小車（差速）執行狀態的功能。通訊部分主要依賴pyserial模組的功能實現。 #!/usr/bin/env python #codi

HMM最大匹配分詞演算法（Python）

正向最大匹配演算法是我國最早提出的解決中文分詞問題的演算法，因其簡單易操作，至今仍作為機器分詞的粗分演算法，在今天看來，這種演算法的準確率遠不夠高，無法達到令人滿意的要求。這只是一次練習。待切分

Numpy簡單繪製K線圖實現上漲下跌效果圖（Python）

# 將原始資料中日-月-年格式的日期字串轉換為numpy可以處理的年月日格式 def dmy2ymd(dmy): dmy = str(dmy, encoding='utf-8') date = dt.datetime.strptime(dmy, '%d-%m-

目標跟蹤---簡單的實現運動物體檢測（python）（1）

#基本的運動物體檢測 #計算幀之間的差異，或考慮“背景”幀與其他幀之間的差異 import cv2 import numpy as np ##設定為預設攝像頭 camera = cv2.VideoCapture(0) #getStructuringElement是獲取常用

gensim的word2vec如何得出詞向量（python）

首先需要具備gensim包，然後需要一個語料庫用來訓練，這裡用到的是skip-gram或CBOW方法，具體細節可以去查查相關資料，這兩種方法大致上就是把意思相近的詞對映到詞空間中相近的位置。語料庫test8下載地址: 這個語料庫是從http://blog.csdn.net/m

利用EasySQLMAIL實現自動資料提取和郵件傳送功能（1）

轉自：http://blog.sina.com.cn/s/blog_1549483b70102wioy.html 最近幾個月每天都在發通報。過程很繁瑣，動作很機械，整個人就是一部機器，執行SQL，填Excel，發郵件。所以想把日報自動化了。最後找到一個叫EasySQLMAIL的軟體，試了一下，很簡單也很方便

用Vue來實現音樂播放器（九）：歌單數據接口分析

QQ 插件但是之間 nbsp 跨域問題前端代理服務一點 z這裏如果我們和之前獲取輪播圖的數據一樣來獲取表單的數據發現根本獲取不到原因是qq音樂在請求頭裏面加了authority和refer等但是如果我們通過jsonp實現跨域

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

利用keepalived實現高可用nginx(修改正）

實驗拓撲圖（1）本次基於VMware Workstation搭建一個四臺Linux（CentOS 7.5）系統所構成的一個伺服器叢集，其中兩臺nginx做前端排程伺服器（一臺為主機，另一臺為備機），另外兩臺作為真實的Web伺服器　　（2）本次實驗設定了一個VIP（Virtual IP）為1

基於Landsat-8 OLI影像的鄱陽湖資訊提取（python實現）

一、背景之前寫過基於雙峰閾值分割的冰湖提取演算法，近期需要做一個湖泊提取的簡單程式，就以鄱陽湖為例吧。本文從零開始介紹如何提取鄱陽湖資訊，並製作shp檔案。二、資料獲取及預處理為了獲取鄱陽湖的Landsat-8 OLI影像，首先需要知道鄱陽湖的位置，利用百度直接搜尋，可以查詢到鄱陽

利用arcpy實現接邊處理（arcgis要素建立、更新、圖層選擇）

之前一個專案中有關於接邊方面內容，即在兩個相鄰的行政區域內出現面數據有相鄰的部分，現在需要將相鄰部分兩個面的ID互換。具體的資料如下圖所示：那麼如何來解決這個問題呢，首先在arcpy中可以使用 SelectLayerByLocation_management對圖層進

利用tkinter實現簡單計算器功能（不使用eval函式）

利用tkinter實現簡單計算器功能（不使用eval函式）一、思路 tkinter：佈置主介面；上部為數字顯示介面；下部為數字鍵與功能鍵介面；邏輯：程式只考慮兩個運算元進行計算的情況，不考慮複雜情況展示：

詞法分析-利用Jieba實現高頻詞提取（Python）

相關推薦