pyhanlp 文字聚類詳細介紹

阿新 • • 發佈：2018-11-25

文字聚類

文字聚類簡單點的來說就是將文字視作一個樣本，在其上面進行聚類操作。但是與我們機器學習中常用的聚類操作不同之處在於。

我們的聚類物件不是直接的文字本身，而是文字提取出來的特徵。因此如何提取特徵因而是非常重要的一步。在HanLP中一共有三個文字聚類方法。前兩種都基於詞袋模式，第一個是最常見的聚類演算法：k-means，但HanLP不光實現了k-means，還實現了速度更快效果更好的repeated bisection演算法（重複二分法，還是翻譯為累次平方法，好像是第一種）。筆者動筆前段時間剛剛添加了一個新的聚類分析器是，基於詞向量的kmens聚類分析器。

基於詞向量的kmeans聚類分析器，輸入的需要時詞向量化後的檔案。雖然HanLP的詞向量在Java實現中，還算可以，但在Python中使用不算太好用，同時Python也不推薦用HanLP做詞向量，我們有更好的工具。所以這裡我們也就不畫蛇添足了。

而對於前兩個聚類分析器而言，其聚類模組可以接受任意文字作為文件，而不需要用特殊分隔符隔開單詞。另外，該模組還接受單詞列表作為輸入，使用者可以將英文、日文等預先切分為單詞列表後輸入本模組。統計方法適用於所有語種，不必拘泥於中文。

分詞器的效能問題

在repeated bisection演算法無論效能還是速度都要優於kmens，但是在本人的測試中，前者速度基本原作者一致約為kmeans的三倍左右，但是效能略低於後者。此處請讀者自行斟酌。

分詞器的引數

自動判斷聚類個數k(此處來自於原文:HanLP中的文字聚類

很多時候使用者可能覺得聚類個數k這個超引數很難準確指定。在repeated bisection演算法中，有一種變通的方法，那就是通過給準則函式的增幅設定閾值beta來自動判斷k。此時演算法的停機條件為，當一個簇的二分增幅小於beta時不再對該簇進行劃分，即認為這個簇已經達到最終狀態，不可再分；當所有簇都不可再分時，演算法終止，此時產生的聚類數量就不再需要人工指定了。

在HanLP中，repeated bisection演算法提供了3種介面，分別需要指定k、beta或兩者同時指定。當同時指定k和beta時，滿足兩者的停止條件中任意一個演算法都會停止。當只指定一個時，另一個停止條件不起作用。這三個介面列舉如下：

public List<Set<K>> repeatedBisection(int nclusters)

public List<Set<K>> repeatedBisection(double limit_eval)

public List<Set<K>> repeatedBisection(int nclusters, double limit_eval)

當我們使用analyzer.repeatedBisection(1.0)時，可以進行自動聚類。

from pyhanlp import *

ClusterAnalyzer = SafeJClass('com.hankcs.hanlp.mining.cluster.ClusterAnalyzer')

analyzer = ClusterAnalyzer()

# 我們需要呼叫並返回自身

analyzer.addDocument("趙一", "流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 流行, 藍調, 藍調, 藍調, 藍調, 藍調, 藍調, 搖滾, 搖滾, 搖滾, 搖滾");

analyzer.addDocument("錢二", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲");

analyzer.addDocument("張三", "古典, 古典, 古典, 古典, 民謠, 民謠, 民謠, 民謠");

analyzer.addDocument("李四", "爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 爵士, 金屬, 金屬, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲, 舞曲");

analyzer.addDocument("王五", "流行, 流行, 流行, 流行, 搖滾, 搖滾, 搖滾, 嘻哈, 嘻哈, 嘻哈");

analyzer.addDocument("馬六", "古典, 古典, 古典, 古典, 古典, 古典, 古典, 古典, 搖滾");

print(analyzer.repeatedBisection(1.0))

[[李四, 錢二], [王五, 趙一], [張三, 馬六]]

評測

評測程式仍然使用搜狗文字分類語料庫迷你版。過程為首先遍歷子目錄讀取文件，以子目錄+檔名作為id將文件傳入聚類分析器進行聚類，並且計算F1值返回。該計算過程已被原作者封裝為介面，我們可以直接呼叫

CORPUS_FOLDER = "/home/fonttian/Data/CNLP/textClassification/sogou-mini/搜狗文字分類語料庫迷你版"

for i in ["kmeans", "repeated bisection"]:

print(i, ClusterAnalyzer.evaluate(CORPUS_FOLDER, i) * 100)

kmeans 83.97065954968313

repeated bisection 82.71523522720585

文章來源FontTian的部落格

pyhanlp 文字聚類詳細介紹

pyhanlp 文字聚類詳細介紹

文字聚類演算法介紹

原子操作類（一）原子操作類詳細介紹

org.apache.commons.io包中的FileUtils檔案工具類詳細介紹

使用scikit-learn進行KMeans文字聚類

異端審判器！一個泛用型文字聚類模型的實現（1）

LDA使用一文字聚類

Java集合類詳細介紹

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

k-means(k均值聚類)演算法介紹及實現(c++)

sklearn之kmeans文字聚類主題輸出

層次聚類的介紹

基於doc2vec的中文文字聚類及去重

基於 K-Means 演算法的文字聚類

MatLab Kmeans聚類詳細解析

Python基於Kmeans演算法實現文字聚類的簡單練習

[python] Kmeans文字聚類演算法+PAC降維+Matplotlib顯示聚類影象

文字聚類——Kmeans

【OpenCV學習筆記 020】K-Means聚類演算法介紹及實現

MATLAB K-means聚類的介紹與使用

pyhanlp 文字聚類詳細介紹

相關推薦