2. 觀點提取和聚類代碼詳解

阿新 • • 發佈：2019-01-16

opinion n) math hold 依存關系 sed words 根據 com

1. pyhanlp介紹和簡單應用

2. 觀點提取和聚類代碼詳解

1. 前言

本文介紹如何在無監督的情況下，對文本進行簡單的觀點提取和聚類。

2. 觀點提取

觀點提取是通過依存關系的方式，根據固定的依存結構，從原文本中提取重要的結構，代表整句的主要意思。

我認為比較重要的依存關系結構是"動補結構", "動賓關系", "介賓關系"3個關系。不重要的結構是"定中關系", "狀中結構", "主謂關系"。通過核心詞ROOT出發，來提取觀點。

觀點提取的主要方法如下，完整代碼請移步致github。

''' 
關鍵詞觀點提取，根據關鍵詞key，找到關鍵處的rootpath，尋找這個root中的觀點，觀點提取方式和parseSentence的基本一樣。
支持提取多個root的觀點。
'''
def parseSentWithKey(self, sentence, key=None):
    #key是關鍵字，如果關鍵字存在，則只分析存在關鍵詞key的句子，如果沒有key，則不判斷。
    if key:
        keyIndex = 0
        if key not in sentence:
            return []
    rootList = []
    parse_result = str(self.hanlp.parseDependency(sentence)).strip().split('\n')
    # 索引-1，改正確，因為從pyhanlp出來的索引是從1開始的。
    for i in range(len(parse_result)):
        parse_result[i] = parse_result[i].split('\t')
        parse_result[i][0] = int(parse_result[i][0]) - 1
        parse_result[i][6] = int(parse_result[i][6]) - 1
        if key and parse_result[i][1] == key:
            keyIndex = i

    for i in range(len(parse_result)):
        self_index = int(parse_result[i][0])
        target_index = int(parse_result[i][6])
        relation = parse_result[i][7]
        if relation in self.main_relation:
            if self_index not in rootList:
                rootList.append(self_index)
        # 尋找多個root，和root是並列關系的也是root
        elif relation == "並列關系" and target_index in rootList:
            if self_index not in rootList:
                rootList.append(self_index)


        if len(parse_result[target_index]) == 10:
            parse_result[target_index].append([])

        #對依存關系，再加一個第11項，第11項是一個當前這個依存關系指向的其他索引
        if target_index != -1 and not (relation == "並列關系" and target_index in rootList):
            parse_result[target_index][10].append(self_index)
    
    # 尋找key在的那一條root路徑
    if key:
        rootIndex = 0
        if len(rootList) > 1:
            target = keyIndex
            while True:
                if target in rootList:
                    rootIndex = rootList.index(target)
                    break
                next_item = parse_result[target]
                target = int(next_item[6])
        loopRoot = [rootList[rootIndex]]
    else:
        loopRoot = rootList

    result = {}
    related_words = set()
    for root in loopRoot:
        # 把key和root加入到result中
        if key:
            self.addToResult(parse_result, keyIndex, result, related_words)
        self.addToResult(parse_result, root, result, related_words)

    #根據'動補結構', '動賓關系', '介賓關系'，選擇觀點
    for item in parse_result:
        relation = item[7]
        target = int(item[6])
        index = int(item[0])
        if relation in self.reverse_relation and target in result and target not in related_words:
            self.addToResult(parse_result, index, result, related_words)

    # 加入關鍵詞
    for item in parse_result:
        word = item[1]
        if word == key:
            result[int(item[0])] = word

    #對已經在result中的詞，按照在句子中原來的順序排列
    sorted_keys = sorted(result.items(), key=operator.itemgetter(0))
    selected_words = [w[1] for w in sorted_keys]
    return selected_words

通過這個方法，我們拿到了每個句子對應的觀點了。下面對所有觀點進行聚類。

2.1 觀點提取效果

原句	觀點
這個手機是正品嗎？	手機是正品
禮品是一些什麽東西？	禮品是什麽東西
現在都送什麽禮品啊	都送什麽禮品
直接付款是怎麽付的啊	付款是怎麽付
如果不滿意也可以退貨的吧	不滿意可以退貨

3. 觀點聚類

觀點聚類的方法有幾種：

直接計算2個觀點的聚類。（我使用的方法）
把觀點轉化為向量，比較余弦距離。

我的方法是用difflib對任意兩個觀點進行聚類。我的時間復雜度很高\(O(n^2)\)，用一個小技巧優化了下。代碼如下：

def extractor(self):
    de = DependencyExtraction()
    opinionList = OpinionCluster()
    for sent in self.sentences:
        keyword = ""
        if not self.keyword:
            keyword = ""
        else:
            checkSent = []
            for word in self.keyword:
                if sent not in checkSent and word in sent:
                    keyword = word
                    checkSent.append(sent)
                    break

        opinion = "".join(de.parseSentWithKey(sent, keyword))
        if self.filterOpinion(opinion):
            opinionList.addOpinion(Opinion(sent, opinion, keyword))


    '''
        這裏設置兩個閾值，先用小閾值把一個大數據切成小塊，由於是小閾值，所以本身是一類的基本也能分到一類裏面。
        由於分成了許多小塊，再對每個小塊做聚類，聚類速度大大提升，thresholds=[0.2, 0.6]比thresholds=[0.6]速度高30倍左右。
        但是[0.2, 0.6]和[0.6]最後的結果不是一樣的，會把一些相同的觀點拆開。
    '''
    thresholds = self.json_config["thresholds"]
    clusters = [opinionList]
    for threshold in thresholds:
        newClusters = []
        for cluster in clusters:
            newClusters += self.clusterOpinion(cluster, threshold)
        clusters = newClusters

    resMaxLen = {}
    for oc in clusters:
        if len(oc.getOpinions()) >= self.json_config["minClusterLen"]:
            summaryStr = oc.getSummary(self.json_config["freqStrLen"])
            resMaxLen[summaryStr] = oc.getSentences()

    return self.sortRes(resMaxLen)

3.1 觀點總結

對聚類在一起的觀點，提取一個比較好的代表整個聚類的觀點。

我的方法是對聚類觀點裏面的所有觀點進行字的頻率統計，對高頻的字組成的字符串去和所有觀點計算相似度，相似度最高的那個當做整個觀點聚類的總的觀點。

def getSummary(self, freqStrLen):
    opinionStrs = []
    for op in self._opinions:
        opinion = op.opinion
        opinionStrs.append(opinion)

    # 統計字頻率
    word_counter = collections.Counter(list("".join(opinionStrs))).most_common()

    freqStr = ""
    for item in word_counter:
        if item[1] >= freqStrLen:
            freqStr += item[0]

    maxSim = -1
    maxOpinion = ""
    for opinion in opinionStrs:
        sim = similarity(freqStr, opinion)
        if sim > maxSim:
            maxSim = sim
            maxOpinion = opinion

    return maxOpinion

3.2 觀點總結效果

聚類總結	所有觀點
手機是全新正品	手機是全新正品手機是全新手機是不是正品保證是全新手機
能送無線充電器	能送無線充電器人家送無線充電器送無線充電器買能送無線充電器
可以優惠多少	可以優惠多少你好可優惠多少能優惠多少可以優惠多少
是不是翻新機	是不是翻新機不會是翻新機手機是還是翻新會不會是翻新機
花唄可以分期	花唄不夠可以分期花唄分期可以可以花唄分期花唄可以分期
沒有給發票	我沒有發票發票有開給我沒有給發票你們有給發票

4. 總結

以上我本人做的一些簡單的觀點提取和聚類，可以適用一些簡單的場景中。

2. 觀點提取和聚類代碼詳解

opinion n) math hold 依存關系 sed words 根據 com 1. pyhanlp介紹和簡單應用 2. 觀點提取和聚類代碼詳解 1. 前言本文介紹如何在無監督的情況下，對文本進行簡單的觀點提取和聚類。 2. 觀點提取觀點提取是通過依存關系的方式，

html5中制作loading圖標和圖片預覽代碼詳解

eight -c html5 圖片 nec lin lib jpg truct zh-cn html5制作loading圖的示例代碼如下: <!DOCTYPE html><html><head><title><

dcc源代碼詳解(2)

去除函數 com 生成代碼 lena light process highlight 在實現distcc客戶端時，需要首先實現該功能dcc_expand_preprocessor_options，該函數對gcc的-wp參數進行了處理查看linux的幫助手

canvas特效代碼詳解（2）

text pre javascrip css png tco border src null canvas是一個就基於像素的畫圖h5元素。利用canvas做一個如下描述所示的動態圖形：當鼠標點下去時開始繪圖，在鼠標結束時完成一個矩形，當再一次點擊時重復第一次的繪圖步驟

(Go)07.Go語言中strings和strconv包示例代碼詳解

dex 實現 light div 重復字符轉換 trim 漢字大小寫 1.strings使用前綴和後綴 HasPrefix判斷字符串s是否以prefix開頭: 示例: package main import ( "fmt" "strings"

分針網—IT教育：nodeJS新建一個項目及代碼詳解

-a dcom lin 生成 -h images == 控制 ins 有了解nodejs的童鞋們知道，nodejs有很多的依賴，那麽我們在新建一個項目的時候，如何快速的導入這些依賴從而創建一個nodejs項目呢，接下來會詳細介紹。這裏安利一個前端開發工具——webs

SSD（single shot multibox detector）算法及Caffe代碼詳解[轉]

作者 3.4 pdf 論文做了對比度調整覆蓋 eccv 添加這篇博客主要介紹SSD算法，該算法是最近一年比較優秀的object detection算法，主要特點在於采用了特征融合。論文：SSD single shot multibox detector論文鏈接：h

教程 | Kaggle網站流量預測任務第一名解決方案：從模型到代碼詳解時序預測

abs rdf reg lock 集成 deep 月份 current 均值 https://mp.weixin.qq.com/s/JwRXBNmXBaQM2GK6BDRqMw 選自GitHub 作者：Artur Suilin 機器之心編譯參與：蔣思源、路雪、黃小天

2.堆.棧和內存映射詳解

例子 color 註意圖片過程 size ont 大量 span 1.每個線程都有自己專屬的棧(stack),先進後出(LIFO) 2.棧的最大尺寸固定,超出則引起棧溢出 3.變量離開作用範圍後,棧上的數據會自動釋放 4.堆上內存必須手動釋放(C/C++)除非語言執行環

8 TFTP代碼詳解協議寫在程序中

com erro udp套接字 == ons resp 如果 put sed 1.版本1：發送請求 # -*- coding:utf-8 -*- import struct from socket import * #0. 獲取要下載的文件名字: downloadFi

傳美雲商系統軟件開發代碼詳解

移動互基於終端 define let 軟件開發傳統特點創業 2012年，中國網民互聯網接入的方式呈現出全新格局。據中國互聯網139信2673息7371中心的數據統計，在2012年上半年，通過手機接入互聯網的網民數量達到3.88億，相比之下臺式電腦為3.80億，手機

後綴數組代碼詳解

技術決定 getheight break 所在離散兩個 tps wid 說起來學了很久的後綴數組了思想還是很容易明白的最大的問題就是代碼看不懂然後在不斷模擬研究的過程中終於弄清楚了一點就決定寫下來了不然又會忘的QAQ 以下是代碼 ps：首先要弄懂基數排

第一個flask應用代碼詳解

python flask 上一篇我們創建了第一個簡單的flask應用程序，這一篇我們來看一下，這個最簡單的應用程序都做了哪些事第一行代碼，導入了flask類 from flask import Flask 第二步創建了Flask類的實例 app = Flask(__name__) 這行代碼裏

雲計算Python自動化：運算符代碼詳解

雲計算雲計算Python自動化：運算符代碼詳解：邏輯運算符：以下假設變量 a 為 10, b為 20: and x and y 布爾"與" - 如果 x 為 False，x and y 返回 False，否則它返回 y 的計算值。 (a and b) 返回 20。 or x or y

關鍵城市--圖的割點《啊哈算法》代碼詳解

ID highlight int 如果 div dfs 結點 () min #include<iostream> using namespace std; int n,m,e[9][9],root; int num[9],low[9],flag[9],inde

BBS項目登錄界面代碼詳解

raw 數字0 efault import fun pri panel 行修改 use forms from django import forms# 創建form類class LoginInfo(forms.Form): # 創建賬號字段 username =

BBS項目註冊界面and部分首頁代碼詳解

links span better direct 圖片文件方法報錯信息 header models forms # 創建註冊form類class RegForm(forms.Form): #創建註冊用戶字段 username = forms.CharFiel

代碼詳解生成器、叠代器

進一步數據結構圖片代碼分享 cep ror border http 本文講述了以下幾個方面: 　　1.何為叠代，何為可叠代對象，何為生成器，何為叠代器？　　2.可叠代對象與叠代器之間的區別　　3.生成器內部原理解析，for循環叠代內部原理解析　　4.可叠代對象

機器學習_K近鄰代碼詳解

under () als test readlines 通過 swe port range k近鄰優點：精度高、對異常值不敏感、無數據輸入假定；k近鄰缺點：計算復雜度高、空間復雜度高import numpy as npimport operatorfrom os impor

機器學習_決策樹Python代碼詳解

機器 one math n) sco atl return 復雜度重復決策樹優點：計算復雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特征數據；決策樹缺點：可能會產生過度匹配問題。決策樹的一般步驟：（1）代碼中def 1，計算給定數據集的香農熵：

2. 觀點提取和聚類代碼詳解

1. pyhanlp介紹和簡單應用

2. 觀點提取和聚類代碼詳解

1. 前言

2. 觀點提取

2.1 觀點提取效果

3. 觀點聚類

3.1 觀點總結

3.2 觀點總結效果

4. 總結

相關推薦