RAKE 中文分詞與關鍵詞提取

阿新 • • 發佈：2018-12-14

import jieba
import jieba.posseg as pseg
import operator
import json
from collections import Counter


# Data structure for holding data
class Word():
    def __init__(self, char, freq = 0, deg = 0):
        self.freq = freq
        self.deg = deg
        self.char = char

    def returnScore(self):
        return self.deg/self.freq

    def updateOccur(self, phraseLength):
        self.freq += 1
        self.deg += phraseLength

    def getChar(self):
        return self.char

    def updateFreq(self):
        self.freq += 1

    def getFreq(self):
        return self.freq

# Check if contains num
def notNumStr(instr):
    for item in instr:
        if '\u0041' <= item <= '\u005a' or ('\u0061' <= item <='\u007a') or item.isdigit():
            return False
    return True

# Read Target Case if Json
def readSingleTestCases(testFile):
    with open(testFile) as json_data:
        try:
            testData = json.load(json_data)
        except:
            # This try block deals with incorrect json format that has ' instead of "
            data = json_data.read().replace("'",'"')
            try:
                testData = json.loads(data)
                # This try block deals with empty transcript file
            except:
                return ""
    returnString = ""
    for item in testData:
        try:
            returnString += item['text']
        except:
            returnString += item['statement']
    return returnString

def run(rawText):
    # Construct Stopword Lib
    swLibList = [line.rstrip('\n') for line in open(r"sp.txt",'r',encoding='utf-8')]
    # Construct Phrase Deliminator Lib
    conjLibList = [line.rstrip('\n') for line in open(r"spw.txt",'r',encoding='utf-8')]

    # Cut Text
    rawtextList = pseg.cut(rawText)

    # Construct List of Phrases and Preliminary textList
    textList = []
    listofSingleWord = dict()
    lastWord = ''
    poSPrty = ['m','x','uj','ul','mq','u','v','f']
    meaningfulCount = 0
    checklist = []
    for eachWord, flag in rawtextList:
        checklist.append([eachWord,flag])
        if eachWord in conjLibList or not notNumStr(eachWord) or eachWord in swLibList or flag in poSPrty or eachWord == '\n':
            if lastWord != '|':
                textList.append("|")
                lastWord = "|"
        elif eachWord not in swLibList and eachWord != '\n':
            textList.append(eachWord)
            meaningfulCount += 1
            if eachWord not in listofSingleWord:
                listofSingleWord[eachWord] = Word(eachWord)
            lastWord = ''

    # Construct List of list that has phrases as wrds
    newList = []
    tempList = []
    for everyWord in textList:
        if everyWord != '|':
            tempList.append(everyWord)
        else:
            newList.append(tempList)
            tempList = []

    tempStr = ''
    for everyWord in textList:
        if everyWord != '|':
            tempStr += everyWord + '|'
        else:
            if tempStr[:-1] not in listofSingleWord:
                listofSingleWord[tempStr[:-1]] = Word(tempStr[:-1])
                tempStr = ''

    # Update the entire List
    for everyPhrase in newList:
        res = ''
        for everyWord in everyPhrase:
            listofSingleWord[everyWord].updateOccur(len(everyPhrase))
            res += everyWord + '|'
        phraseKey = res[:-1]
        if phraseKey not in listofSingleWord:
            listofSingleWord[phraseKey] = Word(phraseKey)
        else:
            listofSingleWord[phraseKey].updateFreq()

    # Get score for entire Set
    outputList = dict()
    for everyPhrase in newList:

        if len(everyPhrase) > 5:
            continue
        score = 0
        phraseString = ''
        outStr = ''
        for everyWord in everyPhrase:
            score += listofSingleWord[everyWord].returnScore()
            phraseString += everyWord + '|'
            outStr += everyWord
        phraseKey = phraseString[:-1]
        freq = listofSingleWord[phraseKey].getFreq()
        if freq / meaningfulCount < 0.01 and freq < 3 :
            continue
        outputList[outStr] = score

    sorted_list = sorted(outputList.items(), key = operator.itemgetter(1), reverse = True)
    return sorted_list[:10]

if __name__ == '__main__':
    with open(r'E:\xkkAI\dazhao\industry\行業_34_.txt','r') as fp:
        text = ''
        for i in range(100):
            text += fp.readline()
        print(text)
        result = run(text)
        print(result)

RAKE 中文分詞與關鍵詞提取

import jieba import jieba.posseg as pseg import operator import json from collections import Counter # Data structure for holding data c

SnowNLP：?中文分詞?詞性標準?提取文本摘要,?提取文本關鍵詞,?轉換成拼音?繁體轉簡體的處理中文文本的Python3 類庫

sum 文本分類 idf 區別 xtran 轉換成好的一個 osi SnowNLP是一個python寫的類庫，可以方便的處理中文文本內容，是受到了TextBlob的啟發而寫的，由於現在大部分的自然語言處理庫基本都是針對英文的，於是寫了一個方便處理中文的類庫，並且和

自然語言處理之hanlp，Python呼叫與構建，分詞、關鍵詞提取、命名主體識別

HanLP是一系列模型與演算法組成的NLP工具包，由大快搜索主導並完全開源，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。在Python中一種是直接呼叫hanlp的介面pyhanlp.還有就是

分詞加關鍵詞提取

import numpy as np import pandas as pd import jieba #讀取檔案 news_all=pd.read_excel(r"",names=[“title”,“url”,“kind”]) new_all=news_all.dropna() #選取標題

全文檢索Lucene（三）--中文分詞與高亮顯示

一、中文分詞smartcn 二、檢索結果高亮顯示實現首先，建立maven專案，新增相關依賴。<dependencies> <dependency> <groupId>org.apache.lucene</g

中文分詞與詞頻統計例項

http://blog.ourren.com/2014/09/24/chinese_token_and_frequency/ 話說近兩年大資料確實火了，帶給我們最直接的視覺感受就是利用圖或者表來展示大資料所隱藏的內容，真是真實而又直觀。然而技術部落格的側邊欄標籤雲就

中文分詞與停用詞的作用

首先什麼是中文分詞stop word？英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學生”。計算機可以很簡單通過空格知道studen

分詞：淺談中文分詞與jieba原始碼

一、前言1、什麼是中文分詞？中文文字，從形式上看是由漢字、標點符號等組成的一個字串。由字組成詞，再組成句子、文章等。那麼分詞，就是按照一定的規則把字串重新組合成詞序列的過程。2、為什麼要分詞？（1）在中文裡面，詞是最小的能夠獨立活動的有意義的語言成分（2）英文中單詞以空格作為

Python第三方庫jieba（結巴-中文分詞）入門與進階（官方文檔）

修改 demo 特點 pypi nlp CA 動態修改 tag 官方文檔 jieba “結巴”中文分詞：做最好的 Python 中文分詞組件。下載地址：https://github.com/fxsjy/jieba 特點支持三種分詞模式：精確模式，試圖將句子最精確地

中文分詞——知更鳥分詞(RS)設計與實現

內容提要分詞概述演算法分類常見專案知更鳥分詞實現演算法描述資料結構程式碼實現執行結果分析總結本文設計了一種帶逆向回退策略的正向最大匹配。分詞概述

Elasticsearch初探（3）——簡單查詢與中文分詞

一、簡單查詢 1.1 查詢全部請求方式： GET 請求路徑： ES服務的IP：埠/索引名/{分組，可省略}/_search 以上篇文章建立的索引為例，搜尋結果如下： { "took": 0, "timed_out": false, "

hanlp中文分詞、提取摘要關鍵字、語句分析、智慧推薦

hanlp資源： hanlp介紹：http://hanlp.linrunsoft.com/ hanlp下載：https://github.com/hankcs/HanLP hanlp(分詞)使用：https://blog.csdn.net/nima1994/article/details

solr與ik中文分詞的配置，以及新增Core（Add Core）的方式

在下用的版本是solr7.2.1與ikanalyzer-solr6.5：說明：在solr版本5之後就可以不用依賴tomcat進行啟動，可以自行啟動，啟動方式下面會進行講解。需要注意的是：對於solr6以下的版本可用jdk7，從solr6開始只能使用jdk8了。 so

中文分詞的演算法與實現（結巴分詞）

宣告：程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同，希望廣大讀者注意。本部落格以程式碼為主，程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python自然語言處理》，歡迎大家關注。

詞法分析-中文分詞技術-正向最大匹配法與逆向最大匹配法

Long Time No See... 最近深受痛苦的折磨，這一年來所有的事跌宕起伏，如同一瞬，一個個打擊接踵而至，從年初的各種擦邊掛，到各種失敗，各種放棄，似乎沒有發生一個順心的事，不知道從什麼時候起戾氣變得越來越重，更無與人說。不管如何，“盡吾志也而不能至者，可以無悔矣，其孰能譏之乎？”……

幾種常見的中文分詞包的分析與比較

1：中文分詞簡介 2：Lucence的中文分詞 3：庖丁分詞簡介 4：IK中文分詞簡介一：中文分詞簡介 1：分詞演算法分類 -----基於字串匹配的中文分詞方法 eg：句子：我來自瀋陽航空航天大學

自然語言處理與中文分詞的難點總結

中文自動分詞指的是使用計算機自動對中文文字進行詞語的切分，即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。中文分詞的難點 · 未登入詞，基於詞庫的分詞方法往往不能識別新詞、特定領域的專有詞。人名、機構名、

solr 中文分詞mmeseg4j與ik analyzer效果對比

摘要：之前用solr6成功集成了中文分詞mmeseg4j，也順利整合了ik analyzer，對比一下他們分詞的效果。 1884年,中法戰爭時被派福建會辦海疆事務。 ik analyzer：18

Lucene+分詞器精確提取使用者自定義關鍵詞(Lucene版本3.6)

此篇部落格的Lucene版本是3.6.0，若您的Lucene版本為5.X可以移步到此博文http://blog.csdn.net/echoyy/article/details/78468225 在分詞的過程中，有時候需要只提取詞典裡自定義好的關鍵詞，而傳統的分詞工具如(I

Solr與開源中文分詞(ansj)整合

1. ansj分詞原始碼及jar包下載地址原始碼： https://github.com/NLPchina/ansj_seg jar包： http://maven.nlpcn.org/org/ansj/ http://maven.nlpcn.org/org/nlpcn/n

RAKE 中文分詞 與 關鍵詞提取

相關推薦

RAKE 中文分詞與關鍵詞提取