簡單的抽取中文摘要及關鍵詞的方法

阿新 • • 發佈：2018-12-08

基於簡單的計算sentence間的相似度，並進行page ranking實現抽取文章摘要。使用jieba庫實現抽取關鍵詞。可以有很多優化的點，後面慢慢更新吧。

具體理論解析可以參考https://blog.csdn.net/qq_32458499/article/details/78659372

#/usr/bin/python
# encoding: UTF-8
import re
import math
import jieba
import jieba.analyse
import numpy as np
import networkx as nx
import random
import sys

class DocumentHandler:
    def __init__(self, file_path):
        self.full_text = ''
        self.read_file(file_path)

    # read data from file
    def read_file(self, file_path):
        fi = open(file_path, 'r+', encoding='UTF-8')
        self.full_text = fi.read()
        fi.close()

    # split text as sentences
    def split_sentence(self, full_text):
        sents = re.split(u'[\n。]', full_text)
        sents = [sent for sent in sents if len(sent) > 0]
        return sents

    # calculate similarity
    def cal_sim(self, word_list_1, word_list_2):
        occur_sum = 0
        word_set_1 = list(set(word_list_1))
        word_set_2 = list(set(word_list_2))
        for word in word_set_1:
            if word in word_set_2:
                occur_sum += 1.0
        if occur_sum < 1e-6:
            return 0.0
        denominator = math.log(len(word_set_1)) + math.log(len(word_set_2))
        if abs(denominator) < 1e-6:
            return 0.0
        return occur_sum / denominator

    # ranking sentces
    def text_rank(self, sentences, top_num = 5, pagerank_config={'alpha': 0.85}):
        sents_num = len(sentences)
        sorted_sents = []
        sent_word_list = []
        # split sentece to word list
        for sent in sentences:
            words = []
            cut_res = jieba.cut(sent)
            for cut in cut_res:
                words.append(cut)
            sent_word_list.append(words)
        # calculate simiarity
        sim_graph = np.zeros((sents_num, sents_num))
        for x in range(sents_num):
            for y in range(x, sents_num):
                similarity = self.cal_sim(sent_word_list[x], sent_word_list[y])
                sim_graph[x, y] = similarity
                sim_graph[y, x] = similarity
        # do page ranking
        nx_graph = nx.from_numpy_matrix(sim_graph)
        scores = nx.pagerank(nx_graph, **pagerank_config)
        sorted_scores = sorted(scores.items(), key=lambda item: item[1], reverse=True)
        # get top sentences based on page ranking
        # Attention: you can do break in for loop to get top n
        for index, score in sorted_scores:
            item = {"sent": sentences[index], "score": score, "index": index}
            sorted_sents.append(item)
        return sorted_sents[:top_num]

    # try to extract abstract from text
    def extract_abstracts(self, full_text, top_num = 5):
        sents = self.split_sentence(full_text)
        rank_res = self.text_rank(sents, top_num=top_num)
        sorted_res = sorted(rank_res, key=lambda x: x['index'], reverse=False)
        return sorted_res

    # get abstract of article
    def getAbstract(self, top_num = 5):
        res = self.extract_abstracts(self.full_text, top_num=top_num)
        abstract = ""
        for content in res:
            abstract = abstract + content["sent"] + "。"
        return abstract.strip()

    # get keywords of article, using jieba for Chinese article processing
    def getKeywords(self, top_num = 5):
        tfidf = jieba.analyse.extract_tags
        keywords = tfidf(self.full_text)
        tmpKeywords = []
        # Attention: you can break for loop to get top n
        for keyword in keywords:
            if len(keyword) < 5:
                tmpKeywords.append(keyword)

        return tmpKeywords[:top_num]

# main processor
def main(file_path):
    docHandler = DocumentHandler(file_path)
    print(docHandler.getAbstract())
    print(docHandler.getKeywords())

if __name__ == '__main__':
    if len(sys.argv) < 2:
        print('Usage: python digist_keyword.py <file path>')
        sys.exit()
    file_path = sys.argv[1] # the folder to store your plain text files
    main(file_path)

使用百度百科的“百度”詞條進行了測試，測試結果如下：

從創立之初，百度便將“讓人們最平等便捷地獲取資訊，找到所求”作為自己的使命，成立以來，公司秉承“使用者至上”的理念，不斷堅持技術創新，致力於為使用者提供“簡單可依賴”的網際網路搜尋產品及服務，其中包括:以網路搜尋為主的功能性搜尋;以貼吧為主的社群搜尋，針對各區域、行業所需的垂直搜尋;以及門戶頻道、IM等，全面覆蓋了中文網路世界所有的搜尋需求。作為一家以技術為信仰的高科技公司，百度將技術創新作為立身之本，著力於網際網路核心技術突破與人才培養，在搜尋、人工智慧、雲端計算、大資料等技術領域處於全球領先水平。百度是使用者獲取資訊的最主要入口，隨著移動網際網路的發展，百度網頁搜尋完成了由PC向移動的轉型，由連線人與資訊擴充套件到連線人與服務，使用者可以在PC、Pad、手機上訪問百度主頁，通過文字、語音、影象多種互動方式瞬間找到所需要的資訊和服務。作為百度旗下核心產品，hao123及時收錄包括音樂、視訊、小說、遊戲等熱門分類的網站，與搜尋完美結合，為中國網際網路使用者提供最簡單便捷的網上導航服務，重新定義了上網導航的概念。百度商業服務是原有的百度推廣（以搜尋推廣為主）的基礎上，將資料產品、交易產品、媒體產品、信用產品和諮詢服務進行了深度的整合，並已將諮詢服務、百度內容聯盟加入到整體的商業服務框架中來。
['百度', '搜尋', '服務', '使用者', '網際網路']

簡單的抽取中文摘要及關鍵詞的方法

基於簡單的計算sentence間的相似度，並進行page ranking實現抽取文章摘要。使用jieba庫實現抽取關鍵詞。可以有很多優化的點，後面慢慢更新吧。具體理論解析可以參考https://blog.csdn.net/qq_32458499/article/details/78659372

HashMap及hashcode()方法的簡單介紹

bsp 我們 ron 沖突解決根據獲取 lis int shc 　　當集合要添加新的對象時，先調用這個對象的hashCode方法，得到對應的hashcode值，實際上在HashMap的具體實現中會用一個table保存已經存進去的對象的hashcode值，如果table中

JAVA Web開發中前後臺數據互動中文亂碼問題解決方法及說明

一、基於BaseServlet (BaseServlet extends HttpServlet)，如果BaseServlet中不設定任何編碼格式，在其子類QueryCustomer (QueryCustomer extends BaseServlet)中獲取到前端傳回來

SpringBoot+Mybatis：（一）BaseDao的簡單抽取及使用

一、BaseDao的抽取使用SSM建立一個空的開發環境，並配置好 .XML檔案，這裡就不詳細給出了；特別注意的是SpringBoot現在還不支援阿里的Druid連線池，所以使用Driud需要手動新增配置。進入正題： 1、新建 BaseDao的介面這裡就簡單的寫了幾個增、

一個基於POI的通用excel匯入匯出工具類的簡單實現及使用方法

前言：最近PM來了一個需求，簡單來說就是在錄入資料時一條一條插入到系統顯得非常麻煩，讓我實現一個直接通過excel匯入的方法一次性錄入所有資料。網上關於excel匯入匯出的例子很多，但大多相互借鑑。經過思考，認為一百個客戶在錄入excel的時候，就會有一百個格式版本，所以在實現這個功能之前，所以要統一exc

GET方法和POST獲取中文引數出現亂碼的問題及解決方法

PS:編碼名稱要遵守大小寫規則！！！！！！！ <pre name="code" class="java">如果我們用get方法向伺服器傳遞中文資料的話，是會出現這樣的情況 String queryString = request.getQueryString(

PHP中文亂碼的三個原因及解決方法

我們在做PHP專案的時候，經常會遇到中文亂碼的問題，有時候編碼問題還導致MYSQL的報錯。中文亂碼總共有三個原因 1：APACHE伺服器設定導致亂碼 2：PHP，或者HTML頁面編碼導致中文亂碼 3：MYSQL資料庫的表以及欄位編碼導致中文亂碼我們分別從這三個部分來探究P

TF-IDF演算法抽取中文內容的主題關鍵詞

db.ini # db [db] db_port = 3306 db_user = user db_host = localhost db_pass = pwd db_database = db main.py # -*-coding:utf-8-

oc學習之setter方法及getter方法，簡單的命名規則

#import <Foundation/Foundation.h>@interface Student :NSObject//類名的首字母大寫，以後每個單詞的首字母大寫{//例項變數的定義,命名通常以_開頭，第一個單詞的首字母小寫，以後每個單詞的首字母大寫

基於TextRank的中文摘要抽取演算法(一)

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless

jquery序列化serialize()方法時中文亂碼及解決辦法

全臺： var params=encodeURI(encodeURI(decodeURIComponent($("#xyyycxbForm").serialize(),true))); loadJqueryHtml($(".xkTwoPublic-container").a

《BI專案筆記》增量ETL資料抽取的策略及方法

增量抽取增量抽取只抽取自上次抽取以來資料庫中要抽取的表中新增或修改的資料。在ETL使用過程中。增量抽取較全量抽取應用更廣。如何捕獲變化的資料是增量抽取的關鍵。對捕獲方法一般有兩點要求：準確性，能夠將業務系統中的變化資料按一定的頻率準確地捕獲到；效能，不能對業務系統造成太大的壓力，影響現有業務。目前增量資料抽

【go語言 socket程式設計系列】一個簡單的HTTP伺服器及func (srv *Server) Serve(l net.Listener) 方法

【簡單的HTTP伺服器】原始檔server.go中 ListenAndServe()函式的註釋中有個簡單的HTTP服務實現程式碼，如下 package main import ( "io" "log" "net/http" ) func HelloServ

爬蟲實戰12—自動摘要及正文抽取

文章說明：本文是在學習一個網路爬蟲課程時所做筆記，文章如有不對的地方，歡迎指出，積極討論。一、文字長度分析（一）去除JavaScript及CSS 利用lxml的clean類，能刪除HTML裡所包含的CSS及script from lxml.htmlimport cle

JSP中文及傳中文引數亂碼解決方法小結

在使用JSP的過程中，最使人頭疼的一個問題就是中文亂碼問題，以下是我在軟體開發中遇到的亂碼問題以及解決方法。　　1、JSP頁面亂碼　　這種亂碼的原因是應為沒有在頁面裡指定使用的字符集編碼，解決方法：只要在頁面開始地方用下面程式碼指定字符集編碼即可，　　2、資料庫亂碼　　這種亂碼會使你插入資料庫

增量ETL資料抽取的策略及方法

這是很久以前在處理增量時的老文章，近年實施大量專案中的經驗處理方式是往往不得已時才採取增量處理的方式。而更多采用的方式是嚴格控制操作資料視窗，在滿足業務限制及分析需求的前提下力求資料更新視窗最小化，這種最簡單的策略反而被證明是一種簡單、快速、高效的做法。以下是舊文：增

Adobe PhotoShop CS6 forMac 中文破解版下載及破解方法

安裝前準備具體步驟： 1.斷網狀態下安裝，點選dmg開始安裝，如下圖：點“試用”開始安裝PhotoshopCS6，如下圖： 2.在應用程式資料夾，找到Adobe-Photoshop-CS6資料夾，在裡面找到Adobe PhotoshopCS6.ap

GSON簡單實用及常用方法（附 .jar 地址）

Gson 是google解析Json的一個開源框架,同類的框架fastJson,JackJson等等本人fastJson用了兩年，也是從去年才開始接觸Gson,希望下面的總結會對博友有用,至於Gson與FastJson的對比,其實半斤八兩的問題,不再贅述第一步:在

【Spark 深入學習-08】說說Spark分區原理及優化方法

學習格式讀取文件 tmc 資料數值計算詳解 shc 存儲介質本節內容 ------------------ · Spark為什麽要分區 · Spark分區原則及方法 · Spark分區案例 · 參考

蓄電池短路形成原因及判斷方法

蓄電池短路形成原因及判斷方法正負極板間本來是由多孔隙絕緣物——隔板隔開的，但如果有焊渣或枝晶（鉛枝）穿透，則正負板相連，形成短路。嚴重的短路可以導致該單體電壓變為零，如果導致正負極相連的物質本身電阻較大，比如枝晶，則不會馬上使該單格電壓變為零，而是發生較快的自放電，俗稱軟短路。ups不間斷電源使用過程中，

簡單的抽取中文摘要及關鍵詞的方法

相關推薦