1. 程式人生 > >TextRank 處理短文字獲得指定關鍵字

TextRank 處理短文字獲得指定關鍵字

我用的TextRank是python,安裝方式參考:

https://github.com/letiantian/TextRank4ZH

當前目錄建立 test.txt 檔案,輸入兩行文字:

機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的演算法。機器學習演算法是一類從資料中自動分析獲得規律,並利用規律對未知資料進行預測的演算法
科達利客戶名單來看其前五大客戶包括比亞迪ATL三星手機電池供應商)、LG、力神等,名頭都不小公司稱,其鋰電池精密結構件產品廣泛應用於華為、三星、LG、中興、聯想等品牌手機,以及比亞迪、寶馬、宇通、江淮、騰勢、北汽、廣汽等品牌的新能源汽車目前鋰電

程式碼如下,預設或的兩個關鍵字,輸出格式是 <keyword, keywords, sentence>

#-*- encoding:utf-8 -*-
from __future__ import print_function

import sys
import os
try:
    reload(sys)
    sys.setdefaultencoding('utf-8')
except:
    pass


import codecs
from textrank4zh import TextRank4Keyword, TextRank4Sentence


text = open('test.txt', 'r')
if os.path.isfile("keywords.txt"):
    os.remove("keywords.txt")
keywordsFile = open('keywords.txt', 'w')
tr4w = TextRank4Keyword()
for line in text.readlines():
    line = line.strip()
    line.decode('utf-8')
    tr4w.analyze(text=line, lower=True, window=2)  

    for item in tr4w.get_keywords(2, word_min_len=1):
        words = item.word + "\t"
        keywordsFile.write(str(words))
        #print(item.word)
    keywordsFile.write(line)
    keywordsFile.write('\n')

相關推薦

TextRank 處理短文獲得指定關鍵字

我用的TextRank是python,安裝方式參考: https://github.com/letiantian/TextRank4ZH 當前目錄建立 test.txt 檔案,輸入兩行文字: 機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分

c/c++日期時間處理符串string轉換

輸入輸出 一個數 代碼 string轉換 計算 字符 span 日期 時間轉化 在c/c++實際問題的編程中,我們經常會用到日期與時間的格式,在算法運行中,通常將時間轉化為int來進行計算,而處理輸入輸出的時候,日期時間的格式卻是五花八門,以各種標點空格相連或者不加標點。

C語言處理json符串

string 遍歷數組 sta collect 執行 bject .cn 文件 opp JSON語法說明   先來看一個簡單的JSON 1 { 2 "stars": [ 3 { 4 "name": "Faye", 5 "a

Python2 處理 Unicode 符串的規則

unicode python2 round () -c 應該 nbsp mic fff 在 Python2 中處理 Unicode 字符串,需遵循如下規則: 1. 程序中的字符串要加前綴 u 2. 不要用 str(),而應該用 unicode() 作為字符串轉換函數。不

C#處理Json符串實例分析

結構 get href thum json解析 如果 原創 pla line Json字符串對於做web應用的應該很熟悉,其實在很多請求我們返回的都是Json字符串。那對於C#代碼如何處理Json字符串呢,.Net封裝了一個類叫做JavaScriptSerializer[

jsp自定義標簽處理轉義

char location xmlns exception Coding port exceptio bre tostring sun公司提供的jstl雖然比較強大,但是開發中很難滿足我們所有的需求,並且開發也禁止在jsp中寫很多java代碼,因此很多場景需要自己定義標簽進

python文本 單獨處理每個符的方法匯總

其他 pri gin att bcd one ima post space python文本 單獨處理字符串每個字符的方法匯總 場景: 用每次處理一個字符的方式處理字符串 方法: 1.使用list(str) >>> a=‘abcdefg‘ >

異常處理機制中的return關鍵字

nal text HR trac warning font pda turn nbsp Java中,執行try-catch-finally語句需要註意: 第一:return語句並不是函數的最終出口,如果有finally語句,這在return之後還會執行finally(ret

JSON後臺處理特殊符方法,在JSONArray.fromObject轉換時處理

替換 ces return class 雙引號 string sonar substring log /** * 替換一個字符串中的某些指定字符 * @param strData String 原始字符串 * @param regex String 要替換的字符串 * @

json處理符串,主要函數,dumps和loads

寫入 封裝 pri read python int 雙引號 str 成了 #json數據交換,,跨語言的數據交換。先進行json處理加上’‘變成字符串 # json.dumps封裝成str,json.loads取出來 # pickle是python內部數據交換語言 #

php中 ord() 和 chr() 處理 utf8 符串

處理 emp enc ise eas 不能 () info func ord() : 將字符轉為 ascii 碼 (0-256),準確定義官方文檔:http://php.net/manual/en/function.ord.php chr() : 將 ascii 碼轉為字

java 使用jsoup處理html

att nbsp 遍歷 src class clas element pen 上班 依賴的jar <dependency> <groupId>org.jsoup</groupId> <

7-14 符串關鍵字的散列映射 (25 分)

因子 -i amp con lock save src 如果 classes ? 除留余數法設計哈希表 : 由該式子得到value在哈希表中的存儲位置:index = value % p;這裏為了盡量的減少沖突,而且讓value在哈希表中盡可能的均勻分布,p的選擇就至關

獲得指定月的最後一天和第一天

  獲取指定年月的第一天 /** * 獲取指定年月的第一天 * @param year * @param month * @return * @throws ParseException */ @Suppress

中文短文聚類

文字聚類是將文件由原有的自然語言文字資訊轉化成數學資訊,以高維空間點的形式展現出來,通過計算哪些點距離比較近,從而將那些點聚成一個簇,簇的中心叫做簇心。 import random import jieba import pandas as pd import numpy as np f

中文短文分類

特徵提取+樸素貝葉斯模型: import random import jieba import pandas as pd #載入停用詞 stopwords=pd.read_csv('D://input_py//day06//stopwords.txt',index_col=Fals

火眼金睛演算法,教你海量短文場景下去重

本文由QQ大資料發表 最樸素的做法 在大多數情況下,大量的重複文字一般不會是什麼好事情,比如互相抄襲的新聞,群發的垃圾簡訊,鋪天蓋地的廣告文案等,這些都會造成網路內容的同質化並加重資料庫的儲存負擔,更糟糕的是降低了文字內容的質量。因此需要一種準確而高效率的文字去重演算法。而最樸素的做法就是將所有文字進行兩

simhash短文去重

simHash的java實現: import com.hankcs.hanlp.seg.common.Term; import com.hankcs.hanlp.tokenizer.StandardTokenizer; import java.math.BigInteger; impo

mysql 獲得指定資料庫所有表名以及指定表的所有欄位名

SELECT COLUMN_NAME 列名, DATA_TYPE 欄位型別, COLUMN_COMMENT 欄位註釋 FROM information_schema. COLUMNS WHERE

短文轉向量的一種實現方式

文章目錄 前言 下文實現僅僅是比較粗糙的一種方式,可以改進的點還有很多,是真的很多!重點是,不講解原理,就是這麼沒道理… 實現思路 分詞。分詞還是jieba好。word2vec模型訓練選取gensim。 使用大語料進行基礎詞典word2vec模型的訓練。 使用