對語料庫的每一個句子的每一個單詞加權重

阿新 • • 發佈：2019-02-13

包括預處理，使用tfidf加權重

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# created by fhqplzj on 2017/05/15 上午10:48
import itertools
import re

import jieba
from six.moves import xrange
from sklearn.feature_extraction.text import TfidfVectorizer


def load_stopwords():
    path = '/Users/fhqplzj/PycharmProjects/data_service/service/dic/why/stopwords'
    content = open(path, 'rb').read().decode('utf-8')
    return frozenset(content.splitlines())


stopwords = load_stopwords()
chinese = re.compile(ur'^[0-9a-zA-Z_\u4e00-\u9fa5]+$')


def filter_func(word):
    result = True if re.match(chinese, word) else False
    return result and word not in stopwords


def my_tokenizer(sentence):
    words = jieba.lcut(sentence)
    return filter(filter_func, words)


def word_and_weight(corpus):
    vectorizer = TfidfVectorizer(tokenizer=my_tokenizer, norm='l1')
    tfidf_matrix = vectorizer.fit_transform(corpus)
    for row_idx in xrange(len(corpus)):
        pairs = []
        for word in my_tokenizer(corpus[row_idx]):
            try:
                weight = tfidf_matrix[row_idx, vectorizer.vocabulary_.get(word)]
            except IndexError:
                weight = 0.0
            pairs.append((word, weight))
        yield pairs


def load_corpus():
    path = '/Users/fhqplzj/PycharmProjects/data_service/service/dic/why/why'
    content = open(path, 'rb').read().decode('utf-8')
    lines = []
    for line in content.splitlines():
        try:
            lines.append(line.split('\t')[1])
        except IndexError:
            pass
    return lines


for pair in itertools.islice(word_and_weight(load_corpus()), 1250):
    for two in pair:
        print two[0], two[1]
    print

對語料庫的每一個句子的每一個單詞加權重

包括預處理，使用tfidf加權重 #!/usr/bin/env python # -*- coding: utf-8 -*- # created by fhqplzj on 2017/05/15 上午10:48 import itertools import re imp

給定一個字串，你需要顛倒一個句子中每個單詞中的字元順序，同時保留空格和初始單詞順序。

我的程式碼 public static void main(String[] args) { String str = "we are family's"; St

給定一個字串和一個整數k，對字串開頭算起的每2k個字元的前k個字元進行反轉。如果還有少於k個字元，則將其全部撤消。如果小於2k但大於或等於k個字元，則反轉前k個字元，

本題源自leetcode 541 ------------------------------------------------------------- 思路：遍歷字串，跳度為 2 * k.每次反轉前k 個字串。程式碼： string reverseStr(stri

關於每一個數據庫表都應該有一個單一的欄位作為主鍵的討論

2010年5月6日更新: 只有真正懂得了這個道理的人, 才算真正理解了關係資料庫. 如何才算懂得了這個道理? – 即使你有一百個理由要用關聯主鍵, 你也能找到這唯一的一個理由放棄, 改而使用單一欄位做主鍵. —— 在資料庫設計中, 每一個表都應該有一個欄位作為主鍵. 這個欄位一般是自增整數字段, 或者某些資

如何用SQL為每一行均產生一個隨機數

sel style color and ceiling lin () span font select cast(ceiling(rand(checksum(newid()))*10) as int) as RndId from 表名如何用SQL為每一行均產生一

pandas讀取20W資料excel，每999行生成一個查詢sql語句

前言工作中遇到一個小問題，Oralce資料庫的查詢是不能大於1000條in查詢的，所以需要對檔案進行切割。資料來源是20w的excel資料，於是想到用pandas對其進行讀取，然後每998行生成一個新的sql檔案。程式碼實現 # coding = utf-8 """ @

銀行卡號每四位新增一個空格

前端頁面展示需要加上空格， this.cardnum.replace(/[^\d]/g, '').replace(/(\d{4})(?=\d)/g, '$1 '); 而上傳後臺時往往需要去掉空格， this.cardnum.replace(/\s/g, "") 金額最多輸入小數點後兩

使用指令碼,獲取一個檔案每一行的第n(2,3)個元素(使用你使用過的任何指令碼)

awk '{print $2}' /home/thomas/china.txt 使用vim編輯china裡邊的內容執行awk命令: awk '{print $2}' /home/thomas/china.txt

【echarts應用】--橫軸每五分鐘取一個點，動態時間軸實現

需求：折線圖需要定點時間（例如五分鐘）取一個點，在一段範圍內（昨天的某個時間點到目前時間或者今天凌晨12點到目前的時間點），這種動態生成的時間軸。以下以從當天的十二點開始，到當前時間點為止（五分鐘以及其他時間一個道理）的demo 推薦一個很好用的獲取時間以及改變想要的時間格式的外掛mo

對於一個m*n的整數矩陣，其中每一行和每一列的元素都按升序排列，設計一個高效的演算法判斷一個數值是否存在，並給出位置

package com.huanchuang.arvin.vo; public class Finder { private String findElement(int[][] matrix, int target) { int row = 0,

大資料預處理，讀寫檔案為每一行資料增加一個標識ID（JAVA）

對包含多行資料的資料集進行預處理，讀入文字檔案資料集，為每一條記錄增加一個唯一的ID,並儲存成一個新的文字檔案。其中每行的ID生成規則為：每一條記錄對應生成0-33隨機數，每個數對應一個特定省份，最後原始記錄和新生成的省份標籤一起寫入新的文字檔案中。Shell終端執行語句#!

THCHS-30：一個免費的中文語料庫

摘要和第一部分是介紹目前語音識別開源語音庫的現狀，包括英文和中文的，由此引出來THCHS-30語料庫。都是一些無關痛癢的介紹，所以不做翻譯了。以下是正式翻譯： 2 THCHS-30的特點這部分我們介紹THCHS-30語音庫。這個資料庫是在2000-2001年記錄的，第一

對於一個m行m列的方陣，求其每一行，每一列及主對稱線元素之和，最後按照從大到小的順序依次輸出。

#include<iostream> using namespace std; #define MAX 10 int main() { int m,n=0,i,j,a[10][10],sum,num[10],temp,max; cout<<"en

python檔名讀取，將txt中每行的最後一個字元提取放入另一個txt中，python批量轉化tif檔案為jpg

把需要的部分註釋回來就好 # ===============讀取資料夾內檔案並輸出檔名到某txt上======================== # rootdir = "./test" # # file_object = open('test1.txt','w')

Mysql求每隔五分鐘一個均值

SELECT code ,datatime, Year(datatime) AS Y,Month(datatime) AS M,Day(datatime) AS d,HOUR(datatime) AS h, FLOOR(MINUTE(datatime) / 5) AS v

輸入一個奇數n，打印出一個nn的矩陣，每個數字是從1到nn的整數，要使每一行，每一列的數字之和都相等

#include<stdio.h> int a[1000][1000]; int main() { int n,i,j; scanf("%d",&n); a[0][n/2]=1; for(i=0;i>n;i++){

table表格中每行都有一個修改按鈕怎麼實現修改功能

示例圖如下：點選修改按鈕，如何修改按鈕所在行的資訊？一般像這種形式的頁面都是在js中動態拼接：關鍵在於按鈕採用append追加到<td>裡的button的,onclick事件

大數據DDos檢測——DDos攻擊本質上是時間序列數據，t+1時刻的數據特點和t時刻強相關，因此用HMM或者CRF來做檢測是必然！和一個句子的分詞算法CRF沒有區別！

科學設計區別背景 file 最優化 model 安全學習 DDos攻擊本質上是時間序列數據，t+1時刻的數據特點和t時刻強相關，因此用HMM或者CRF來做檢測是必然！——和一個句子的分詞算法CRF沒有區別！註：傳統DDos檢測直接基於IP數據發送流量來識別，通過硬件

給定一個句子（只包含字母和空格），將句子中的單詞位置反轉，單詞用空格分割, 單詞之間只有一個空格，前後沒有空格。

foo x11 sdi ocl ref margin dia 分割 lns 2巳嘿2啃40必刪8蔚http://t.docin.com/mqjnf44635 4瓶3ck芳8g0琳c鋪巢0http://t.docin.com/uemr9596 pf絞職9ZPFV壕5htt

對lua表的優化最終達到一個可以接受的地步

總結 ray 大小 key 包括 .com 最好的緩存分表這種通過在table中插入多個table的方式，每個子table為hash的存儲方式。仔細分析一下存儲的類型，對於table而言，其基本的存儲方式分為hash和array兩種方式。hash的存儲會有較快的讀取操

對語料庫的每一個句子的每一個單詞加權重

相關推薦