python硬剛倒排索引

阿新 • • 發佈：2018-12-20

需要匯入的庫：jieba, json

本程式碼採用直接硬剛倒排索引，可能會引起稍微不適，請選用。

程式碼分為三部分：分詞、建立正排索引、建立倒排索引

需要檔案：語料庫、停用詞庫

語料庫圖片如下：

我用的是自己爬取的一部分新聞標題，包含網易，頭條，鳳凰網以及一小部分微信文章標題。語料庫處理：只需要每一句的後面加個換行即可。

分詞程式碼：

stopwords =[]

with open('stopwords', 'r', encoding='utf-8')as f:
    for i in f:
        word = i.strip()
        stopwords.append(word)

filename  
= 'test.txt'

filename1 = 'test_cws.txt'
# 寫入分詞
def write_cws():
    num = 0 # 這個是檔案id值，如果本身就有，這個可以更改為你自己的，我這裡只是簡單的計數作為id值
    writing = open(filename1, 'a+', encoding='utf-8')
    with open(filename, 'r', encoding='utf-8')as f:
        for line in f:
            content = line.strip()
            content  
= content.replace(' ', '')
            seg = jieba.cut(content)
            test =''
            for i in seg:
                if i not in stopwords:
                    test += i+' '
            writing.write(str(num)+"    "+test+'\n')
            num += 1
    writing.close()

正排索引程式碼：

filename2 = ' 
zhengxiang.txt'
def zhengxiang():

    all_words = []
    all = {}
    file2 = open(filename2, 'a+', encoding='utf-8')
    with open(filename1, 'r', encoding='utf-8')as f:
        for line in f:
            line = line.strip()
            # print(line)
            content = line.split('    ')[1]

            num = line.split('    ')[0]
            words = content.split(' ')
            for word in words:
                word_num =[num]
                if word not in all_words:
                    all_words.append(word)
                    all[word] = word_num
                else:
                    if num not in all[word]:
                        all[word].append(num)


    for word, nums in all.items():
        file2.write(word+'    ')
        for i in range(len(nums)):
            if i ==0:
                file2.write(nums[i])
            else:
                file2.write(','+nums[i])
        file2.write('\n')

    file2.close()

倒排索引程式碼：

# 倒排索引
filename3 = 'daopai.txt'
def daopai():
    with open(filename2, 'r', encoding='utf-8')as f:
        for line in f:
            try:#這個異常處理是我資料有點問題，如果你本身資料和我上面截圖的語料庫資料一樣，應該不會報錯
                word_dict = {}# 單詞的字典，字典格式，方便存取
                word_list =[] # 存放這個單詞的情況
                syc = [] # 存放單詞以及單詞在所有檔案出現的次數，在一個檔案出現就加1，不管其中出現多少次

                Aword = line.strip()# Aword 是 all_word
                word = Aword.split('    ')[0]
                print(word)
                nums = Aword.split('    ')[1]
                count = len(nums.split(','))
                syc.append(word+' '+str(count))
                word_list.append(syc)
                with open(filename1, 'r', encoding='utf-8') as r:
                    for line1 in r:
                        acount = 0 # 這個單詞在這行中出現的個數
                        words = line1.strip().split('    ')[1].split(' ')
                        num = line1.strip().split('    ')[0]
                        if word in words: # 判斷這個單詞在不在這個句子
                            for aword in words:
                                if word == aword:
                                    acount += 1
                            temp1 = [num, acount]# 用於存放單詞出現的地方以及它的次數
                            word_list.append(temp1)
                word_dict[word] = word_list
                with open(filename3, 'a', encoding='utf-8')as f:
                    json.dump(word_dict,f,ensure_ascii=False)
                    f.write(',')
                    f.write('\n')
            except Exception as e:
                print(line)
                print(e)

這個程式碼是原語料庫跑出分詞之後，將分詞檔案去跑正排索引，將正排索引去跑倒排索引，所以執行的時候，請依次執行。

python硬剛倒排索引

需要匯入的庫：jieba, json 本程式碼採用直接硬剛倒排索引，可能會引起稍微不適，請選用。程式碼分為三部分：分詞、建立正排索引、建立倒排索引需要檔案：語料庫、停用詞庫語料庫圖片如下：我用的是自己爬取的一部分新聞標題，包含網易，頭條，鳳凰網以及一小部分微信文章標題。語料庫處理：只需要

第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引

索引原理文章根據 file 索引 -i span 需要 style 第三百六十一節，Python分布式爬蟲打造搜索引擎Scrapy精講—倒排索引倒排索引倒排索引源於實際應用中需要根據屬性的值來查找記錄。這種索引表中的每一項都包括一個屬性值和具有該屬性值的各記錄的

python 實現倒排索引

程式碼如下： #encoding:utf-8 fin = open('1.txt', 'r') ''' 建立正向索引: “文件1”的ID > 單詞1：出現位置列表；單詞2：出現位置列表；…

python倒排索引

一. 實驗目的 1.掌握列表、集合和字典的定義、賦值、使用等基本操作，熟悉處理複雜資料型別的一般流程 2.熟悉列表、集合和字典的常用函式和技巧 3.考察對文字的靈活處理和對排序演算法的運用二. 實驗內容倒排索引（Inverted index），也常

IR中python 寫倒排索引與查詢處理

學習資訊檢索課程，老師讓寫一個倒排索引與查詢處理的程式，於是抱著試試的心態自學python寫了出來。整個沒有什麼太大的演算法技巧，唯一的就是查詢處理那裡遞迴函式正反兩次反覆查詢需要多除錯下。資料結構： #-*-coding:utf-8-*- #!/usr/bin/pyt

【Python】倒排索引

程式碼連結預處理 word stemming 一個單詞可能不同的形式，在英語中比如動詞的主被動、單複數等。比如live\lives\lived. 雖然英文的處理看起來已經很複雜啦但實際在中文裡的處理要更加複雜的多。 stop wo

Python 倒排索引

# -*- coding: utf-8 -*- '''Part 1 : Setup index''' dict = {} # a emtry dictionary. n = 100 for row in range(0,n): information = raw_input()

jieba分詞python建立倒排索引

# encoding=utf-8 import json import jieba from sys import argv from collections import defaultdict path = argv[1] objs = map(lambda s: j

【原創】python倒排索引之查詢包含某主題或單詞的檔案

什麼是倒排索引？倒排索引（英語：Inverted index），也常被稱為反向索引、置入檔案或反向檔案，是一種索引方法，被用來儲存在全文搜尋下某個單詞在一個文件或者一組文件中的儲存位置的對映。它是文件檢索系統中最常用的資料結構。通過倒排索引，可以根據單詞快速獲取包含這個單詞的文件列表。倒排索引主要由兩個部分

倒排索引

key als ron 單詞 end line result std lin 倒排索引（inverted index）常被成為反向索引、置入文檔和反向檔案，是一種索引方法，被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。是文檔檢索系統中最常用

lasticSearch的倒排索引

.com 找到方式 sea amp ace 是否 ast nbsp #一. 正向索引常規的索引建立方式文檔---> 關鍵詞的映射過程（正向索引）比如: 我有很多個文章，如果想查詢其中幾個文章是否含有劉耀這個關鍵詞，那麽我就需要打開所以文章，找到裏面含義劉耀的文章.

我愛分享----百萬商業圈C語言實現的倒排索引算法(含全部源碼)

db4 cover cst via com deb nio main 20M PAT-1134VertexCover（圖的建立+set容器）刷題——POJ2395OutofHay QGC之QGCView.qml HDU-2049不容易系列之四（考新郎） 2e5訟矣屎htt

40.倒排索引核心原理

提升兩個知識點初步 blog 微軟雅黑 spa word ttl 主要知識點倒排索引核心原理：normalization 假設有兩個文檔，內容如下 doc1：I really liked my small dogs, and I think my mom

Elastic 之倒排索引（二）

mage bsp post elastic 分享圖片位置 png blog 通過常規索引建立：　　文檔--》關鍵詞的映射過程（正向索引）缺點：費時便利全部文檔倒排反向建立索引：　　關鍵詞--》文檔的映射反向到倒排索引：將索引的關鍵詞出現的文檔的位置和出現頻率

67.倒排索引結構理解

cpu 出現 log ans post cache nor 所有 lis 倒排索引，是適合用於進行搜索的，倒排索引的結構是比較復雜的，總體來說包括以下幾個部分（1）包含這個關鍵詞的document list （2）包含這個關鍵詞的所有document的數量：IDF（

mapreduce 高級案例倒排索引

大數據 hadoop mapreduce 倒排索引理解【倒排索引】的功能熟悉mapreduce 中的combine 功能根據需求編碼實現【倒排索引】的功能，旨在理解mapreduce 的功能。一：理解【倒排索引】的功能 1.1 倒排索引：由於不是根據文檔來確定文檔

大數據MapReduce入門之倒排索引

tsp 功能 nbsp bstr 生成 path 需要 turn 們的　　在上一篇博客中我們講解了MapReduce的原理以及map和reduce的作用，相信你理解了他們的原理，今天講解的是mapreduce 的另一個就是倒排索引。什麽是倒排索引呢？倒排索

2018-08-03 期 MapReduce倒排索引編程案例1（Combiner方式）

pre true 輸出 hello pub 類型 rom 偏移 apr package cn.sjq.bigdata.inverted.index;import java.io.IOException;import org.apache.hadoop.conf.Config

2018-08-04 期 MapReduce倒排索引編程案例2（jobControll方式）

基本正常 org gets [] pro stat context 控制器 1、第一階段MapReduce任務程序package cn.itcast.bigdata.index;import java.io.IOException;import org.apache.ha

ES倒排索引與三種Cache詳細介紹

網上看到的一篇文章，對Lucene的倒排索引是如何執行的，說的比較易懂，就轉過來分享下。 Elasticsearch是通過Lucene的倒排索引技術實現比關係型資料庫更快的過濾。特別是它對多條件的過濾支援非常好，比如年齡在18和30之間，性別為女性這樣的組合查詢。倒排索引很多地方都有介紹，但

python硬剛倒排索引

相關推薦