【搜尋引擎】用whoosh+無監督聚類搭建一套智慧搜尋引擎

阿新 • • 發佈：2018-11-29

因本介面自定義功能較多，且底層演算法自己搭建，故不再使用其他三方庫，只用whoosh其他演算法自己寫。

# -*- coding: utf-8 -*-
from whoosh.fields import Schema,TEXT,ID
from whoosh.index import create_in,open_dir
from whoosh.query import And,Term,Or
from whoosh.searching import *
from jieba.analyse import ChineseAnalyzer
from whoosh import scoring
import pymysql
from gensim import corpora,models
from gensim.similarities.docsim import Similarity
import datetime
import jieba
import os
import glob
import jieba.posseg as psg
jieba.load_userdict('..//..//spo//HR專業詞彙.txt')

def get_joblist():
    db = pymysql.connect('131.42.33.12','rxxt','52xxkk','unxxkkao',port=3306,charset='utf8')
    sql_job = "SELECT jobName,workPlace,jobDescript,un2co_job.id_job FROM un2co_job where  enddate>='"+datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')+"' AND un2co_job.id_job in(SELECT id_job FROM un2co_natural_job_check WHERE natural_check=1)"
    
    cursor = db.cursor()
    cursor.execute(sql_job)
    joblist = cursor.fetchall()
    return joblist

def update_index():
    filename = glob.glob('*.xkk')
    print("filename:",filename)
    if len(filename)>0:
        now = datetime.datetime.now()
        before = datetime.datetime.strptime(filename[0][:-4], "%Y-%m-%d")
        a = now - before
        if a.days<=0:
            print('當前模型未過期，無需重新生成：',a.days)
            return
#        print(filename[0])
    #LSI模型生成並儲存
    joblist = get_joblist()
    jobinfolist = [list(jieba.cut(job[0]+job[1]+job[2])) for job in joblist]
        
    search_dictionary = corpora.Dictionary(jobinfolist)
        
    search_corpus = [search_dictionary.doc2bow(text) for text in jobinfolist]
    search_tfidf_model=models.TfidfModel(search_corpus)
    
    search_corpus_tfidf = [search_tfidf_model[doc] for doc in search_corpus]
    search_lsi= models.LsiModel(search_corpus_tfidf,id2word=search_dictionary,num_topics=21+80)    
    
    search_dictionary.save('search_lsi_index//search_lsi_index.dict')
    search_tfidf_model.save('search_lsi_index//search_lsi_index.tfidf')
    search_lsi.save('search_lsi_index//search_lsi_index.lsi')    
    corpus_lsi = [search_lsi[doc] for doc in search_corpus]
    sim = Similarity('search_lsi_index//Similarity-Lsi-index', corpus_lsi, num_features=200,num_best=30)
    sim.save('search_lsi_index//Similarity-Lsi-index.sim')
    #
    
    
    #WHOOSH模型生成並儲存
    schema = Schema(jobid=ID(stored=True),jobcontent=TEXT(stored=True,analyzer=ChineseAnalyzer()),
                    joblocation=TEXT(stored=True,analyzer=ChineseAnalyzer()),
                    jobname=TEXT(stored=True,analyzer=ChineseAnalyzer()))
    
    index = create_in("search_whoosh_index",schema)
    
    writer = index.writer()
    
    for job in joblist:
        writer.add_document(jobid=str(job[-1]),jobcontent=job[2]
                       ,joblocation=job[1],jobname=job[0])
        
    writer.commit()
    #
    
    with open('{0}.xkk'.format(str(datetime.datetime.now())[:10]),'w') as f:
        f.write(str(datetime.datetime.now())+'完成模型生成')
        
    print('模型生成結束，時間：'+str(datetime.datetime.now()))
    return joblist
    
def get_index():
    return open_dir('search_whoosh_index')

def get_whoosh_result(user):
    peg_rs = list(psg.cut(user))
#    print([w.word for w in psg.cut(user) if 'location' in w.flag])
    location_Term = [Term('joblocation',w.word) for w in peg_rs if 'location' in w.flag]
    job_Term = [Term('jobcontent',w.word) for w in peg_rs if 'job' in w.flag]
    jobname_Term = [Term('jobname',w.word) for w in peg_rs if 'job' in w.flag]

    Term_list = [location_Term,job_Term,jobname_Term]
    print(jobname_Term)
#        w.flag
    with get_index().searcher() as searcher:
        myquery = And([Or(term) for term in Term_list if len(term)>0])
        result = searcher.search(myquery,terms=True,limit=100)
        recommendlist = list(result)
#        print(recommendlist['jobid'])
        return [recommend['jobid'] for recommend in recommendlist]



def get_lsi_result(joblist,user):
#    print(joblist)
    if len(os.listdir('search_lsi_index//'))>3:
        search_dictionary = corpora.Dictionary.load('search_lsi_index//search_lsi_index.dict')
        search_tfidf_model=models.TfidfModel.load('search_lsi_index//search_lsi_index.tfidf')
        search_lsi= models.LsiModel.load('search_lsi_index//search_lsi_index.lsi')
        print("LSI開始載入了")
        search_similarity_lsi=Similarity.load('search_lsi_index//Similarity-Lsi-index.sim')
    else:
        jobinfolist = [list(jieba.cut(job[0]+job[1]+job[2])) for job in joblist]
        
        search_dictionary = corpora.Dictionary(jobinfolist)
            
        search_corpus = [search_dictionary.doc2bow(text) for text in jobinfolist]
        search_tfidf_model=models.TfidfModel(search_corpus)
        
        search_corpus_tfidf = [search_tfidf_model[doc] for doc in search_corpus]
        search_lsi= models.LsiModel(search_corpus_tfidf,id2word=search_dictionary,num_topics=21+80)
        
        
        search_dictionary.save('search_lsi_index//search_lsi_index.dict')
        search_tfidf_model.save('search_lsi_index//search_lsi_index.tfidf')
        search_lsi.save('search_lsi_index//search_lsi_index.lsi')
        
        search_corpus_lsi = [search_lsi[doc] for doc in search_corpus]
    #---lSi---
        search_similarity_lsi=Similarity('search_lsi_index//Similarity-Lsi-index', search_corpus_lsi, num_features=200,num_best=30)
        search_similarity_lsi.save('search_lsi_index//Similarity-Lsi-index.sim')

    test_cut_raw_1 = list(jieba.cut(user))    
    test_corpus_3 = search_dictionary.doc2bow(test_cut_raw_1)  # 2.轉換成bow向量r
    test_corpus_tfidf_3 = search_tfidf_model[test_corpus_3]  # 3.計算tfidf值
    test_corpus_lsi_3 = search_lsi[test_corpus_tfidf_3]  # 4.計算lsi值
    
    return [str(joblist[i[0]][3]) for i in search_similarity_lsi[test_corpus_lsi_3]]




if __name__ == '__main__':
#    global joblist
    
    user = '上海'
    joblist = get_joblist()
    update_index()
#    print(joblist)
    WHOOSH_Recoomend = get_whoosh_result(user)
    LSI_Recommend = get_lsi_result(joblist,user)
    
#    Result_Recommend=[]
#    Result_Recommend.extend(WHOOSH_Recoomend)
#    Result_Recommend.extend(LSI_Recommend)
    Result_Recommend = set(WHOOSH_Recoomend)|set(LSI_Recommend)
    print(Result_Recommend)
#        print(student_recommend_list)
#    whoosh_rs = get_whoosh_result(user)
#        print(jobidlist)
#        if result.has_matched_terms():
#    #        print(result.matched_terms())
#            for hit in result:
#                print(hit.matched_terms())



#Or([Term("content", "render"), And([Term("title", "shade"), Term("keyword", "animate")])])

其實還可以基於doc2vec進行一些搜尋操作。

【搜尋引擎】用whoosh+無監督聚類搭建一套智慧搜尋引擎

因本介面自定義功能較多，且底層演算法自己搭建，故不再使用其他三方庫，只用whoosh其他演算法自己寫。 # -*- coding: utf-8 -*- from whoosh.fields import Schema,TEXT,ID from whoosh.index i

【轉】使用scipy進行層次聚類和k-means聚類

歐氏距離 generate https then con method 感覺 long average scipy cluster庫簡介 scipy.cluster是scipy下的一個做聚類的package, 共包含了兩類聚類方法: 1. 矢量量化(scipy.cluste

『工作』風控——無監督聚類和有監督聚類的思考

最近被調到了新的專案裡的風控部，主要負責專案的交易行為的風控，也就是對客戶的交易行為進行識別並進行反欺詐，使用的方法主要是資料探勘裡的聚類，未來可能還會使用到時間序列或其它方法，而我個

機器學習-無監督聚類K-means

聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y，並將同類別y的樣本x放在一起。比如上

【無監督學習】1：K-means聚類演算法原理

前言：粗略研究完神經網路基礎——BP、CNN、RNN、LSTM網路後自己算是鬆懈了很多，好長的時間都沒有堅持再更新部落格了。“腐敗”生活了這麼久，還是要找到自己一點樂趣吧，於是想了一想，決定把《機器學習》的演算法研究過得都重新梳理一遍，於是就從無監督學習——聚類

【無監督學習】3：Density Peaks聚類演算法實現（區域性密度聚類演算法）

前言：密度峰聚類演算法和DBSCAN聚類演算法有相似的地方，兩者都是基於密度的聚類方式。自己是在學習無監督學習過程中，無意間見到介紹這種聚類演算法的文章，感覺密度峰聚類演算法方法很新奇，操作也很簡答，於是自己也動手寫一下了。 –—-—-—-—-—-—-—-—-

【機器學習演算法-python實現】K-means無監督學習實現分類

''' @author: hakuri ''' from numpy import * import matplotlib.pyplot as plt def loadDataSet(fileName): #general function to parse tab -delimited float

【Linux】用戶管理

文件夾通過 useradd 遠程登錄日期賬號改變自己 shell類型查看 Linux用戶管理 ■　　查看用戶整體情況　　cat /etc/passwd可以查看用戶的一些基本信息。用finger <user>似乎更加方便　　查看某一個特定的

【WPF】用三角形網格構建三維圖形

遊戲輸入 angle 結構 dash bsp 來看適應鼠標雖然WPF只能支持部分三維模型，不過從應用功能開發的角度看，也已經夠用了（非遊戲開發）。WPF 的三維圖形，說得簡單一點，也就兩種而已。 1、把二維對象放到三維空間中，這個應該較為好辦，像 Image 控件

【第五組】用例文檔+功能說明書+技術說明書

進行興趣成功適應數據說明書連接事件 del 用戶使用說明書 1、標題：實現菜品推薦查看 2、角色：使用HK軟件的用戶。 3、主要成功場景：（1）用戶在登錄之後可以看見新品推薦以及熱銷菜品，以及一些基礎信息

【前端】用jQuery實現瀑布流效果

scrollto title n) 個性避免 ive gets type turn jQuery實現瀑布流效果何為瀑布流：　　瀑布流，又稱瀑布流式布局。是比較流行的一種網站頁面布局，視覺表現為參差不齊的多欄布局，隨著頁面滾動條向下滾動，這種布局還會不斷加載數據塊並附加

【轉】用BlazeMeter錄制JMeter測試腳本

打開測試的文件 wid mbo 自己的 .net 一個 tar 工具: 1，JMeter 2，Chrome 3，BlazeMeter 4，SwitchyOmega(如果需要代理) 步驟: 以上工具準備好以後就可以錄制JMeter的測試腳本了，在Chrome中點擊B

【轉】用Python建立最簡單的web服務器

web服務 localhost 服務器 pos 根目錄 cal body -m -- 利用Python自帶的包可以建立簡單的web服務器。在DOS裏cd到準備做服務器根目錄的路徑下，輸入命令： python -m Web服務器模塊 [端口號，默認8000]

MT【35】用復數得到的兩組恒等式

ges 時有 study height row 有關 itl wid 試題特別的，當$r\rightarrow1^{-}$時有以下兩個恒等式：第二個恒等式有關的自主招生試題參考博文MT【31】傅裏葉級數為背景的三角求和評:利用兩種展開形式得到一些恒等式是復數裏經常出現的考

【西安】用Leangoo做Scrum敏捷開發實戰課（免費）

帶來互聯網產品簽到 class -s 認證名企 gin light Leangoo誠邀您參加 2017《用leangoo做Scrum敏捷開發》實戰課！在此實戰課上，您不僅可以聽到一線資深敏捷顧問帶來的敏捷落地實踐經驗，還可以和眾多企業同仁共同探討敏捷實踐過程中的酸甜

【疑問】用python寫登錄驗證遇到的問題

password () http eas ini contact blog pre python 最近開始斷斷續續學習python，今天加入博客園，作為新人，和各位老師們討教了，以後多多照顧！為了大家能看清楚所以就截圖了，文末尾附源碼，說不定會有那位老師給我指教一番。###

【itchat】用Python玩耍微信

說了 chatroom mage 等於 gis 表情 __main__ rec register 【itchat】　　itchat是個基於網頁版微信的python微信API。功能目前做到基本可以滿足正常的消息收發，信息的獲取等等。不過對於紅包之類網頁版微信不支持的功能，

[轉]【NODE】用WS模塊創建加密的WS服務(WSS)

setting sublime websocket lis pop 函數 server nim data- 【From】 https://luojia.me/2015/07/21/%E3%80%90node%E3%80%91%E7%94%A8ws%E6%A8%A1%E5%9

【原創】用python將時間unix格式轉換總結

接受 bsp 時間戳 pretty 需要字符串解析 time函數 spa datetime 我們可以用python裏面的time模塊mktime方法將轉為unix時間戳，mktime函數只能接受相應時間的元祖序列。在此之前需要先將輸入的時間轉為元組序列：如果輸入的時間為

【bzoj2733】[HNOI2012]永無鄉線段樹合並

rip blog data 依次 getchar() -s output script 當前 Description 永無鄉包含 n 座島，編號從 1 到 n，每座島都有自己的獨一無二的重要度，按照重要度可以將這 n 座島排名，名次用 1 到 n 來表示。某些島之間

【搜尋引擎】用whoosh+無監督聚類搭建一套智慧搜尋引擎

相關推薦