author/SCRUM中文網

Elasticsearch 搜尋片語,如何更準?

更好的閱讀體驗,開啟【閱讀原文】,在PC上瀏覽 Lucene用了很久,其版本更新也很快。在ES出來之後,直接使用Lucene的時候就比較少了,更多的就在ES框架下一站式完成,ES目前在專案中幾乎佔據了半壁江

es簡單打造站內搜尋

最近挺忙的,在外出差,又同時幹兩個專案。白天一個晚上一個,特別是白天做的專案,馬上就要上線了,在客戶這裡 三天兩頭開會,問題很多真的很想好好靜下來懟程式碼,半夜做夢都能fix bugs~ 和客戶交流真的是門技術

開放搜尋(Opensearch)之下拉提示

下拉提示是搜尋引擎的標配功能,它能起到減少使用者輸入的作用,自動補全搜尋關鍵字,提升使用者使用搜索引擎的體驗,好的下拉提示還可以引導使用者輸入質量高的 query ,這些高質量  query 最終能輸出使用者

sharding jdbc之解析引擎

1. 解析引擎 解析過程分為 詞法解析 和 語法解析 。 解析引擎在  parsing 包下,包含兩大元件: Lexer:詞法解析器。 Parser:SQL解析器。

elasticsearch實戰---中文拼音A-Z排序(完美解決)

公司目前業務系統偏向後臺系統,目前包含500W+資料,在許多列表中支援各種條件查詢,含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下,目前公司已使用es搜尋引擎進行條件搜尋。es版本如下: ela

文章相似度計算

演算法思路 首先看個簡單的例子: 句子A: 我喜歡看電視,不喜歡看電影 句子B: 我不喜歡看電影,也不喜歡看電視 基本思路 如果兩句話的用詞越相似,它們的內容越相似。因此,可以從詞頻入手,計

Go 高效能分詞 Gse v0.20.0 釋出, 優化效能

Go 語言高效分詞, 支援英文、中文、日文等 詞典用雙陣列trie(Double-Array Trie)實現, 分詞器演算法為基於詞頻的最短路徑加動態規劃。 支援普通和搜尋引擎兩種分詞模式,支援使用者詞

資料處理-招聘資訊-中文分詞與詞頻統計

智慧決策上手系列教程索引 通過前面的幾篇文章,相信大家都嘗試抓取了一些網站上招聘資訊的資料,並存儲到自己的檔案裡面了,可能是一堆 .json 或 .csv 檔案。 如果你還沒有抓到資料,請看這

Lucene 全文檢索

Lucene 全文檢索 Field域 Field是文件中的域,包括Field名和Field值兩部分,一個文件可以包括多個Field,Document只是Field的一個承載體,Field值即為要

NLPCC2013中文微博細粒度情感識別(二)

偷懶若干天后迴歸。。在上一篇中我們得到了NLPCC2013的中文微博資料,將其按照8:1:1的比例分成了訓練集,驗證集和測試集。下一步就是對資料進行預處理以及embedding。這是第一次嘗試一邊寫部落格一邊把

從炒作到炒作:繼續保持亞洲資料中心的超大規模

據普華永道稱,亞太地區的資料中心市場正在蓬勃發展,預計到2021年將超過歐洲。亞太地區對雲服務的迅速採用,推動了對更多超大規模資料中心的需求,使亞洲資料中心市場進一步呈指數級增長。 雖然這種超大規模的趨勢是

深度有趣 | 25 影象標題生成

輸入是一張圖片,輸出是一句對圖片進行描述的文字,這就是影象標題生成 基本思路是先通過預訓練的影象分類模型,從某一個卷積層得到原始圖片的表示,或者稱為上下文contexts 例如從VGG19的 conv

1746053053.6584