author/NASA中文愛好者團隊

7個優秀的開源中文分詞庫推薦,實用性強!

縱觀整個開源領域,陸陸續續做中文分詞的也有不少,不過目前仍在維護的且質量較高的並不多。下面整理了一些個人認為比較優秀的中文分詞庫,以供大家參考使用。 1、jieba —— Python

隱馬爾可夫分詞

雖然目前 nlp 很多工已經發展到了使用深度學習的迴圈神經網路模型和注意力模型,但傳統的模型咱們也一樣要了解。這裡看下如何使用隱馬爾科夫模型(HMM)進行分詞。 隱馬爾科夫模型 隱馬爾科夫模型是一種有向

Elasticsearch 搜尋片語,如何更準?

更好的閱讀體驗,開啟【閱讀原文】,在PC上瀏覽 Lucene用了很久,其版本更新也很快。在ES出來之後,直接使用Lucene的時候就比較少了,更多的就在ES框架下一站式完成,ES目前在專案中幾乎佔據了半壁江

es簡單打造站內搜尋

最近挺忙的,在外出差,又同時幹兩個專案。白天一個晚上一個,特別是白天做的專案,馬上就要上線了,在客戶這裡 三天兩頭開會,問題很多真的很想好好靜下來懟程式碼,半夜做夢都能fix bugs~ 和客戶交流真的是門技術

開放搜尋(Opensearch)之下拉提示

下拉提示是搜尋引擎的標配功能,它能起到減少使用者輸入的作用,自動補全搜尋關鍵字,提升使用者使用搜索引擎的體驗,好的下拉提示還可以引導使用者輸入質量高的 query ,這些高質量  query 最終能輸出使用者

sharding jdbc之解析引擎

1. 解析引擎 解析過程分為 詞法解析 和 語法解析 。 解析引擎在  parsing 包下,包含兩大元件: Lexer:詞法解析器。 Parser:SQL解析器。

中國電信北京公司推出 “十全十美團圓套餐”

近日,中國電信北京公司推出“十全十美團圓套餐”。該套餐,不僅價格上有溫度,流量、語音兩充沛,且在增值業務上也大有力度:兩年期內,使用者每月繳費99元,再躉交24元,就可以暢享“20G高速流量+1000分鐘通話+ 20

elasticsearch實戰---中文拼音A-Z排序(完美解決)

公司目前業務系統偏向後臺系統,目前包含500W+資料,在許多列表中支援各種條件查詢,含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下,目前公司已使用es搜尋引擎進行條件搜尋。es版本如下: ela

文章相似度計算

演算法思路 首先看個簡單的例子: 句子A: 我喜歡看電視,不喜歡看電影 句子B: 我不喜歡看電影,也不喜歡看電視 基本思路 如果兩句話的用詞越相似,它們的內容越相似。因此,可以從詞頻入手,計

1746074920.5927