author/NASA中文愛好者團隊第2頁

7個優秀的開源中文分詞庫推薦，實用性強！

簡書

2018-11-23 15:44:17

縱觀整個開源領域，陸陸續續做中文分詞的也有不少，不過目前仍在維護的且質量較高的並不多。下面整理了一些個人認為比較優秀的中文分詞庫，以供大家參考使用。 1、jieba —— Python

隱馬爾可夫分詞

稀土掘金

2018-11-22 08:36:09

雖然目前 nlp 很多工已經發展到了使用深度學習的迴圈神經網路模型和注意力模型，但傳統的模型咱們也一樣要了解。這裡看下如何使用隱馬爾科夫模型(HMM)進行分詞。隱馬爾科夫模型隱馬爾科夫模型是一種有向

結巴分詞在Android手機上的應用：原理、接入和啟動優化

簡書

2018-11-20 19:57:22

中文分詞中文分詞功能是一項常用的基礎功能，有很多開源的工程實現，目前能應用於Android手機端的中文分詞器沒有很完善的版本。經過調研，我選擇了結巴分詞，該開源工

HanLP 1.7.0 釋出，新增文字聚類、流水線分詞

開源中國

2018-11-13 07:27:49

HanLP 1.7.0 釋出了，HanLP 是由一系列模型與演算法組成的 Java 工具包，目標是普及自然語言處理在生產環境中的應用。HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。在

資料科學和人工智慧技術筆記五、文字預處理

簡書

2018-11-10 22:11:32

五、文字預處理作者： Chris Albon 譯者：飛龍協議： CC BY-NC-SA 4.0 詞袋 image # 載入庫 i

AI賦能一鍵自動檢測：頁面異常、控制元件異常、文字異常

機器之心

2018-11-02 12:41:00

概要：FireEye是通過AI提高測試效率，並降低AI自動化測試使用門檻的工具集，一經部署，就可以不用再修改指令碼實現模型的使用和更新。本篇文章將具體介紹AI自動化測試過程中用到工程結構、模型選型和重

Torchtext指南（側重於NMT）

部落格園-原創精華區

2018-10-31 13:22:00

Torchtext指南（側重於NMT） torchtext是一個對於NLP來說非常棒的預處理資料的工具。本文記錄一下自己學習的過程，側重於NMT。一個基本的操作流程：建立Fie

Elasticsearch 搜尋片語，如何更準？

2018-10-30 07:08:19

更好的閱讀體驗，開啟【閱讀原文】，在PC上瀏覽 Lucene用了很久，其版本更新也很快。在ES出來之後，直接使用Lucene的時候就比較少了，更多的就在ES框架下一站式完成，ES目前在專案中幾乎佔據了半壁江

es簡單打造站內搜尋

部落格園精華區

2018-10-27 22:41:00

最近挺忙的，在外出差，又同時幹兩個專案。白天一個晚上一個，特別是白天做的專案，馬上就要上線了，在客戶這裡三天兩頭開會，問題很多真的很想好好靜下來懟程式碼，半夜做夢都能fix bugs~ 和客戶交流真的是門技術

開放搜尋(Opensearch)之下拉提示

雲棲團隊部落格

2018-10-25 21:53:06

下拉提示是搜尋引擎的標配功能，它能起到減少使用者輸入的作用，自動補全搜尋關鍵字，提升使用者使用搜索引擎的體驗，好的下拉提示還可以引導使用者輸入質量高的 query ，這些高質量 query 最終能輸出使用者

使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲

部落格園精華區

2018-10-22 18:51:00

因為詞雲有利於體現文字資訊，所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下，生成了詞雲。關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python

sharding jdbc之解析引擎

部落格園精華區

2018-10-21 23:35:00

1. 解析引擎解析過程分為詞法解析和語法解析。解析引擎在 parsing 包下，包含兩大元件： Lexer：詞法解析器。 Parser：SQL解析器。

中國電信北京公司推出 “十全十美團圓套餐”

新華科技

2018-10-19 07:51:23

近日，中國電信北京公司推出“十全十美團圓套餐”。該套餐，不僅價格上有溫度，流量、語音兩充沛，且在增值業務上也大有力度：兩年期內，使用者每月繳費99元，再躉交24元，就可以暢享“20G高速流量+1000分鐘通話+ 20

elasticsearch實戰---中文拼音A-Z排序（完美解決）

稀土掘金

2018-10-16 13:47:33

公司目前業務系統偏向後臺系統，目前包含500W+資料，在許多列表中支援各種條件查詢，含有大量的模糊搜尋條件。由於在mysql中模糊查詢效率低下，目前公司已使用es搜尋引擎進行條件搜尋。es版本如下： ela

文章相似度計算

簡書

2018-10-16 13:29:49

演算法思路首先看個簡單的例子：句子A：我喜歡看電視，不喜歡看電影句子B：我不喜歡看電影，也不喜歡看電視基本思路如果兩句話的用詞越相似，它們的內容越相似。因此，可以從詞頻入手，計