author/LiveSino 中文版

Lucene 全文檢索

Lucene 全文檢索 Field域 Field是文件中的域,包括Field名和Field值兩部分,一個文件可以包括多個Field,Document只是Field的一個承載體,Field值即為要

NLPCC2013中文微博細粒度情感識別(二)

偷懶若干天后迴歸。。在上一篇中我們得到了NLPCC2013的中文微博資料,將其按照8:1:1的比例分成了訓練集,驗證集和測試集。下一步就是對資料進行預處理以及embedding。這是第一次嘗試一邊寫部落格一邊把

深度有趣 | 25 影象標題生成

輸入是一張圖片,輸出是一句對圖片進行描述的文字,這就是影象標題生成 基本思路是先通過預訓練的影象分類模型,從某一個卷積層得到原始圖片的表示,或者稱為上下文contexts 例如從VGG19的 conv

centos coreseek4.1安裝和配置

概念 1. sphinx是國外的一款搜尋軟體,一款基於SQL的高效能全文檢索引擎 2. coreseek是在sphinx的基礎上,增加了中文分詞功能,增加對中文的支援。4.1版本是2011年釋出的,它是基於

深度有趣 | 15 淺談中文分詞

簡單瞭解下中文分詞的概念,並用標準資料集、Keras和TensorFlow,分別基於LSTM和CNN實現中文分詞器 原理 中文分詞是指,將句子根據語義切分成詞 我來到北京清華大學 -> 我

深度有趣 | 03 高階又一般的詞雲

詞雲是一種資料呈現方式 不會的時候,感覺很厲害、很高大上 會用了之後,感覺到哪都看到別人在用 掌握用 Python 實現詞雲的方法 準備 安裝包 pip instal

Elasticsearch權威指南學習筆記

為什麼es查詢和聚合都這麼快?底層是如何實現的? 資料在es叢集中如何儲存的?如何做到自動分散式的? 為什麼es的主分片數設定了之後就不能調整,而副本分片數可以調整? 如何優化索引方式

分詞,難在哪裡?

題圖:by Lucas Davies 一、前言 分詞,我想是大多數大前端開發人員,都不會接觸到的一個概念。這個不影響我們瞭解它,畢竟我們要多方向發展。今天就來簡單介紹一些分詞,

柔性曲面設計,中興Axon 10 Pro顏值太逆天!

2018年4月16日晚美國政府在未來7年內禁止中興通訊向美國企業購買敏感產品,中興被美國製裁了之後,該公司就很少出來發聲了,也可以說中興的一些產品關注的人變少了,以至於大家的耳中似乎很久沒有聽到過中興的名字。而

進軍資料庫市場,華為要挑戰甲骨文?

中國IDC圈訊根據外媒報道,華為即將進行有史以來規模最大的一次擴張,進軍目前由甲骨文、微軟和SAP等西方巨頭主導的企業軟體領域。 據知情人士表示,華為計劃於近期推出其新的雲服務資料庫產品。華為一名

IDC時評:企業上雲之公有云真能省錢?

如今的中國雲端計算市場正處在高速發展期,傳統行業企業對雲端服務的接受程度越來越高。再加上短視訊、遊戲、電商等網際網路業務的持續推動,國內雲市場,特別是公有云市場增速屢創新高。據相關資料顯示,2018年中國公有云服務市

甲骨文大敗局:中國區大裁員 錯失雲端計算機會

[摘要] 隨著昔日的大客戶阿里巴巴、亞馬遜等變成今日最大的競爭對手,在錯失雲端計算戰略過後,甲骨文不斷陣地失守。在這一情況下,其不得不進行戰略調整,不過,這家步履遲緩的企業能否走好下 時代週報記者

NLP系列之文字分類

本篇部落格主要是記錄自然語言處理中的文字分類任務中常見的基礎模型的使用及分析。Github上 brightmart 大佬已經整理出很完整的一套文字分類任務的基礎模型及對應的模型程式碼實現。網上也有部分部落格將

1746085682.9528