使用Spark框架中文分詞統計

阿新 • • 發佈：2019-02-16

技術
Spark+中文分詞
演算法
對爬取的網站文章的關鍵詞進行統計，是進行主題分類，判斷相似性的一個基礎步驟。例如，一篇文章大量出現“風景”和“酒店”之類的詞語，那麼這篇文章歸類為“旅遊”類的概率就比較大。而在關於“美食”的文章中，“餐廳”和“美味”等詞語出現的頻率一般也會比較大。
分詞使用語言云http://www.ltp-cloud.com實現對一段中文先進行分詞，然後通過Spark streaming 對分詞後的內容進行詞頻統計。
通過ltp-cloud進行中文分詞
目前國內有不少科研機構開發了中文分詞系統，例如中科院、哈工大、科大訊飛等，本次體驗的是哈工大的語言云。
Rest API呼叫，
例如(YourAPIKey替換成你的APIKey)：

curl -i"http://api.ltp-cloud.com/analysis/?api_key=YourAPIKey&text=認知商業需要認知技術&pattern=ws&format=plain"
HTTP/1.1 200 OK
Server: nginx
Date: Tue, 22Mar 2016 14:18:39 GMT
Content-Type:text/plain;charset=utf-8
Transfer-Encoding:chunked
Connection:keep-alive
X-Powered-By-360WZB:wangzhan.360.cn
Vary:Accept-Encoding

Spark Streaming進行詞頻統計
Spark Streaming是基於Spark平臺上提供的流計算引擎，可以處理多種資料來源的流資料，並進行統計分析。在Spark Streaming的sample程式中，就提供了從MQTT，Kafka，Network socket等來源讀取資料的word count。本次測試NetworkWordCount，即SparkStreaming從TCPIP Socket讀取資料，然後對內容進行詞頻統計。

// 建立Streaming上下文，使用2個執行緒，流處理時間視窗1秒
valconf=newSparkConf.setMaster("local[2]" 
).setAppName("NetworkWordCount")valssc=newStreamingContext(conf,Seconds(1))
// 建立監聽9999埠的流
vallines=ssc.socketTextStream("localhost",9999)
// 將行拆分成單詞
valwords=lines.flatMap(_.split(" "))
// 統計詞頻
valpairs=words.map(word=>(word,1))valwordCounts=pairs.reduceByKey(_+_)
// 列印統計結果
wordCounts.print
// 啟動流，開始計算
ssc.start 
ssc.awaitTermination

執行程式
cd $SPARK_HOME目錄，
輸入:
./bin/run-example streaming.NetworkWordCount llhost 9999
Spark會啟動一個Spark Streaming的WordCount範例程式，在9999埠監聽，並進行詞頻統計。然後，通過另外一個指令碼，用curl呼叫哈工大語言云進行分詞，並通過linux命令nc將結果寫入埠9999的socket:
總結
因為其中頻度最高的詞彙就是“**”。當然，真正應用中需要結合權重演算法，將一些常用詞如“的”，“然後”，“因此”之類的詞彙排除。哈工大語言云服務和SparkStreaming構建了一個簡單的實時中文詞頻統計框架，下一步可以考慮結合爬蟲獲取實時新聞，然後通過上述框架進行中文分詞和詞頻統計，並判斷新聞的熱點關鍵字。也可以構建基於關鍵字的權重向量，再呼叫聚類模型對新聞進行實時主題分類。可以使用Nutch這個高大上的東西，使用deploy模式將爬取的內容儲存在HDFS中。
Nutch

Nutch搭建其實很簡單，可以選用2.x版本,可以用deploy模式或者local模式都是可以的，當然最好是用deploy模式，執行nutch指令碼，注意你可以使用索引，加上solr，當爬取內容需要做搜尋管理時，索引是必須的。
下步想法
可以使用spring mvc解決平臺顯示，後臺提供分詞統計的結果。

使用Spark框架中文分詞統計

技術 Spark+中文分詞演算法對爬取的網站文章的關鍵詞進行統計，是進行主題分類，判斷相似性的一個基礎步驟。例如，一篇文章大量出現“風景”和“酒店”之類的詞語，那麼這篇文章歸類為“旅遊

使用Python+jieba和java+庖丁分詞在Spark叢集上進行中文分詞統計

寫在前邊的話：本篇部落格也是在做豆瓣電影資料的分析過程中，需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格以前學習hadoop時，感覺做中文分詞也沒那麼麻煩，但是到了

Spark 大資料中文分詞統計（一）開發環境搭建

幾年前搞BI專案時就聽說過大資料技術，當時也買了書，可惜沒有認真去學。幾年5月份開始，報名參加王家林老師的大資料蘑菇雲行動，才算真正開始學習Spark，學習大資料技術。網上很多Spark的例子都是經典的WordCount exam

python3.6實現中文分詞統計-自然語言處理小專案

前言本文分為三部分，第一部分是安裝兩個中文分詞工具包，第二部分是對中文字串進行分詞，第三部分是進一步對中文文字進行分詞。Part 1 安裝中文分詞工具背景：已經安裝了python3.6，設定好環

轉載：Spark 使用ansj進行中文分詞

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github：https://github.com/

spark叢集環境下使用hanlp進行中文分詞

標籤：zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

中文分詞，詞頻統計，詞雲圖製作

from collections import Counter import jieba #jieba的安裝就不多介紹，網上相應的教程比較多 import matplotlib.pyplot as plt from wordcloud import WordClo

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

中文分詞與詞頻統計例項

http://blog.ourren.com/2014/09/24/chinese_token_and_frequency/ 話說近兩年大資料確實火了，帶給我們最直接的視覺感受就是利用圖或者表來展示大資料所隱藏的內容，真是真實而又直觀。然而技術部落格的側邊欄標籤雲就

使用Spark、Ansj分詞進行詞頻統計

使用Spark進行詞頻統計最近在做一個專案，要對大量的文字進行詞頻統計，發現常規的方法處理比較慢，所以嘗試使用Spark進行計算。思路大致是這樣：爬蟲爬取京東的評論資料到mongodb,然後我從mongodb拉資料上傳到HDFS,從HDFS拉資料然後用Spa

中文分詞演算法——基於統計的分詞

1.基於統計的分詞（無字典分詞）主要思想：上下文中，相鄰的字同時出現的次數越多，就越可能構成一個詞。因此字與字相鄰出現的概率或頻率能較好的反映詞的可信度。主要統計模型為：N元文法模型（N-gram）、隱馬爾科夫模型(Hidden Markov Model, HMM

Spark 中文分詞

getname tab UNC new .get -s arr n) add Spark 中文分詞一、導入需要的分詞包 import org.ansj.domain.Term import org.ansj.recognition.impl.StopRecognition

利用jieba進行中文分詞並進行詞頻統計

1.安裝jieba庫在windows的Anaconda環境下如果沒有設定環境變數，則從Dos命令先進入...\Anaconda3\Scripts 目錄中，然後執行以下命令即可： pip install jieba 2.分詞示例我們先用一段文字來進

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

.NET Core中文分詞組件jieba.NET Core

搜索引擎特點支持三種分詞模式：精確模式，試圖將句子最精確地切開，適合文本分析；全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義。具體來說，分詞過程不會借助於詞頻查找最大概率路徑，亦不會使用HMM；搜索引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜索引擎分詞。

PHP中文分詞擴展 SCWS

.com lin white 案例文件 down 運用包含 div 1、scws簡單介紹 SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫（即：簡易中文分詞系統）。這是一套基於詞頻詞典的機械式中文分詞引擎，它能將一整段的

Centos下Sphinx中文分詞編譯安裝測試---CoreSeek

orm 創建索引 auxiliary aclocal memcache acl inux mage arch 要支持中文分詞，還需要下載Coreseek，可以去官方搜索下載，這裏我用的4.1 百度雲下載地址： https://pan.baidu.com/s/1sl

es5.4安裝head、ik中文分詞插件

es安裝maven打包工具wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz tar -xf apache-maven-3.3.9-bin.tar.gz mv apach

中文分詞中的戰鬥機

raw 自帶參考文獻英文概念手動實現大學 sco 英文分詞的第三方庫NLTK不錯，中文分詞工具也有很多(盤古分詞、Yaha分詞、Jieba分詞等)。但是從加載自定義字典、多線程、自動匹配新詞等方面來看。大jieba確實是中文分詞中的戰鬥機。請隨意觀看表演

php+中文分詞scws+sphinx+mysql打造千萬級數據全文搜索

libc 海量 modules shell pub redis集群 register 處理 onf Sphinx是由俄羅斯人Andrew Aksyonoff開發的一個全文檢索引擎。意圖為其他應用提供高速、低空間占用、高結果相關度的全文搜索功能。Sphinx可以非常容易的與

使用Spark框架中文分詞統計

相關推薦