轉載：Spark 使用ansj進行中文分詞

阿新 • • 發佈：2018-10-31

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html

在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程

ansj原始碼github：https://github.com/NLPchina/ansj_seg

ansj下載連結：https://oss.sonatype.org/content/repositories/releases/org/ansj/ansj_seg/

nlp-lang下載連結：https://oss.sonatype.org/content/repositories/releases/org/nlpcn/nlp-lang/

package com.spark.test

import org.apache.spark.sql.SparkSession
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

import scala.io.Source
import org.ansj.splitWord.analysis.DicAnalysis
import org.ansj.library.DicLibrary
import org.ansj.recognition.impl.StopRecognition
import org.nlpcn.commons.lang.tire.library
import java.util.Arrays

object Participle {
  case class Movies(productId:String,userId:String,profileName:String,
                    helpfulness:String,score:String,time:String,summary:String,text:String)

  def main(args: Array[String]){
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

    //分詞準備
    val stop = new StopRecognition()
    stop.insertStopNatures("w")//過濾掉標點
    stop.insertStopNatures("m")//過濾掉m詞性
    stop.insertStopNatures("null")//過濾null詞性
    stop.insertStopNatures("<br />")//過濾<br　/>詞性
    stop.insertStopNatures(":")
    stop.insertStopNatures("'")

    val spark = SparkSession.builder().master("local[4]").appName("prepare").getOrCreate()
    val data = spark.sparkContext.textFile("/Users/yangyang/Desktop/b.txt")
    import spark.implicits._
    val splits = data.filter(line => !line.contains("4.0")).map{x =>
      val fields = x.split("\t")
      if(fields(4).toString <= "3.0"){
        fields(4) = "0"
      }else if(fields(4).toString == "5.0"){
        fields(4) = "1"
      }
      fields(0)+"\t"+fields(1)+"\t"+fields(2)+"\t"+fields(3)+"\t"+fields(4)+"\t"+fields(5)+"\t"+fields(6)+"\t"+fields(7)
    }
    //生成訓練資料集
    val trains = splits.map(_.split("\t")).map(x => Movies(x(0).toString,x(1).toString,x(2).toString,x(3).toString,x(4).toString,x(5).toString,x(6).toString,x(7).toString)).toDF()
    //trains.show()
    trains.createOrReplaceTempView("train")
    val doc = spark.sql("select text from train").rdd
    // println(doc)
    //    val testsentence = DicAnalysis.parse("好喜歡《武林外傳》這部電視劇！").recognition(stop).toStringWithOutNature("|")
    //    println(testsentence)
    //去掉逗號、句號等
    val splited = doc.map{ x =>
      val str = x.toString()
      DicAnalysis.parse(str).recognition(stop).toStringWithOutNature("|")
    }.saveAsTextFile("/Users/XXXXX/Desktop/c")
    //splited.show()
    //.saveAsTextFile("/Users/XXXXX/Desktop/c")
    //    println(splited)
    spark.close()
  }
}
部分參考：http://m.blog.csdn.net/ozinco/article/details/70184347

轉載：Spark 使用ansj進行中文分詞

轉載：https://www.cnblogs.com/JustIsQiGe/p/8006734.html 在Spark中使用ansj分詞先要將ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj原始碼github：https://github.com/

spark叢集環境下使用hanlp進行中文分詞

標籤：zab table import shel – java standard mas tokenizer 1、將下載的hanlp-portable-1.6.2.jar複製到叢集spark/jar資料夾下面 2、啟動spark叢集 spark/bin/spark-shel

使用Python+jieba和java+庖丁分詞在Spark叢集上進行中文分詞統計

寫在前邊的話：本篇部落格也是在做豆瓣電影資料的分析過程中，需要對影評資訊和劇情摘要資訊進行分析而寫的一篇部落格以前學習hadoop時，感覺做中文分詞也沒那麼麻煩，但是到了

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

使用Java呼叫Stanford CoreNLP 進行中文分詞

Stanford CoreNLP 進行中文分詞中文分詞的工具有很多，使用斯坦福的CoreNLP進行分詞的教程網上也不少，本篇部落格是記錄自己在使用Stanford CoreNLP進行中文分詞的學習筆記。 1. 工具準備 1.1 下載NLP相關包：網址： https://stanfordn

使用jieba和wordcloud進行中文分詞並生成《悲傷逆流成河》詞雲

因為詞雲有利於體現文字資訊，所以我就將那天無聊時爬取的《悲傷逆流成河》的評論處理了一下，生成了詞雲。關於爬取影評的爬蟲大概長這個樣子(實際上是沒有爬完的): #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/15 16:3

使用IKAnalyzer進行中文分詞

一個完整的結構如下：其中ext.dic和chinese_stopword.dic都是自定義的，這裡ext.dic用的是百度百科的詞條【496萬個詞條】，需要在xml裡面新增dic的位置。<?xml version="1.0" encoding="UTF-8"?>&l

使用python jieba庫進行中文分詞

jieba “結巴”中文分詞：做最好的 Python 中文分片語件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word

python中使用jieba進行中文分詞

原始碼下載的地址：https://github.com/fxsjy/jieba演示地址：http://jiebademo.ap01.aws.af.cm/ 一 “結巴”中文分詞：做最好的 Python 中文分片語件。支援三種分詞模式：精確模式，試圖將句子最精確地切開，適

python讀寫txt檔案，並用jieba庫進行中文分詞

在虎撲上隨便找了一段文字，貼上到word.txt檔案中，然後對這段文字進行處理。其中用到的matplotlib庫，主要是用來繪圖；jieba庫，對文字進行分詞；wordcloud庫，構建詞雲。一、引用庫

Lucene 學習（二）：使用IK Analyzer中文分詞

import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Fie

用正向和逆向最大匹配演算法進行中文分詞（續）

一、結果分析： 1.程式執行結果，如下圖所示： 2.總體分析。（1）正向和逆向匹配都正確的句子數目為 1731，佔句子總數的39.0% （2）正向最大匹配完全正確的句子數目為 1917，佔句子總數的43

python3進行中文分詞和詞性標註

配置python環境(win10) 雙擊安裝，我安裝在了D:\python 中。新增環境變數。在我的電腦處右鍵 -> 高階系統設定 -> 環境變數 -> 系統變數 ->

Python呼叫PYNIPIR(ICTCLAS)進行中文分詞

NLPIR漢語分詞系統,主要功能包括中文分詞；詞性標註；命名實體識別；使用者詞典功能；支援GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發現與關鍵詞提取；張華平博士先後傾力打造十餘年，核心升級10次。（http://ictclas.nlpir.org

使用R語言進行中文分詞

1.準備包 ①rJava包 ② Rwordseg包 ③java環境 ④搜狗詞庫（此為擴充套件詞庫） Rwordseg包依賴於rJava包。由於Rwordseg包並沒有託管在CRAN上面，而是在R-Forge上面，因此在在R軟體上面直接

Spark 大資料中文分詞統計（一）開發環境搭建

幾年前搞BI專案時就聽說過大資料技術，當時也買了書，可惜沒有認真去學。幾年5月份開始，報名參加王家林老師的大資料蘑菇雲行動，才算真正開始學習Spark，學習大資料技術。網上很多Spark的例子都是經典的WordCount exam

Python利用結巴分詞進行中文分詞

利用結巴分詞進行中文分詞，選擇全模式，建立詞倒排索引，並實現一般多詞查詢和短語查詢 # -*- coding: utf-8 -*- import jieba ''' Created on 2015-11-23 ''' def word_split(text): "

最大熵模型進行中文分詞

本文運用字標註法進行中文分詞，最大熵模型方面使用開源的張樂博士的最大熵模型工具包(Maximum Entropy Modeling Toolkit for Python and C++)。使用的中文語料資源是SIGHAN提供的backoff 2005語料，

利用庖丁解牛工具進行中文分詞

關於如何使用庖丁解牛分詞工具可參考：http://www.letiantian.me/2014-11-26-word-segmentation-paoding-analysis/ 該工具可實現自定義詞典，對於有些特殊的詞，比如明星名字林心如霍建華等，可構建詞典以.dic為

在C++中呼叫Jieba進行中文分詞

背景之前有個小專案用到了中文分詞，但當時使用的ICTCLAS需要每個月下載證書，很不方便。後來在網上找到了一個開源的python實現的中文分詞器Jieba，可以使用pip直接安裝本地。但之前的專案是c++實現的，所以需要考慮跨語言的呼叫問題。 Python

轉載：Spark 使用ansj進行中文分詞

相關推薦