Spark-初探-文字分類

阿新 • • 發佈：2019-01-12

Spark機器學習文字分類

背景

由於專案組需要對爬蟲獲取的文字進行歸類，最初使用正則表示式按照想到的規則進行解析分類，後來發現這種方式不夠靈活，而且不能窮舉所有的可能。所以專案組覺得使用最近比較流行的機器學習相關的知識去處理。

相關知識

再對文字進行分類之前，需要先對文字進行分詞，然後將分詞轉換為特徵向量，使用機器學習演算法模型對特徵向量和已經知道的標籤資料進行模型擬合，產生理想的模型，通過理想的模型進行預測未來產生的資料

分詞

英文分詞

英文文件已經天然的分好詞，根據空格字元就可以做出很精準的分詞，只要控制好停用詞即可。以下是spark已經為我們封裝好的英文分詞和停用詞API使用介紹。

import org.apache.spark.ml.feature.Tokenizer
import org.apache.spark.sql.functions._
val sentenceDataFrame = spark.createDataFrame(Seq(
  (0, "Hi I heard about Spark"),
  (1, "I wish Java could use case classes"),
  (2, "Logistic,regression,models,are,neat")
)).toDF("id", "sentence")
val tokenizer = 
 new Tokenizer().setInputCol("sentence").setOutputCol("words")
val tokenized = tokenizer.transform(sentenceDataFrame)
tokenized.select("sentence", "words").show(false)

以上程式碼輸出結果

+-----------------------------------+------------------------------------------+
|sentence                           |words                                     |
+-----------------------------------+------------------------------------------+
|Hi I heard Spark about Spark       |[hi, i, heard, spark, about, spark]       |
|I wish Java could use case classes |[i, wish, java, could, use, case, classes]|
|Logistic regression models are neat|[logistic, regression, models, are, neat] |
+-----------------------------------+------------------------------------------+

中文分詞

中文分詞比英文分詞複雜很多，需要根據中文語義和中文詞典進行分詞。還好關於中文分詞的工具很多大牛已經幫我們做好了，我們只要根據API去呼叫即可。本人在實踐中最初使用了IKAnalysis，但是發現IKAnalysis分詞器的效能很差，幾百萬的行的文字分詞竟然跑不出來。後來，在同事的推薦下使用了HanNlp中文分詞器，解決了效能上面的瓶頸。

詞向量轉化工具

TF-IDF

TF-IDF是一種統計方法，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF加權的各種形式常被搜尋引擎應用，作為檔案與使用者查詢之間相關程度的度量或評級。
關於TF-IDF的計算公式如下：
$TFIDF=TF × IDF$
TF（Term Frequency）是一個單詞在當前文件中的出現次數除以當前文件總詞頻，計算公式如下：
$TF_i,_j=\frac{N_i,_j}{\sum_{k}N_k,_j}$
IDF（Invest Document Frequency) 逆文字頻率指數，是等於總的文件數除以包含制定詞的文件數。計算公司如下：
$IDF=\lg\frac{|D|}{|j:t_i∈d_j|}$

|D|：是總的文件集合的總數量
分母：是詞ti出現的文件數

TF-IDF的值越大說明這個詞在文件中的地位越高。如果一個詞在所有的文件裡面都出現，那麼IDF的值等於0，TF-IDF的值也等於0，就算這個詞在文件中出現的頻率再高，對分析沒有什麼參考價值。
spark關於TF-IDF也有對應的API,程式碼

import org.apache.spark.ml.feature.IDF
hahingTF = new HashingTF()
  .setInputCol("words")
  .setOutputCol("rawFeatures").
  setNumFeatures(20)  // 設定特徵向量數
val featurizedData = hashingTF.transform(wordsData)
val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)

val rescaledData = idfModel.transform(featurizedData)
rescaledData.select("label", "features").show()

程式碼使用HashingTF模型將前面已經分好的word詞轉化為詞頻向量，使用rawFeatures欄位裡面，然後使用IDF模型將rawFeatures欄位轉化為詞向量放在features欄位裡面。features欄位就是我們想要得到的特徵向量。程式碼輸出結果如下:

+-----+------------------------------------------+--------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|label|words                                     |rawFeatures                                                                           |features                                                                                                                                                                                        |
+-----+------------------------------------------+--------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|0.0  |[hi, i, heard, spark, about, spark]       |(262144,[24417,49304,73197,91137,234657],[1.0,1.0,1.0,1.0,2.0])                       |(262144,[24417,49304,73197,91137,234657],[0.28768207245178085,0.6931471805599453,0.6931471805599453,0.6931471805599453,1.3862943611198906])                                                     |
|0.0  |[i, wish, java, could, use, case, classes]|(262144,[20719,24417,55551,116873,147765,162369,192310],[1.0,1.0,1.0,1.0,1.0,1.0,1.0])|(262144,[20719,24417,55551,116873,147765,162369,192310],[0.6931471805599453,0.28768207245178085,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453])|
|1.0  |[logistic, regression, models, are, neat] |(262144,[13671,91006,132713,167122,190884],[1.0,1.0,1.0,1.0,1.0])                     |(262144,[13671,91006,132713,167122,190884],[0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453])                                                    |
+-----+------------------------------------------+--------------------------------------------------------------------------------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

Word2Vec

Word2Vec是一個估計器，它獲取表示文件的單詞序列，並訓練Word2VecModel。該模型將每個單詞對映到一個唯一的固定大小向量。Word2VecModel使用文件中所有單詞的平均值將每個文件轉換為向量；然後這個向量可以用作預測、文件相似度計算等的特徵。以下是關於word2vec的spark使用案例

import org.apache.spark.ml.feature.Word2Vec
import org.apache.spark.ml.linalg.Vector
val word2Vec = new Word2Vec()
  .setInputCol("words")
  .setOutputCol("features")
  .setVectorSize(3)  // 設定特徵向量數
  .setMinCount(0)
val model = word2Vec.fit(tokenized)
val result = model.transform(tokenized)
result.show(false)

程式碼輸出結果：

+-----+-----------------------------------+------------------------------------------+-----------------------------------------------------------------+
|label|sentence                           |words                                     |features                                                         |
+-----+-----------------------------------+------------------------------------------+-----------------------------------------------------------------+
|0.0  |Hi I heard Spark about Spark       |[hi, i, heard, spark, about, spark]       |[-0.027734022897978623,-0.028992994998892147,0.06874776010711987]|
|0.0  |I wish Java could use case classes |[i, wish, java, could, use, case, classes]|[0.040505675066794665,0.019249096512794495,-0.027486081767295088]|
|1.0  |Logistic regression models are neat|[logistic, regression, models, are, neat] |[0.035547485947608946,0.016720289736986162,0.02818153351545334]  |
+-----+-----------------------------------+------------------------------------------+-----------------------------------------------------------------+

迴歸和分類

關於迴歸和分類的模型在機器學習中有很多，本人初次接觸機器學習，也只是大概知道有這麼些模型，關於模型的具體理論和使用，是本人後面學習的目標。這裡只是列舉以下。

迴歸模型

線性迴歸
決策樹迴歸
隨機森林
梯度提升樹

分類模型

決策數分類
隨機森林
梯度提升樹
神經網路 - 多層感知器分類
朴樹貝葉斯分類

實踐

本人使用TF-IDF對分詞後的文件進行詞向量轉化，然後使用神經網路-多層感知器分類。傳輸層我定義4層，輸入層+2層隱藏層+輸出層

import org.apache.spark.ml.classification.MultilayerPerceptronClassifier
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
val layers = Array[Int](1000, 60, 50, 10)  // 輸入一個1000個特徵的向量，第一個隱藏層60個節點，第二個隱藏層50個節點，輸出10個分類。
val trainer = new MultilayerPerceptronClassifier()
  .setLayers(layers)
  .setBlockSize(128)
  .setSeed(1234L)
  .setMaxIter(100)
  val model = trainer.fit(trainingDF)
  val preceptronDF = model.transform(testDF)
  val evaluator = new MulticlassClassificationEvaluator()
  .setMetricName("accuracy")
  println("測試資料預測準確度 = " + evaluator.evaluate(predictionAndLabels))

由於資料安全性考慮，本人不在這裡給出真實資料執行結果。以上引數執行70萬行文字進行模型訓練，30萬行文字進行模型測試，準確度能夠達到98%左右。

總結

本人這次接觸機器學習，並使用機器學習在專案中實踐和應用，我感到成長了很多。雖然這次只是知道機器學習的簡單使用，對一些複雜的模型不是很清楚原理，這也將激發我繼續學下去的動力。對於機器學習，很多時候還是要多動動手，同事模型選擇和預測資料的準備也很重要，選對模型，準備好正確的資料，那麼我們就可以行動啦。

Spark-初探-文字分類

Spark機器學習文字分類

背景

相關知識

分詞

英文分詞

中文分詞

詞向量轉化工具

TF-IDF

Word2Vec

迴歸和分類

迴歸模型

分類模型

實踐

總結

Spark-初探-文字分類

spark中文文字分類

利用spark做文字分類（樸素貝葉斯模型）

Spark MLlib實現的中文文字分類–Naive Bayes

Spark下實現LDA+SVM的文字分類處理

基於NaiveBayes的文字分類之Spark實現

基於的樸素貝葉斯的文字分類（附完整程式碼(spark/java）

Spark ML下實現的多分類adaboost+naivebayes演算法在文字分類上的應用

如何用 Spark 深度整合 Tensorflow 實現文字分類

Spark垃圾郵件分類(scala+java)

5.1、文字分類

tensorflow 教程文字分類 IMDB電影評論

使用條件隨機場模型解決文字分類問題（附Python程式碼）

斯坦福大學-自然語言處理入門筆記第六課文字分類與樸素貝葉斯

基於協同訓練的半監督文字分類演算法

文字分類-TextCNN

【線上直播】人工智慧中的文字分類技術

使用機器學習完成中文文字分類

文字分類——快速kNN設計實現

文字分類——NLV演算法研究與實現

Spark-初探-文字分類

Spark機器學習文字分類

背景

相關知識

分詞

英文分詞

中文分詞

詞向量轉化工具

TF-IDF

Word2Vec

迴歸和分類

迴歸模型

分類模型

實踐

總結

相關推薦