Spark Word2Vec算法代碼實現

阿新 • • 發佈：2018-11-21

cmode hadoop word mage pfile foreach last ext row


 1 import com.hankcs.hanlp.tokenizer.NLPTokenizer
 2 import org.apache.hadoop.io.{LongWritable, Text}
 3 import org.apache.hadoop.mapred.TextInputFormat
 4 import org.apache.log4j.{Level, Logger}
 5 import org.apache.spark.ml.feature.Word2Vec
 6 import org.apache.spark.sql.SparkSession
 7 
 8 /**
 9 
   * Created by zhen on 2018/11/20.
10   */
11 object Word2Vec {
12   Logger.getLogger("org").setLevel(Level.WARN) // 設置日誌級別
13   def main(args: Array[String]) {
14     val spark = SparkSession.builder()
15       .appName("Word2Vec")
16       .master("local[2]")
17       .getOrCreate()
18     val sc = spark.sparkContext
 
19 
20     val trainDataPath = "E://BDS/newsparkml/src/news_tensite_xml.smarty.dat"
21     // 數據預處理
22     val rdd = sc.hadoopFile(trainDataPath, classOf[TextInputFormat], classOf[LongWritable], classOf[Text])
23       .map(pair => new String(pair._2.getBytes, 0, pair._2.getLength, "GBK"))
24       .filter(row => row.contains("content"))
 
25       .map(row =>
26         if(row.contains("content")){
27           row.substring(row.indexOf(">")+1, row.lastIndexOf("<")).trim()
28         }else{
29           null
30         }
31       )
32       .filter(row => !row.equals(null))
33     // 分詞
34     val segmentResult = rdd.mapPartitions( row =>{
35       row.map(word => {
36         val nlpList = NLPTokenizer.segment(word)
37         import scala.collection.JavaConverters._
38         nlpList.asScala.map(term => {
39           term.word.trim()
40         })
41         .filter(word => word.length>1) //過濾掉長度小於2的詞
42         .mkString(" ")
43       })
44     })
45     val regex = """^\d+$""".r
46     //val size = 5
47     segmentResult.saveAsTextFile("E:/BDS/newsparkml/src/分詞結果")
48     // 加載分詞訓練數據
49     val input = sc.textFile("E:/BDS/newsparkml/src/分詞結果")
50       //.filter(row => row.split(" ").length>=size)
51       .filter(row => regex.findFirstMatchIn(row) == None) //過濾掉無用的數字關鍵詞
52       .map(row => {
53         val split = row.split(" ")
54         val array : Array[String] = new Array[String](split.length)
55         for(i<- 0 until split.length){
56           array(i) = split(i)
57         }
58         new Tuple1(array)
59       })
60 
61     val dataFrame = spark.sqlContext.createDataFrame(input).toDF("text")
62     dataFrame.foreach(println(_))
63     //創建Word2Vec對象
64     val word2Vec = new Word2Vec()
65       .setInputCol("text")
66       .setOutputCol("result")
67       .setVectorSize(50)
68       .setNumPartitions(64)
69     //訓練模型
70     val model = word2Vec.fit(dataFrame)
71     //緩存模型
72     model.save("E:/BDS/newsparkml/src/Word2VecModel")
73     //保存詞向量數據
74     /*val vector = model.getVectors.map{
75       case (word, vector) => Seq(word, vector)
76     }
77     vector.toJavaRDD.saveAsTextFile("E:/BDS/newsparkml/src/Word2VecData")*/
78     //預測
79     val like = model.findSynonyms("中國", 10)
80     like.foreach(println(_))
81     /*for((item, literacy) <- like){
82       print(s"$item $literacy")
83     }*/
84   }
85 }

分詞結果：

技術分享圖片

分詞結果部分數據：

技術分享圖片

模型：

技術分享圖片

結果：

技術分享圖片

分析：

　　預測結果與訓練集數據緊密相關，Word2Vec會根據訓練集中各詞之間的緊密程度設置不同的相識度，因此，要想獲得較好的預測結果，需要有合適的訓練集！

Spark Word2Vec算法代碼實現

cmode hadoop word mage pfile foreach last ext row 1 import com.hankcs.hanlp.tokenizer.NLPTokenizer 2 import org.apache.hadoop.io.{Long

kNN(k近鄰)算法代碼實現

通過預測 3.5 得到 counter 代碼實現 code 統計 args 目標：預測未知數據(或測試數據)X的分類y 批量kNN算法 1.輸入一個待預測的X(一維或多維)給訓練數據集,計算出訓練集X_train中的每一個樣本與其的距離 2.找到前k個距離該數據最近

tarjan割點算法代碼實現

turn 代碼實現 spa 節點 i++ cin else if 標記 cpp #include<iostream> using namespace std; int n,m,x,y; int e[9][9]; int root=1; int ti

PHP實現基本算法代碼

數據 ext lec key dem sse 數據結構無數據 sch <？ //-------------------- // 基本數據結構算法 //-------------------- //二分查找，要求數組已經排好序，首先，假設表中元素是按升序排列，將表中間

統計學習三：2.K近鄰法代碼實現（以最近鄰法為例）

數據集 learning pytho port 4.3 @property 存儲 uil github 通過上文可知感知機模型的基本原理，以及算法的具體流程。本文實現了感知機模型算法的原始形式，通過對算法的具體實現，我們可以對算法有進一步的了解。具體代碼可以在我的githu

Faster RCNN算法代碼解析

inpu imu 就是 override cti str 重新 ron found 一、 Faster-RCNN代碼解釋先看看代碼結構： Data: This directory holds (after you download them): Caffe mod

（原創）最小生成樹之Prim（普裏姆）算法+代碼詳解，最懂你的講解

class bsp 簡單相加置0 思路 cost 數組 print Prim算法（哈欠）在創建最小生成樹之前，讓我們回憶一下什麽是最小生成樹。最小生成樹即在一個待權值的圖（即網結構）中用一個七拐八繞的折線串連起所有的點，最小嘛，顧名思義，要權值相加起來最小，你當然可

算法代碼

tar 獲得 str vector 代碼分類器 for pre 繪制數據預處理-算法加工-預測-校驗 knn　 #構建kNN分類器 neigh = kNN(n_neighbors = 3, algorithm = ‘auto‘) #

【轉載】對一致性Hash算法，Java代碼實現的深入研究

困難之前存在 itl ger 正常我不操作算法實現原文地址：http://www.cnblogs.com/xrq730/p/5186728.html 一致性Hash算法關於一致性Hash算法，在我之前的博文中已經有多次提到了，MemCache超詳細解讀一

對一致性Hash算法，Java代碼實現的深入研究

memcach 還原情況 () 實用 target 強人最壞情況一致性hash 一致性Hash算法關於一致性Hash算法，在我之前的博文中已經有多次提到了，MemCache超詳細解讀一文中"一致性Hash算法"部分，對於為什麽要使用一致性Hash算法、一致性Has

樸素貝葉斯分類算法介紹及python代碼實現案例

urn bus 人的元素 1.2 -s index 代碼步驟樸素貝葉斯分類算法 1、樸素貝葉斯分類算法原理 1.1、概述貝葉斯分類算法是一大類分類算法的總稱貝葉斯分類算法以樣本可能屬於某類的概率來作為分類依據樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種註：

【字符串處理算法】字符串包含的算法設計及C代碼實現【轉】

Apriori 關聯分析算法原理分析與代碼實現

muc items blog 具體實現 itblog run 任務 name subset 轉自穆晨閱讀目錄前言關聯分析領域的一些概念 Apriori算法基本原理頻繁項集檢索實現思路與實現代碼關聯規則學習實現思路與實現代碼小結回到頂部前言

K-Means 聚類算法原理分析與代碼實現

oat 得到 ssi targe fan readline txt __name__ 輸出轉自穆晨閱讀目錄前言現實中的聚類分析問題 - 總統大選 K-Means 聚類算法 K-Means性能優化二分K-Means算法小結回到頂部前言在

幾種簡單的負載均衡算法及其Java代碼實現

hsb p12 vld tar www. 簡單的 sin all .com jdsbuy肇岡唾氈瀉節http://www.docin.com/app/user/userinfo?userid=179258715a4cqu2瘟萄優歐壹讜http://huiyi.docin.c

KNN算法的代碼實現

cluster IT pyplot admin rgs getter bsp 實現開始 # -*- coding: utf-8 -*- """ Created on Wed Mar 7 09:17:17 2018 @author: admin """ ######

Java常用的八種排序算法與代碼實現

!= end 缺點第一步 rem ava 得到 href 構建排序問題一直是程序員工作與面試的重點，今天特意整理研究下與大家共勉！這裏列出8種常見的經典排序，基本涵蓋了所有的排序算法。 1.直接插入排序我們經常會到這樣一類排序問題：把新的數據插入到已經排

十大經典排序算法詳細總結（含JAVA代碼實現）

出現的次數完全放置累加有時經典整數 eap 分割原文出處：http://mp.weixin.qq.com/s/feQDjby4uYGRLbYUJq7Lpg 0、排序算法說明 0.1 排序的定義對一序列對象根據某個關鍵字進行排序。 0.2 術

大數據學習——MapReduce配置及java代碼實現wordcount算法

鍵值 example nds clas spl key lru 這樣的 java_home ---恢復內容開始--- 配置MapReduce需要在之前配置的基礎上配置兩個xml文件一個是yarn-site.xml一個是mapred-site.xml，在之前配置的hadoop

機器學習-反向傳播算法（BP）代碼實現（matlab）

sha eric his work onclick chan same images let %% Machine Learning Online Class - Exercise 4 Neural Network Learning % Instructions

Spark Word2Vec算法代碼實現

相關推薦