Spark學習筆記——文本處理技術

阿新 • • 發佈：2017-05-08

使用 ken ins main 最小 leg tran sparse rain

1.建立TF-IDF模型

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.linalg.{SparseVector => SV}
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.feature.IDF

/**
  * Created by common on 17-5-6.
  */
object TFIDF {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    val sc = new SparkContext(conf)

//    val path = "hdfs://master:9000/user/common/20Newsgroups/20news-bydate-train/*"
    val path = "file:///media/common/工作/kaggle/test/*"
    val rdd = sc.wholeTextFiles(path)

    // 提取文本信息
    val text = rdd.map { case (file, text) => text }
    //    print(text.count())

    val regex = """[^0-9]*""".r

    // 排除停用詞
    val stopwords = Set(
      "the", "a", "an", "of", "or", "in", "for", "by", "on", "but", "is", "not",
      "with", "as", "was", "if",
      "they", "are", "this", "and", "it", "have", "from", "at", "my",
      "be", "that", "to"
    )

    // 以使用正則表達切分原始文檔來移除這些非單詞字符
    val nonWordSplit = text.flatMap(t =>
      t.split("""\W+""").map(_.toLowerCase))

    // 過濾掉數字和包含數字的單詞
    val filterNumbers = nonWordSplit.filter(token =>
      regex.pattern.matcher(token).matches)

    // 基於出現的頻率，排除很少出現的單詞，需要先計算一遍整個測試集
    val tokenCounts = filterNumbers.map(t => (t, 1)).reduceByKey(_ + _)
    val rareTokens = tokenCounts.filter { case (k, v) => v < 2 }.map {
      case (k, v) => k
    }.collect.toSet

    // 每一個文檔的預處理函數
    def tokenize(line: String): Seq[String] = {
      line.split("""\W+""")
        .map(_.toLowerCase)
        .filter(token => regex.pattern.matcher(token).matches)
        .filterNot(token => stopwords.contains(token))
        .filterNot(token => rareTokens.contains(token))
        .filter(token => token.size >= 2) //刪除只有一個字母的單詞
        .toSeq
    }

    // 每一篇文檔經過預處理之後，每一個文檔成為一個Seq[String]
    val tokens = text.map(doc => tokenize(doc)).cache()

    println(tokens.distinct.count)
    // 第一篇文檔第一部分分詞之後的結果
    println(tokens.first())
    println(tokens.first().length)

    // 生成2^18維的特征
    val dim = math.pow(2, 18).toInt
    val hashingTF = new HashingTF(dim)

    // HashingTF 的 transform 函數把每個輸入文檔(即詞項的序列)映射到一個MLlib的Vector對象
    val tf = hashingTF.transform(tokens)
    // tf的長度是文檔的個數，對應的是文檔和維度的矩陣
    tf.cache

    // 取得第一個文檔的向量
    val v = tf.first.asInstanceOf[SV]
    println(v.size)
    // v.value和v.indices的長度相等，value是詞頻，indices是詞頻非零的下標
    println(v.values.size)
    println(v.indices.size)
    println(v.values.toSeq)
    println(v.indices.take(10).toSeq)

    // 對每個單詞計算逆向文本頻率
    val idf = new IDF().fit(tf)
    // 轉換詞頻向量為TF-IDF向量
    val tfidf = idf.transform(tf)
    val v2 = tfidf.first.asInstanceOf[SV]
    println(v2.values.size)
    println(v2.values.take(10).toSeq)
    println(v2.indices.take(10).toSeq)

    // 計算整個文檔的TF-IDF最小和最大權值
    val minMaxVals = tfidf.map { v =>
      val sv = v.asInstanceOf[SV]
      (sv.values.min, sv.values.max)
    }
    val globalMinMax = minMaxVals.reduce { case ((min1, max1),
    (min2, max2)) =>
      (math.min(min1, min2), math.max(max1, max2))
    }
    println(globalMinMax)

    // 比較幾個單詞的TF-IDF權值
    val common = sc.parallelize(Seq(Seq("you", "do", "we")))
    val tfCommon = hashingTF.transform(common)
    val tfidfCommon = idf.transform(tfCommon)
    val commonVector = tfidfCommon.first.asInstanceOf[SV]
    println(commonVector.values.toSeq)

    val uncommon = sc.parallelize(Seq(Seq("telescope", "legislation","investment")))
    val tfUncommon = hashingTF.transform(uncommon)
    val tfidfUncommon = idf.transform(tfUncommon)
    val uncommonVector = tfidfUncommon.first.asInstanceOf[SV]
    println(uncommonVector.values.toSeq)

  }


}

Spark學習筆記——文本處理技術

使用 ken ins main 最小 leg tran sparse rain 1.建立TF-IDF模型 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.lin

零基礎學習Python文本處理

python源 | 小象文 | 賈庸本文將帶領小夥伴們一起，使用Python進行文本處理，先來看下要處理的文本，文件名為“data.txt”，文件裏面的內容是三行中英對照的文本，和兩個空行，我們要實現的功能就是從這三行文本中分別抽取出中文及其對應的英文，這個功能再加上爬蟲，就可以制作自己專屬的英

運維學習之sed文本處理工具

command linux stream 編輯器三劍客 linux工具之sed: sed：Stream EDitor，流編輯器，以行為單位對一個或多個文件進行編輯處理；每一次sed都會處理給定文件中的一行內容。在sed處理文本時，將正在處理的當前行存儲到臨時的緩沖區中，稱為“模式空間

Linux學習匯總——Linux用戶組管理，文件權限管理，文本處理工具grep及egrep

linux用戶組管理 linu文件權限管理 linu文本管理 egrep grep 本章Blog相關Linux相關知識點解析：在數據庫按搜索碼查找相對應的條目，並找與之對應額外的其他數據庫的過程；名稱解析：UID ，組名解析：GID數據庫：文本文件，sql數據庫，ldap數據庫，用戶庫：/

文本處理工具學習總結

字符得到 watermark a13 digi water 一個計數空白行文本處理工具在用戶在使用計算機時極大程度的為用戶提供了便利。讓用戶可以輕松的整理文本，以及從中找出自己想要得到的信息。下面將簡單介紹一下一些常用的文本處理工具。1.文件查看命令：cat，tac

shell腳本編程學習筆記-文件測試表達式

linux shell 1.1 文件測試表達式的用法我們在編程時需要處理一個對象時，需要對對象進行測試，只有符合要求的才采取操作處理這樣做的好處是避免程序出錯以及無所畏懼的消耗系統資源，這個測試的對象可以是文件、字符串、數字等。下表為常用文件操作符特別說明：這些操作符對於[[ ]]、[

【Python】Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜

round b+ param 有意做了你會 lib extra 補充本文轉載自：https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%B

Linux學習第七課-文本處理工具及正則表達式

正則表達 nbsp bsp 文本正則 style 第七課 pan 則表達式 Linux第七節課-------------------------------

大資料實時計算Spark學習筆記（7）—— RDD 資料傾斜處理

1 處理資料傾斜在 reduceByKey 之前先進行隨機分割槽 package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} import scala.util.Ran

Spark學習筆記（18）Spark Streaming中空RDD處理

本期內容： 1 Spark Streaming中的空RDD處理 2 Spark Streaming程式的停止 1 Spark Streaming中的空RDD處理在Spark Streaming應用程式中，無論使用什麼 DStream，底層實際上就是操作RDD。從一

python學習筆記7-異常處理

exec blog span log exception pytho clas 處理 cep 1 寫弄成了讀1 try: 2 fh = open("testfile", "r") 3 fh.write("This is my test file for exc

gawk 文本處理入門用法詳集

awk 函數數組 awk筆記gawk - pattern scanning and processing language報告生成器,可進行格式化輸出,文本處理三劍客之一,是基於sed和grep功能的擴展一般用法格式:awk [options] ‘program‘ FILE... pro

Linux文本處理三劍客

img 目標文本過濾 sta 生成器指定 grub2 功能空白 Grep: 文本過濾工具，（grep,egrep,fgrep) Sed：文本編輯工具， Awk: 文本報告生成器 grep : 作用文本搜索工具，根據用戶指定的‘模式對目標文件逐步進行匹配檢查，

Spark學習筆記——泰坦尼克生還預測

cti build case model 學習筆記 classes gre dict path package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf i

python筆記--文件處理

python、文件處理文件處理1.open函數（1）語法：文件句柄 = open(‘文件路徑‘, ‘模式‘)打開文件時，需要指定文件路徑和以何等方式打開文件，打開後，即可獲取該文件句柄，之後通過此文件句柄對該文件進行操作。操作文件時，一般需要經歷三個步驟：打開文件、操作文件、關閉文件，例如：>>&

文本處理命令（六）

cut wc tr paste 文本處理命令：sort，uniq，join，cut，paste，split，tr，wc6.1.sort功能：文本文件排序語法：sort [OPTION]... [FILE]... sort [OPTION]... --files0-from=F

Linux文本處理"三劍客"--grep

grep、正則表達式稍微接觸過linux都會知道有三個非常強大文本處理工具，那就是grep、sed和awk，想必都有聽說過吧。Linux文本處理三劍客： grep, egrep, fgrep：文本過濾工具（模式：pattern）； grep：基本正則表達式，支持-E，-F egrep

Linux Shell 文本處理工具集錦

12c 程序員常用忽略忽略大小寫第一個 rgs del num 本文將介紹Linux下使用Shell處理文本時最常用的工具：find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；提供的例子和參數都是最常用和最為實用的

Python學習筆記-IP地址處理模塊Ipy

模塊 python ipy IP地址處理模塊Ipy IPy模塊可以很好的輔助我們高效完成IP的規劃工作。參考：https://github.com/autocracy/python-ipy 安裝IPy模塊[[email protected]/* */ ~]#

Linux文本處理工具

linux、grep、sed、awk1、grep grep（global search regular expression(RE) and print out the line，全面搜索正則表達式並把行打印出來）是一種強大的文本搜索工具，它能使用正則表達式搜索文本，並把匹配的行打印出來。語法

Spark學習筆記——文本處理技術

相關推薦