1. 程式人生 > >項目實戰-使用PySpark處理文本多分類問題

項目實戰-使用PySpark處理文本多分類問題

als pytho enc tps 數據 nbsp des 類目 target

原文鏈接:https://cloud.tencent.com/developer/article/1096712

在大神創作的基礎上,學習了一些新知識,並加以註釋。

TARGET:將舊金山犯罪記錄(San Francisco Crime Description)分類到33個類目中

源代碼及數據集:https://github.com/cymx66688/python.git

一、載入數據集data

 1 import time
 2 from pyspark.sql import SQLContext
 3 from pyspark import SparkContext
 4 # 利用spark的csv庫直接載入csv格式的數據
5 sc = SparkContext() 6 sqlContext = SQLContext(sc) 7 data = sqlContext.read.format(com.databricks.spark.csv).options(header=true, 8 inferschema=true).load(train.csv) 9 # 選10000條數據集,減少運行時間 10 data = data.sample(False, 0.01, 100)
11 print(data.count())
結果:
8703

1.1 除去與需求無關的列

# 除去一些不要的列,並展示前五行
drop_list = [‘Dates‘, ‘DayOfWeek‘, ‘PdDistrict‘, ‘Resolution‘, ‘Address‘, ‘X‘, ‘Y‘]
data = data.select([column for column in data.columns if column not in drop_list])
data.show(5)





項目實戰-使用PySpark處理文本多分類問題