我的spark python 決策樹實例

阿新 • • 發佈：2017-07-11

one ray print classes gin array erro parallel depth

from numpy import array
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.tree import DecisionTree, DecisionTreeModel
from pyspark import SparkContext

sc = SparkContext(appName="PythonDecisionTreeClassificationExample")
data = [
     LabeledPoint(0.0, [0.0]),
     LabeledPoint(1.0, [1.0]),
     LabeledPoint( 
0.0, [-2.0]),
     LabeledPoint(0.0, [-1.0]),
     LabeledPoint(0.0, [-3.0]),
     LabeledPoint(1.0, [4.0]),
     LabeledPoint(1.0, [4.5]),
     LabeledPoint(1.0, [4.9]),
     LabeledPoint(1.0, [3.0])
 ]
all_data = sc.parallelize(data) 
(trainingData, testData) = all_data.randomSplit([0.8, 0.2])

# model = DecisionTree.trainClassifier(sc.parallelize(data), 2, {}) 

model = DecisionTree.trainClassifier(trainingData, numClasses=2, categoricalFeaturesInfo={},
                                         impurity=‘gini‘, maxDepth=5, maxBins=32)
print(model)
print(model.toDebugString())
model.predict(array([1.0]))
model.predict(array([0.0]))
rdd = sc.parallelize([[1.0], [0.0]])
model.predict(rdd).collect()

predictions  
= model.predict(testData.map(lambda x: x.features))
labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)
testErr = labelsAndPredictions.filter(lambda (v, p): v != p).count() / float(testData.count())
print(‘Test Error = ‘ + str(testErr))
print(‘Learned classification tree model:‘)
print(model.toDebugString())

# Save and load model
model.save(sc, "./myDecisionTreeClassificationModel")
sameModel = DecisionTreeModel.load(sc, "./myDecisionTreeClassificationModel")

one ray print classes gin array erro parallel depth from numpy import array from pyspark.mllib.regression import LabeledPoint from pyspa

Python實現——決策樹實例(離散數據/香農熵)

遍歷 values 最適比例刪除類型取值 val creat 決策樹的實現太...繁瑣了。如果只是接受他的原理的話還好說，但是要想用代碼去實現比較糟心，目前運用了《機器學習實戰》的代碼手打了一遍，決定在這裏一點點摸索一下該工程。實例的代碼在使用上運用了香農熵，並

python操作MySQL--實例

out bject 中文字符 stdout copy sys where init date 有一段時間，沒更新，但這都不是自己懶惰的借口，希望自己能堅持下去； python可以操作MySQL 數據庫，需要安裝的是MySQL-python，並且實現讀入excel表及生

python（練習實例）

ror tin 完全平方數請問 mov utf pytho pro style Python 練習實例1 題目：有四個數字：1、2、3、4，能組成多少個互不相同且無重復數字的三位數？各是多少？我的代碼：python 3+ #2017-7-20 list_h = [1

Python類和實例方法和屬性的動態綁定

tuple attribute 名稱 one 運行作用 span people tee python中實例創建後可以給實例綁定任何屬性和方法 class Student(object): pass 　　給實例綁定一個屬性： s=Student() s.n

PYTHON協程實例

eve () pri nis 執行 import print col join 1 import gevent 2 def zhao(): 3 print("我姓趙") 4 gevent.sleep(2) 5 print("我叫趙高")

Python操作Mysql實例代碼教程在線版(查詢手冊)_python

utf-8 多少 myisam tps oca 原子 sant 實例代碼釋放實例1、取得MYSQL的版本在windows環境下安裝mysql模塊用於python開發MySQL-python Windows下EXE安裝文件下載復制代碼代碼如下: # -*- cod

python 神經網絡實例

git poc layer numbers work numpy hang self. spl #http://python.jobbole.com/82758/ # import numpy as np # # # # sigmoid function # def

Python采集實例1

reset parser url star 則表達式 lib ref www. 處理目標是把http://www.gg4493.cn/主頁上所有數據爬取下來，獲得每一篇新聞的名稱、時間、來源以及正文。接下來分解目標，一步一步地做。步驟1：將主頁上所有鏈接爬取出來，寫到文

Python采集實例2

個數標簽 pat each linux下 makedirs 觀察 fun scrip 上一篇說道我們要采集http://www.gg4493.cn/的數據，接下來：步驟2：對於每一個鏈接，獲取它的網頁內容。很簡單，只需要打開urls.txt文件，一行一行地讀出來就可以

python—函數實例

python1.函數的定義練習：判斷輸入的是不是一個數字#!/usr/bin/env python def isNum(): sth = raw_input("Please input something: ") try: if type(int(sth)) == type(1): pri

python—函數實例2

python一、遞歸幾種常用內置函數方法：1）os.listdir()：列出第一層目錄文件In [14]: os.listdir("/root/python") Out[14]: ['20.py', '1.py', '19.py',

44. Python Celery多實例定時任務

celerycelery是一個分布式的任務調度模塊，那麽celery是如何和分布式掛鉤呢？celery可以支持多臺不同的計算機執行不同的任務或者相同的任務。如果要說celery的分布式應用的話，就要提到celery的消息路由機制，提到AMQP協議。具體可以查看AMQP文檔詳細了解。簡單理解：可以有多個&quo

Python中的實例方法、類方法、靜態方法和普通方法

turn 屬性和方法靜態方法一個 def col == pre 類屬性　為了辨析它們的差別，寫了如下代碼：　 1 class C: 2 3 def self_method(self, a): 4 return a 5 6

python while基礎實例

輸入 tro pri strong IT HA elif 基礎 put 1、循環十次退出while循環： count = 0while True: print("count:",count) count = count + 1 #count +=1 if

機器學習之路: python 決策樹分類預測泰坦尼克號乘客是否幸存

現象 info n) 指標 ssi 直觀 learn 保持 afr 使用python3 學習了決策樹分類器的api 涉及到特征的提取，數據類型保留，分類類型抽取出來新的類型需要網上下載數據集，我把他們下載到了本地，可以到我的git下載代碼和數據集: https

線索二叉樹實例（前序創建，中序遍歷）--2018.5.15

ID 中序遍歷 char turn 先序 AD 線索 lib data 1 #include <stdio.h> 2 #include <stdlib.h> 3 4 typedef enum 5 { 6 Link,

十年Python大牛花了三天總結出來的python基礎知識實例，超詳細！

python 編程大全文檔詳細 1、在Python 語言中，對象是通過引用傳遞的。2、多元賦值，其實就是元組賦值3、編寫模塊4、時刻記住一個事實5、動態類型6、變量在內存中是通過引用計數來跟蹤管理的7、異常處理8、所有的Python 對像都擁有三個特性9、布爾值10、對象身份比較11

我的第一個bootstrap實例

container inpu legend orm pla IE IT tps lock 先上代碼： <!doctype html><html lang="en"><head> <meta charset="UTF-8" />

樸素貝葉斯python小樣本實例

else take dataset 核心 inpu lis def hle 模型樸素貝葉斯優點：在數據較少的情況下仍然有效，可以處理多類別問題缺點：對於輸入數據的準備方式較為敏感適用數據類型：標稱型數據樸素貝葉斯決策理論的核心思想：選擇具有最高概率的決策樸素貝葉斯的一般過

我的spark python 決策樹實例

相關推薦