Python資料分析與機器學習-使用sklearn構造決策樹模型

阿新 • • 發佈：2019-01-06

# datasets包括內建的資料集 california_housing房價的資料集
from sklearn.datasets.california_housing import fetch_california_housing
import pandas as pd

housing = fetch_california_housing()
# print(housing.DESCR)
# print(housing.data)
# print(housing.data.shape) #(20640, 8)
# print(housing.target)
# print(housing.feature_names)
# #['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']

from sklearn import tree

dtr = tree.DecisionTreeRegressor(max_depth=2)  # DecisionTreeRegressor 決策樹 max_depth 樹的最大深度
dtr.fit(housing.data[:, [6, 7]], housing.target)  # latitude longitude  緯度經度 傳入：X y
# print(dtr)
'''
DecisionTreeRegressor(criterion='mse', max_depth=2, max_features=None,
           max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, presort=False, random_state=None,
           splitter='best')
'''

'''決策樹模型視覺化'''

dot_data = \
    tree.export_graphviz(
        dtr,  # 構造矩陣名字
        out_file="tree.dot",
        feature_names=housing.feature_names[6:8],  # 特徵名字
        filled=True,
        impurity=False,
        rounded=True
    )

import pydotplus
from IPython.display import Image

graph = pydotplus.graph_from_dot_file("tree.dot")
graph.get_nodes()[7].set_fillcolor("#FFF2DD")
Image(graph.create_png())
graph.write_png("dtr_white_background.png")  # 儲存為本地圖片

from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(housing.data[0:1000], housing.target[0:1000], test_size=0.1,
                                                    random_state=42)  # random_state = 42 值隨意，保證每次隨機完結果一樣
dtr = tree.DecisionTreeRegressor(random_state=42)
dtr.fit(X_train, y_train)
print(dtr.score(X_test, y_test))

'''隨機森林'''
from sklearn.grid_search import GridSearchCV  # GridSearchCV 自動設定引數組合
from sklearn.ensemble import RandomForestRegressor

tree_param_grid = {"min_samples_split": list((3, 6, 9)), "n_estimators": list((10, 50, 100))}
grid = GridSearchCV(RandomForestRegressor(), param_grid=tree_param_grid, cv=5)  # cv交叉驗證(切分的是測試集)
grid.fit(X_train, y_train)
print(grid.grid_scores_)
print(grid.best_params_)
print(grid.best_score_)

rfr = RandomForestRegressor(min_samples_split=3, n_estimators=100, random_state=42)
rfr.fit(X_train, y_train)
rfr.score(X_test, y_test)

pd.Series(rfr.feature_importances_, index=housing.feature_names).sort_values(ascending=False)

Python資料分析與機器學習-使用sklearn構造決策樹模型

# datasets包括內建的資料集 california_housing房價的資料集 from sklearn.datasets.california_housing import fetch_california_housing import pandas as pd

Python資料分析與機器學習實戰 Numpy/Pandas/Matplotlib等常用庫精講

課程簡介: 課程風格通俗易懂，真實案例實戰。精心挑選真實的資料集為案例，通過Python資料科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的機器學習案例。課程以實戰為基礎，所有課時都結合程式碼演示如何使用這些python

Python資料分析與機器學習-Python庫分析科比生涯資料

原始碼下載：http://download.csdn.net/download/adam_zs/10222492 import matplotlib.pyplot as plt import pandas as pd import numpy as np '''科比生涯

【A】python資料分析與機器學習實戰專案開始前，怎麼根據實際專案選擇合適的機器學習模型

選擇合適的機器學習演算法：最好的演算法的唯一路徑可能就是去嚐遍所有的演算法。但是這種方法非常 “蠢”。機器學習型別這部分我們會介紹一些最流行的機器學習模型型別。如果你對這些類別比較熟悉，那麼對你以後去選擇機器學習模型是非常有利的。監督學習

Python資料分析與機器學習-Python時間序列分析

原始碼下載地址： http://download.csdn.net/download/adam_zs/10224873 from __future__ import absolute_import, division, print_function # http://w

Python資料分析與機器學習-SVM調參例項

import numpy as np import matplotlib.pyplot as plt from scipy import stats from sklearn.svm import SVC from sklearn.datasets.samples_gene

【A-003】python資料分析與機器學習實戰 Python科學計算庫 Pandas資料分析處理庫（四）DataFrame資料結構

pandas資料結構：DataFrame 引入：在上一節中已經介紹過了Series物件，Series物件可以理解為由一列索引和一列值，共兩列資料組成的結構。而DataFrame就是由一列索引和多列值組成的結構，其中，在DataFrame中的每一列都是一個S

Python資料分析與機器學習-使用者流失預警

import pandas as pd import numpy as np pd.set_option('display.height', 9999) pd.set_option('display.max_rows', 9999) pd.set_option('disp

Python資料分析與機器學習-Numpy

import numpy world_alcohol = numpy.genfromtxt("world_alcohol.txt", delimiter=",", dtype=str) print(type(world_alcohol)) print(world_alco

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

Python-資料分析與展示學習筆記(二)

前言此次學習的主題是圍繞機器學習所需的python庫展開。在學完了python的基礎語法後，瞭解到機器學習還需要掌握一些python進階知識：利用python爬取資料、資料分析與展示。於是在網上找了許多教程，發現北理工嵩天老師的pyth

python資料分析與挖掘學習筆記（6）-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現，並擴充套件到協同過濾演算法。關聯規則最有名的故事就是啤酒與尿布的故事，非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。其中有

Python資料分析與挖掘學習筆記一:庫和環境搭建

概念介紹: 資料分析: 用適當的統計分析方法對收集來的大量資料進行詳細研究和概括總結，以求最大化地發揮資料的作用，提取有用資訊和形成結論資料探勘: 從大量資料中通過演算法搜尋隱藏於其中資訊的過程. 資料分析的三大作用：現狀分析、原因分析、預測分析。資料分析的流程

Python資料分析與挖掘學習路線圖

a powerful N-dimensional array object N維陣列；advanced array slicing methods (to select array elements)： N維陣列的分片方法；convenient array reshaping methods： N維陣列的變形

2017年資料分析與機器學習實戰到經典案例全套高清視訊教

課程特點：1. 通俗易懂，快速入門對機器學習經典演算法結合數學推導進行形象解釋，例項演示。2. Python主導，實用高效使用資料領域最主流語言Python及其分析與建模庫作為課程核心工具。3. 案例為師，實戰護航基於真實資料集，從零開始結合Python工具與機器學習演算法完

Cloudera成立基金會，運用資料分析與機器學習改善人們的生活

2017年10月9日，北京 –為雲端計算優化的機器學習和分析平臺供應商Cloudera近期宣佈旗下慈善組織——Cloudera基金會(the Cloudera Foundation)正式成立，進一步強調其在運用大資料為社會公益服務方面所做出的承諾。Clouder

python資料分析與挖掘學習筆記（3）_小說文字資料探勘part1

這一節主要是對小說文字資料的挖掘專案。文字挖掘的一個重要的應用是進行站點的個性化推薦。將使用者感興趣的資訊推送給對應的使用者，可以更好地發揮該資訊的價值。比如，我們常常會在瀏覽網頁的時候看到相關的廣告是我們感興趣的，新聞推送的是我們感興趣的文章，閱讀小說推薦的是我們想看的

機器學習之使用sklearn構造決策樹模型

一、任務基礎匯入所需要的庫 import matplotlib.pyplot as plt import pandas as pd %matplotlib inline 載入sklearn內建資料集，檢視資料描述 from sklearn.datasets.californ

Python資料分析與機器學習-使用sklearn構造決策樹模型

相關推薦