《python機器學習及實踐-從零開始通往kaggle競賽之路（程式碼Python 3.6 版）》chapter1.1

阿新 • • 發佈：2019-01-25

import pandas as pd  #匯入pandas 庫
df_train = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-train.csv') #讀取目錄下的資料,如果程式碼與檔案路徑不在一起，則需要另行設定

df_test = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-test.csv')

print(df_train.head(5)) #顯示df_train 前列5行資料，瞭解資料大概樣式
print(df_test.head(5))

df_test_negative = df_test.loc[df_test['Type'] == 0][['Clump Thickness', 'Cell Size']] #先對test 的“Type”行進行判斷，然後切分其他兩列資料
df_test_positive = df_test.loc[df_test['Type'] == 1][['Clump Thickness', 'Cell Size']]
print(df_test_negative.head())
print(df_test_positive.head())

import matplotlib.pyplot as plt

plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'],marker = 'o', s=20, c='green')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=10, c='red')

plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')

plt.show()

import numpy as np

intercept = np.random.random([1])
coef = np.random.random([2])

lx = np.arange(0, 12)
ly = (-intercept - lx * coef[0]) / coef[1]

plt.plot(lx, ly, c='yellow')


plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

lr.fit(df_train[['Clump Thickness', 'Cell Size']][:10], df_train['Type'][:10])
print ('Testing accuracy (10 training samples):', lr.score(df_test[['Clump Thickness', 'Cell Size']], df_test['Type']))

intercept = lr.intercept_
coef = lr.coef_[0, :]

ly = (-intercept - lx * coef[0]) / coef[1]

plt.plot(lx, ly, c='green')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

lr = LogisticRegression()

lr.fit(df_train[['Clump Thickness', 'Cell Size']], df_train['Type'])
print ('Testing accuracy (all training samples):', lr.score(df_test[['Clump Thickness', 'Cell Size']], df_test['Type']))

intercept = lr.intercept_
coef = lr.coef_[0, :]
ly = (-intercept - lx * coef[0]) / coef[1]

plt.plot(lx, ly, c='blue')
plt.scatter(df_test_negative['Clump Thickness'],df_test_negative['Cell Size'], marker = 'o', s=200, c='red')
plt.scatter(df_test_positive['Clump Thickness'],df_test_positive['Cell Size'], marker = 'x', s=150, c='black')
plt.xlabel('Clump Thickness')
plt.ylabel('Cell Size')
plt.show()

釋出修改程式碼已經過作者同意，如果有疑問，可以留言給我。

《python機器學習及實踐-從零開始通往kaggle競賽之路（程式碼Python 3.6 版）》chapter1.1

import pandas as pd #匯入pandas 庫 df_train = pd.read_csv('../Datasets/Breast-Cancer/breast-cancer-train.csv') #讀取目錄下的資料,如果程式碼與檔案路徑不在一起，則需要另行設定 df_test = pd

Python機器學習及實踐+從零開始通往Kaggle競賽之路

提升 google 技巧 pythonh href site 幫助 target panda 內容簡介本書面向所有對機器學習與數據挖掘的實踐及競賽感興趣的讀者，從零開始，以Python編程語言為基礎，在不涉及大量數學模型與復雜編程知識的前提下，逐

PYTHON機器學習及實踐_從零開始通往KAGGLE競賽之路pdf

【下載地址】本書面向所有對機器學習與資料探勘的實踐及競賽感興趣的讀者，從零開始，以Python程式語言為基礎，在不涉及大量數學模型與複雜程式設計知識的前提下，逐步帶領讀者熟悉並且掌握當下最流行的機器學習、數learn作為基礎機器學習工具；第3章進階篇，涉及怎樣藉助高階技術或者模型進一步提升既有機器學習系統的

[python機器學習及實踐(6)]Sklearn實現主成分分析（PCA）

相關性 hit 變量 gray tran total 空間 mach show 1.PCA原理主成分分析（Principal Component Analysis，PCA），是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量，轉換後的這組

重回機器學習-《python機器學習及實踐》讀書筆記二

一.三個率機器學習模型訓練好之後，會在樣本外進行測試，然後我們可以得到三個“率”：準確率召回率精確率其實這些也沒有什麼大不了的，大家如果學習

python機器學習及實踐學習筆記1-如何開啟ipynb字尾檔案

python機器學習及實踐學習筆記1-如何開啟ipynb字尾檔案 2017年02月22日 14:58:08 hustzhoutian 閱讀數：45365更多個人分類：深度學習需要安裝ipython notebook，如果你已經安裝Anaconda

Python機器學習及實踐——基礎篇11（迴歸樹）

迴歸樹在選擇不同特徵作為分裂節點的策略上，與基礎篇6的決策樹的思路類似。不同之處在於，迴歸樹葉節點的資料型別不是離散型，而是連續型。決策樹每個葉節點依照訓練資料表現的概率傾向決定了其最終的預測類；而回歸樹的葉節點確實一個個具體的值，從預測值連續這個意義上嚴格地講，迴歸樹不能成

Python機器學習及實踐——基礎篇7（分類整合模型）

常言道：“一個籬笆三個樁，一個好漢三個幫”。整合分類模型便是綜合考量多個分類器的預測結果，從而做出決策。只是這種“綜合考量”的方式大體上分為兩種：一種是利用相同的訓練資料同時搭建多個獨立的分類模型，然後通過投票的方式，以少數服從多數的原則作出最終的分類決策。比

《Python機器學習及實踐》----無監督學習之資料聚類

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： # coding: utf-8 # 分別匯入numpy、matplot

Python機器學習及實踐——基礎篇10（K近鄰迴歸）

在基礎篇5中提到裡這類模型不需要訓練引數的特點。在迴歸任務重，k近鄰（迴歸）模型同樣只是藉助周圍K個最近訓練樣本的目標數值，對待測樣本的迴歸值進行決策。自然，也衍生出衡量待測樣吧迴歸值的不同方式，即到底是對K個近鄰目標數值使用普通的算術平均演算法，還是同時考慮距離的差

《Python機器學習及實踐》----模型實用技巧

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： measurements = [{'city': 'Dubai',

python機器學習及實踐第二章的2.1.2.1線性迴歸器程式報錯Reshape your data either using array.reshap(-1,1)的原因及解決方法

最近在看Python機器學習及實踐（從零開始kaggle競賽之路）這本書，到了第二章的線性迴歸器的GradientBoostingRegressor模型照著敲程式碼的時候出現了以下的錯誤出錯的問題在於標準化函式這裡。可見fit_tran

《Python機器學習及實踐》----監督學習經典模型

本片部落格是根據《Python機器學習及實踐》一書中的例項，所有程式碼均在本地編譯通過。資料為從該書指定的百度網盤上下載的，或者是sklearn自帶資料下載到本地使用的。程式碼片段： import pandas as pd import numpy as

[從零開始系列]AndroidApp研發之路(一) 網路請求的封裝(一)

文章目錄： - 前言 - 封裝成果 - 封裝細節 - 如何使用 - 注意 - 作者前言寫在前面技術選型元件化設計 ReactNative-Android 的簡單實踐阿里Atlas(外掛化)與該專案的簡單實踐集and

【HADOOP】| 環境搭建：從零開始搭建hadoop大數據平臺（單機/偽分布式）-下

虛擬機克隆成功之前藍色 ref pin highlight .gz xml文件因篇幅過長，故分為兩節，上節主要說明hadoop運行環境和必須的基礎軟件，包括VMware虛擬機軟件的說明安裝、Xmanager5管理軟件以及CentOS操作系統的安裝和基本網絡配置。具體

從零開始的Hadoop大資料叢集（偽）搭建，全免費VirtualBox虛擬機器Ubuntu版，學習向，超詳細---（一）

在公司工作了一段時間了，大資料平臺都是公司的運維人員搭建維護的，自己也想親自搭建一套，純粹為了學習和提高自己，也為了以後自己研究用。公司的環境不太適合亂來，自己的就可以隨意玩了。寫這個也是為了記錄自己學習的過程，同時給大家提供一個參考，想要學習大資料的也

PowerShell學習小結——PowerShell從零開始系列之四

PowerShell能堅持看到這裏的同學，相信對PowerShell的命令使用應該不陌生，由於後面的內容較為繁雜，所以必須要熟悉PowerShell命令這裏準備了一些基礎的題目，有興趣的一定要動手操作一下：如何查看wuauserv服務運行狀態如何停止wuauserv服務如何查看explorer進程有服務器條件

python從零開始－－35 wxPython 加 wxFromBuilder處理python桌面UI

python的桌面UI設計和處理貌似沒有VB， C#等語言方便。今天查詢了一些資料，發現用wxPython + wxFromBuilder是一個相對簡單的方案。 1. 用pip下載最新的wxPython （我在下載的時候，發現pip預設的源下載wxPython連線不成功，切換到國內的源

Python知識學習大全：從零到大師！我不相信你學不會！

首先, 什麼是Python? 用python作者Guido van Rossum自己的話來說，Python是這樣的一門語言： "它是一門高階程式語言, 它的核心設計理念是讓所有程式碼變得更易閱讀，並給開發者們提供一種“僅僅幾行程式碼就能編寫程式設計邏輯”的語法。

Python機器學習演算法實踐——k均值聚類（k-means）

一開始的目的是學習十大挖掘演算法（機器學習演算法）,並用編碼實現一遍，但越往後學習，越往後實現編碼，越發現自己的編碼水平低下，學習能力低。這一個k-means演算法用Python實現竟用了三天時間，可見編碼水平之低，而且在編碼的過程中看了別人的編碼，才發現自己對

《python機器學習及實踐-從零開始通往kaggle競賽之路（程式碼Python 3.6 版）》chapter1.1

相關推薦