機器學習_Python中Gradient Boosting Machine(GBM）學習筆記1_資料分析

阿新 • • 發佈：2018-12-11

原文地址：Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain

翻譯出處：http://blog.csdn.net/han_xiaoyang/article/details/52663170

看的是大神寒小陽（[email protected]）翻譯的一篇關於GBM演算法的blog，原文連結和譯文連結已給出，目前詳細學習了資料分析的部分，原文中一筆帶過，自己找到原始碼進行學習，調通並寫下注釋，分享自己的心得。

資料分析（程式碼+註釋）：


# coding: utf-8

# In[2]:


import pandas as pd
import numpy as np
get_ipython().run_line_magic('matplotlib', 'inline')


# In[6]:


#Load data:
train = pd.read_csv('Train_nyOWmfK.csv')
test = pd.read_csv('Test_bCtAN1w.csv')


# In[7]:


train.shape, test.shape


# In[8]:


train.dtypes#檢視每個屬性的型別


# In[15]:


#Combine into data:
train['source']= 'train'
test['source'] = 'test'
data=pd.concat([train, test],ignore_index=True)#將train.csv與test.csv合併，且各自原來的索引忽略，合併後的資料在新表中的用統一排列新的索引
print(data.shape)
print(train.dtypes)


# ## Check missing:

# In[6]:


data.apply(lambda x: sum(x.isnull()))
'''
lambda只是一個表示式，函式體比def簡單很多。
lambda的主體是一個表示式，而不是一個程式碼塊。僅僅能在lambda表示式中封裝有限的邏輯進去。
lambda表示式是起到一個函式速寫的作用。允許在程式碼內嵌入一個函式的定義。
此處作用是看data資料集中每個屬性的資料為null的個數
'''


# ## Look at categories of all object variables:

# In[21]:


var = ['Gender','Salary_Account','Mobile_Verified','Var1','Filled_Form','Device_Type','Var2','Source']
for v in var:
    print('\n%s這一列資料的不同取值和出現的次數\n'%v)
    print(data[v].value_counts())


# ## Handle Individual Variables:

# ### City Variable:

# In[17]:


'''
捨棄"City"屬性，因為這一屬性的取值種類太過複雜
axis=0表示的是要對橫座標操作，axis=1是要對縱座標操作
inplace=False表示要對結果顯示，而True表示對結果不顯示
'''
len(data['City'].unique())
data.drop('City',axis=1,inplace=True)


# ### Determine Age from DOB

# In[18]:


data['DOB'].head()


# In[44]:


'''
DOB是出生的具體日期，咱們要具體日期作用沒那麼大，年齡段可能對我們有用，所以算一下年齡好了
建立一個年齡的欄位Age
'''
#print(data['DOB'])
data['Age'] = data['DOB'].apply(lambda x: 115 - int(x[-3:]))
data['Age'].head()


# In[41]:


#刪除原先的欄位
data.drop('DOB',axis=1,inplace=True)


# ### EMI_Load_Submitted

# In[55]:


data.boxplot(column=['EMI_Loan_Submitted'],return_type='axes')#畫出箱線圖


# In[46]:


#建立了EMI_Loan_Submitted_Missing這個變數，當EMI_Loan_Submitted 變數值缺失時它的值為1，否則為0。然後捨棄了EMI_Loan_Submitted。
data['EMI_Loan_Submitted_Missing'] = data['EMI_Loan_Submitted'].apply(lambda x: 1 if pd.isnull(x) else 0)
data[['EMI_Loan_Submitted','EMI_Loan_Submitted_Missing']].head(10)


# In[56]:


#drop original vaiables:
data.drop('EMI_Loan_Submitted',axis=1,inplace=True)


# ### Employer Name

# In[57]:


len(data['Employer_Name'].value_counts())


# In[59]:


#EmployerName的值也太多了，我把它也捨棄了
data.drop('Employer_Name',axis=1,inplace=True)


# ### Existing EMI

# In[60]:


#Existing_EMI的缺失值被填補為0（中位數），因為只有111個缺失值

data.boxplot(column='Existing_EMI',return_type='axes')


# In[61]:


data['Existing_EMI'].describe()


# In[19]:


#Impute by median (0) because just 111 missing:
data['Existing_EMI'].fillna(0, inplace=True)


# ### Interest Rate:

# In[63]:


#Majority values missing so I'll create a new variable stating whether this is missing or note:
data['Interest_Rate_Missing'] = data['Interest_Rate'].apply(lambda x: 1 if pd.isnull(x) else 0)
print data[['Interest_Rate','Interest_Rate_Missing']].head(10)


# In[62]:


data.drop('Interest_Rate',axis=1,inplace=True)


# ### Lead Creation Date:

# In[64]:


#Drop this variable because doesn't appear to affect much intuitively
data.drop('Lead_Creation_Date',axis=1,inplace=True)


# ### Loan Amount and Tenure applied:

# In[65]:


#Impute with median because only 111 missing:
data['Loan_Amount_Applied'].fillna(data['Loan_Amount_Applied'].median(),inplace=True)
data['Loan_Tenure_Applied'].fillna(data['Loan_Tenure_Applied'].median(),inplace=True)


# ### Loan Amount and Tenure selected

# In[68]:


#High proportion missing so create a new var whether present or not
data['Loan_Amount_Submitted_Missing'] = data['Loan_Amount_Submitted'].apply(lambda x: 1 if pd.isnull(x) else 0)
data['Loan_Tenure_Submitted_Missing'] = data['Loan_Tenure_Submitted'].apply(lambda x: 1 if pd.isnull(x) else 0)


# In[69]:


#建立了Loan_Amount_Submitted_Missing變數，當Loan_Amount_Submitted有缺失值時為1，反之為0，原本的Loan_Amount_Submitted變數被捨棄
#建立了Loan_Tenure_Submitted_Missing變數，當Loan_Tenure_Submitted有缺失值時為1，反之為0，原本的Loan_Tenure_Submitted變數被捨棄
data.drop(['Loan_Amount_Submitted','Loan_Tenure_Submitted'],axis=1,inplace=True)


# ### Remove logged-in

# In[26]:


#捨棄了LoggedIn,和Salary_Account
data.drop('LoggedIn',axis=1,inplace=True)


# ### Remove salary account

# In[27]:


#Salary account has mnay banks which have to be manually grouped
data.drop('Salary_Account',axis=1,inplace=True)


# ### Processing_Fee

# In[28]:


#High proportion missing so create a new var whether present or not
data['Processing_Fee_Missing'] = data['Processing_Fee'].apply(lambda x: 1 if pd.isnull(x) else 0)
#drop old
data.drop('Processing_Fee',axis=1,inplace=True)


# ### Source

# In[78]:


#Source-top保留了2個，其他組合成了不同的類別

data['Source'] = data['Source'].apply(lambda x: 'others' if x not in ['S122','S133'] else x)
data['Source'].value_counts()
print(data['Source'])


# ## Final Data:

# In[30]:


data.apply(lambda x: sum(x.isnull()))


# In[31]:


data.dtypes


# ### Numerical Coding:

# In[80]:


#給不同的數字編碼，起到區分作用的
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
var_to_encode = ['Device_Type','Filled_Form','Gender','Var1','Var2','Mobile_Verified','Source']
for col in var_to_encode:
    data[col] = le.fit_transform(data[col])


# ### One-Hot Coding

# In[81]:


#get_dummies 是利用pandas實現one hot encode的方式。
data = pd.get_dummies(data, columns=var_to_encode)
print(data)


# ### Separate train & test:

# In[77]:


print(data['source'])
train = data.loc[data['source']=='train']
test = data.loc[data['source']=='test']
#print(train.source)
#print(test.source)


# In[35]:


train.drop('source',axis=1,inplace=True)
test.drop(['source','Disbursed'],axis=1,inplace=True)


# In[36]:


train.to_csv('train_modified.csv',index=False)
test.to_csv('test_modified.csv',index=False)

目前只學習了資料分析部分，模型建立及調參會儘快學習。

機器學習_Python中Gradient Boosting Machine(GBM）學習筆記1_資料分析

原文地址：Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 翻譯出處：http://blog.csdn.net/han_xiaoyang/artic

機器學習系列(11)_Python中Gradient Boosting Machine(GBM）調參方法詳解

1.前言如果一直以來你只把GBM當作黑匣子，只知呼叫卻不明就裡，是時候來開啟這個黑匣子一探究竟了！這篇文章是受Owen Zhang (DataRobot的首席產品官，在Kaggle比賽中位列第三)在NYC Data Science Academy裡提

Python中Gradient Boosting Machine(GBM）調參方法詳解

損失函數二叉樹 lai 打印探索 for tails 提示原本原文地址：Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python by Aarshay Jain 原文翻譯與校對：@

機器學習（臺灣李巨集毅版）學習筆記 gradient descent

梯度下降屬於線性迴歸的一個重要的部分。但是這種方法具有侷限性，在一般的情況下，並不能保證找到的區域性最小就是全域性最小。所以這種方法適用於目標函式是凸函式的情況（local minimum == global minimum）。即使是在凸函式中也不能保證最後找到

linux 常見基礎知識（此文章將會在整個linux學習過程中，不斷添加）

內容輸出結果靜態重啟 urg linux文件系統空間默認 use 1，linux 文件類型普通文件目錄文件鏈接文件塊設備字符設備 Socket 管道文件 - d l b c s p 2，linux 文件屬性藍色綠色淺藍色紅色

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

交叉驗證——（監督）學習器效能評估方法一、思考：交叉驗證有什麼好值得我們使用的？每個演算法模型都需要經過兩個階段：訓練和驗證。 1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。優點：是，但僅僅是思路正確。缺點：思

梯度提升決策樹-GBDT（Gradient Boosting Decision Tree）

研究GBDT的背景是業務中使用到了該模型，用於做推薦場景，當然這裡就引出了GBDT的一個應用場景-迴歸，他的另外一個應用場景便是分類，接下來我會從以下幾個方面去學習和研究GBDT的相關知識，當然我也是學習者，只是把我理解到的整理出來。本文參考了網上

CentOS虛擬機器Java環境中MapReduce Hadoop的WordCount(詞頻運算)程式連線資料入門

目錄 1. Hadoop 簡介 2. Hadoop 的架構 3. MapReduce 簡介 4. Hadoop HDFS 簡介 5. HDFS架構 6. MapReduce開發流程概念（重點) 7. maperuce 運算開發示例（重點） 8. hdfs 的資料型

機器學習西瓜書（周志華）學習筆記（1）-緒論

基本術語資料集（data set）：一組記錄的集合。例如：（色澤=青綠；根蒂=稍蜷；敲聲=沉悶）。樣本（sample）：資料集中的每條記錄，它是關於一個事件或物件的描述。又稱示例（instance）。例如：色澤=青綠。屬性（attribute）：反映事件或物件在某

雲中樹莓派（2）：將感測器資料上傳到 AWS IoT 並利用Kibana進行展示

1. 感測器安裝及配置 1.1 DHT22 安裝 DHT22 是一款溫度與溼度感測器，它有3個針腳，左邊的第一個引腳（#1）為3-5V電源，第二個引腳（#2）連線到資料輸入引腳，最右邊的引腳（#4）接地。而樹莓派3B 一共有40個針腳（GPIO，General Purpose I/

python資料分析與挖掘學習筆記（6）-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現，並擴充套件到協同過濾演算法。關聯規則最有名的故事就是啤酒與尿布的故事，非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。其中有

Data Leakage in Machine Learning 機器學習訓練中的資料洩漏

refer to: https://www.kaggle.com/dansbecker/data-leakage There are two main types of leakage: Leaky Predictors and a Leaky Validation Strategies. L

『機器學習筆記』GBDT原理-Gradient Boosting Decision Tree

1. 背景決策樹是一種基本的分類與迴歸方法。決策樹模型具有分類速度快，模型容易視覺化的解釋，但是同時是也有容易發生過擬合，雖然有剪枝，但也是差強人意。提升方法（boosting）在分類問題中，它通過改變訓練樣本的權重（增加分錯樣本的權重，減

【機器學習】筆記--梯度提升（Gradient boosting)

1 提升的概念提升是機器學習技術，可以用於迴歸和分類問題，它每一步產生一個弱預測模型（如決策樹），並加權累加到總模型中

斯坦福大學公開課機器學習： advice for applying machine learning - evaluatin a phpothesis（怎麽評估學習算法得到的假設以及如何防止過擬合或欠擬合）

class 中一技術分享 cnblogs 訓練數據是否多個期望部分怎樣評價我們的學習算法得到的假設以及如何防止過擬合和欠擬合的問題。當我們確定學習算法的參數時，我們考慮的是選擇參數來使訓練誤差最小化。有人認為，得到一個很小的訓練誤差一定是一件好事。但其實，僅

2.機器學習技法- Dual Support Vector Machine

ear 技術 .com for pos dimen 技法做的 online Lecture 2. Dual Support Vector Machine 2.1 Motivation of Dual Suppor Vector Machine 將 linear su

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

交叉來講相對同時 test 如果開始遞增相互算法正則化可以有效地防止過擬合, 但正則化跟算法的偏差和方差又有什麽關系呢？下面主要討論一下方差和偏差兩者之間是如何相互影響的、以及和算法的正則化之間的相互關系假如我們要對高階的多項式進行擬合，為了防止過擬合現象

機器學習系統設計（Building Machine Learning Systems with Python）- Willi Richert Luis Pedro Coelho

切分秘密閾值 isa 占用第二版思考並且了解機器學習系統設計（Building Machine Learning Systems with Python）- Willi Richert Luis Pedro Coelho 總述本書是 2014 的，看完以後才

斯坦福大學公開課機器學習：advice for applying machine learning | learning curves （改進學習算法：高偏差和高方差與學習曲線的關系）

繪制學習曲線 pos 情況但我容量繼續並且 inf 繪制學習曲線非常有用，比如你想檢查你的學習算法，運行是否正常。或者你希望改進算法的表現或效果。那麽學習曲線就是一種很好的工具。學習曲線可以判斷某一個學習算法，是偏差、方差問題，或是二者皆有。為了繪制一條學習曲

斯坦福大學公開課機器學習： advice for applying machine learning | deciding what to try next(revisited)（針對高偏差、高方差問題的解決方法以及隱藏層數的選擇）

ice 簡單 pos .com img 想要技術分割就是針對高偏差、高方差問題的解決方法： 1、解決高方差問題的方案：增大訓練樣本量、縮小特征量、增大lambda值 2、解決高偏差問題的方案：增大特征量、增加多項式特征（比如x1*x2,x1的平方等等）、減少la

機器學習_Python中Gradient Boosting Machine(GBM）學習筆記1_資料分析

相關推薦