23.【進階】流行庫模型--Tensorflow&SKFlow

阿新 • • 發佈：2018-12-31

Tensorflow

用以編寫程式的計算機軟體；
計算機軟體開發工具；
可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；
軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試
軟體可用作應用於人工智慧等領域的應用程式介面(API)

#-*- coding:utf-8 -*-

#1.使用Tensorflow自定義一個線性分類器用於對“良/惡性乳腺癌腫瘤”進行預測

import tensorflow as tf 
import numpy as np  
import pandas as pd  

train = pd.read_csv('../Breast-Cancer/breast-cancer-train.csv' 
,names=column_names)
test = pd.read_csv('../Breast-Cancer/breast-cancer-test.csv',names=column_names)

#分隔特徵與分類目標
X_train = np.float32(train[['Clump Thickness','Cell Size']].T)
y_train = np.float32(train[['Type']].T)

X_test = np.float32(test[['Clump Thickness','Cell Size']].T)
y_test = np.float32(test[['Type']] 
.T)

#定義一個tensorflow的變數b作為線性模型的截距，同時設定初始值為1.0
b = tf.Variable(tf.zeros([1]))
#定義一個tensorflow的變數W作為線性模型的係數，並設定初始值為-1.0至1.0之間均勻分佈的隨機數
W = tf.Variable(tf.random_uniform([1,2],-1.0,1.0))

#顯式定義這個線性函式
y = tf.matmul(W,X_train)+b

#使用tensorflow中對reduce_mean取得訓練集上均方誤差
loss = tf.reduce_mean(tf.square(y-y_train))

#使用梯度下降法估計引數W,b,並且設定迭代步長為0.01 
，這個與sklearn中的SGDRegressor類似
optimizer = tf.train.GradientDescentOptimizer(0.01)

#以最小二乘損失為優化目標
train = optimizer.minimize(loss)

#初始化所有變數
init = tf.initialize_all_variables()

#開啟tensorflow中的會話
sess = tf.Session()

#執行變數初始化操作
sess.run(init)

#迭代1000輪次，訓練引數
for step in xrange(0,1000):
    sess.run(train)
    if step%200 == 0:
        print step,sess.run(W),sess.run(b)

#準備測試樣本
test_negative = test.loc[test['type']==0][['Clump Thickness','Cell Size']]
test_positive = test.loc[test['type']==1][['Clump Thickness','Cell Size']]

#以最終更新的引數作圖
import matplotlib.pyplot as plt 
plt.scatter(test_negative['Clump Thickness'],test_negative['Cell Size'],marker='o',s=200,c='red')
plt.scatter(test_positive['Clump Thickness'],test_positive['Cell Size'],marker='x',s=150,c='black')
plt.xlable('Clump Thickness')
plt.ylable('Cell Size')

lx = np.arrange(0,12)

#這裡強調一下，我們以0.5(良性腫瘤為0，惡性腫瘤為1)作為分介面，所以計算方式如下：
ly = (0.5-sess.run(b))-lx*sess.run(W)[0][0])/sess.run(W)[0][0]

plt.plot(lx,ly,color='green')
plt.show()

#小結：
#使用tensorflow自定義分類器也可以取得與使用sklearn的LogisticRegression模型相近的效果，
#但是這樣按照理論搭建學習系統難度較大，於是我們學習另一個框架skflow,它對Tensorflow進一步的封裝，
#目的是實現像sklearn使用介面類似的工具包

輸出結果：
這裡寫圖片描述

SKFlow

非常適合那些熟悉於scikit-learn程式設計介面對使用者，而且利用Tensorflow的運算架構和模組，封裝了許多經典的機器學習模型，如線性迴歸器、深度全連線的神經網路(DNN)等，推薦使用skflow；
不過skflow仍然支援使用TensorFlow的基礎運算元來自定義學習流程，比如在自己搭建神經網路模型方面。

# 2.使用skflow內建的LinearRegreesor、DNN、以及scikit-learn中的整合迴歸模型對‘美國波士頓房價’進行迴歸預測

from sklearn import datasets,metrics,preprocessing,cross_validation

#使用datasets.load_boston讀取資料
boston= datasets.load_boston()

X,y=boston.data,boston.target

X_train,X_test,y_train,y_test=cross_validation.train_test_split(X,y,test_size=0.25,random_state=33)

#資料特徵進行標準化處理
scaler = preprocessing.StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#匯入skflow
import skflow
#(1)使用skflow的LinearRegressor
tf_lr = skflow.TensorFlowLinearRegressor(steps=10000,learning_rate=0.01,batch_size=50)
tf_lr.fit(X_train,y_train)
tf_lr_y_predict = tf_lr.predict(X_test)
#輸出TensorFlowLinearRegressor的迴歸效能
print 'the MAE of tflr on dataset is',metrics.mean_absolute_error(tf_lr_y_predict,y_test)
print 'the MSE of tflr on dataset is',metrics.mean_squared_error(tf_lr_y_predict,y_test)
print 'the r2-score of tflr on dataset is',metrics.r2_score(tf_lr_y_predict,y_test)

#(2)使用skflow的DNNRegressor,並且注意其每個隱層<特徵數量>的配置,這裡第一層是100個特徵，第二層是40個
tf_dnn_regressor = skflow.TensorFlowDNNRegressor(hidden_units=[100,40],steps=10000,learning_rate=0.01,batch_size=50)
tf_dnn_regressor.fit(X_train,y_train)
tf_dnn_y_predict=tf_dnn_regressor.predict(X_test)
#輸出TensorFlowDNNRegressor的迴歸效能
print 'the MAE of tf_dnn on dataset is',metrics.mean_absolute_error(tf_dnn_y_predict,y_test)
print 'the MSE of tf_dnn on dataset is',metrics.mean_squared_error(tf_dnn_y_predict,y_test)
print 'the r2-score of tf_dnn on dataset is',metrics.r2_score(tf_dnn_y_predict,y_test)

#(3)使用scikit-learn的RandomForestRegressor
from sklearn.ensemble import RandomForestRegressor
rfr = RandomForestRegressor()
rfr.fit(X_train,y_train)
rfr_y_predict = rfr.predict(X_test)
#輸出RandomForestRegressor的迴歸效能
print 'the MAE of rfr on dataset is',metrics.mean_absolute_error(rfr_y_predict,y_test)
print 'the MSE of rfr on dataset is',metrics.mean_squared_error(rfr_y_predict,y_test)
print 'the r2-score of rfr on dataset is',metrics.r2_score(rfr_y_predict,y_test)

#小結：
#通過上述一系列的輸出可知，深度神經網路可以表現處更高的效能，不過需注意的是，越是具備描述複雜資料的強力模型，
#越容易在訓練時陷入過擬合，這一點需要在配置DNN的層數和每層特徵元的數量時特別注意。

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

【SSH快速進階】——struts2的模型驅動—ModelDriven

上篇部落格《SSH快速進階——struts2簡單的例項》中，處理使用者登陸的action—LoginAction為： package com.danny.user.action; public cl

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

【進階】RecyclerView原始碼解析(一)——繪製流程

引言自從Google出了RecyclerView後，基本上列表的場景已經完全替代了原來的ListView和GridView，現在不僅僅是列表，多樣式（俗稱蓋樓），複雜頁面等，只要我們願意，RecyclerView幾乎可以代替實現80%的佈局，Git

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。這種啟發式的搜尋演算法對

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

【python進階】自定義庫函式

在python使用過程中，在不同的專案裡，常常會出現頻繁地自定義同一個函式的情況。為了解決這個問題，我們可以選擇建立一個自定義的庫，並將其新增到系統路徑中具體操作如下：在任意位置新建一個專案my_libs，並在其中新建python檔案my_lib1和m

【Android進階】(3)Android圖像處理

progress chang etc geo xtend static ogr arch 取出 1. 概念色調/色相：物體傳遞的顏色飽和度：顏色的純度，從0（灰）到100%（飽和）來進行描寫敘述亮度/明度：顏色的相對明暗程度 2. 調整圖像小Demo 創建一個

【Android進階】Junit單元測試環境搭建以及簡單有用

rar theme 選擇 http 技術分享才幹 ack package family 單元測試的目的首先。Junit單元測試要實現的功能，就是用來測試寫好的方法是否可以正確的運行，一般多用於對業務方法的測試。單元測試的環境配置 1.在Andro

【SSH高速進階】——Hibernate 多對多映射

pen prop package 轉載 map tex test lec set 　　說到多對多關系。印象最深刻的就是大學的選修課。一個學生能夠選修多門課程，一門課程能夠有多個學生選修，學生所選的每一門課程還有成績。這個場景的E-R圖例如以下：　

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow

SKFlow

相關推薦