TensorFlow學習筆記二Titanic題目實戰

阿新 • • 發佈：2019-01-03

1. data.info()可以檢視資料的基本status

2. DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

引數：

（1）func：應用於每個列/行的函式

（2）axis: {0 or ‘index’, 1 or ‘columns’}, 預設是0。

0 or ‘index’: 將func應用與每列
1 or ‘columns’:將func應用於每行

3. tf.placeholder(tf.float32,shape=[None,6]), 宣告輸入佔位符，tf.float32表示輸入佔位符接受的資料型別，shape表示

輸入佔位符的形狀，None表示該維度可以為任意值。

4. tf.Variable(tf.random_normal([6,2]),name='weights')宣告/初始化變數

5. tf.add_to_collection('vars', W)，建立容器，收集了tensor變數W.

6. y_pred = tf.nn.softmax(tf.add(tf.matmul(X,W),b)) 建立計算節點，tf.matmul是矩陣相乘的矩陣，tf.add是矩陣相加的矩陣，

tf.nn.softmax是呼叫softmax函式。

7. tf.reduce_sum(), tf.reduce_mean() 分別求和和平均數。

8 train_op = tf.train.GradientDescentOptimizer(0.001).minimize(cost)

其中tf.train.GradientDescentOptimizer是訓練過程使用梯度下降最優化，0.001是學習率，minimize表示目標函式是最小化。

9. tf.global_variables_initializer() 用於初始化所有的變數

#Titanic題目實戰
import pandas as pd
from sklearn.model_selection import train_test_split
import tensorflow as tf
import numpy as np

data = pd.read_csv('titanic_train.csv')

print(data.info())    #檢視資料概況

#取部分特徵欄位用於分類，並將所有缺失的欄位填充為0
data['Sex'] = data['Sex'].apply(lambda s: 1 if s=='male' else 0)
data = data.fillna(0)
dataset_X = data[['Sex','Age','Pclass','SibSp','Parch','Fare']]
dataset_X = dataset_X.as_matrix()

#兩種分類分別為倖存和死亡，‘Survived’欄位是其中一種分類的標籤
#新增‘Deceased’表示第二種分類的標籤，取值為‘Survived’欄位取非
data['Deceased'] = data['Survived'].apply(lambda s: int(not s))
dataset_Y = data[['Deceased','Survived']]
dataset_Y = dataset_Y.as_matrix()

X_train,X_test,y_train,y_test = train_test_split(dataset_X,dataset_Y,\
                                                 test_size=0.2,random_state=42)
#構建計算圖
#宣告輸入資料佔位符
#shape引數的第一個元素為None,表示可以同時放入任意條記錄
X = tf.placeholder(tf.float32,shape=[None,6])
y = tf.placeholder(tf.float32,shape=[None,2])
#宣告變數
W = tf.Variable(tf.random_normal([6,2]),name='weights')
b = tf.Variable(tf.zeros([2]),name='bias')
#建立容器vars。它收集了tensor變數W和b。之後，tensorflow將這一容器儲存
tf.add_to_collection('vars', W)
tf.add_to_collection('vars', b)

#邏輯迴歸的公式
y_pred = tf.nn.softmax(tf.add(tf.matmul(X,W),b))
#宣告代價函式：使用交叉熵作為代價函式
cross_entroy = -tf.reduce_sum(y*tf.log(y_pred + 1e-10))
cost = tf.reduce_mean(cross_entroy)

#加入優化演算法:其中0.001是learning rate
train_op = tf.train.GradientDescentOptimizer(0.001).minimize(cost)
#定義saver
saver = tf.train.Saver()

#構建訓練迭代過程
with tf.Session() as sess:
    #初始化所有變數，必須最先執行
#    sess.run(tf.global_variables_initializer())
    tf.global_variables_initializer().run()
    #以下為訓練迭代，迭代10輪
    for epoch in range(10):
        total_loss = 0
        for i in range(len(X_train)):
            feed = {X:[X_train[i]], y: [y_train[i]]}
            #通過session.run介面觸發執行
            _,loss = sess.run([train_op, cost], feed_dict=feed)
            total_loss += loss
        print('Epoch: %04d, total loss=%.9f' %(epoch+1,total_loss))
    print('Training complete!')

    pred = sess.run(y_pred,feed_dict={X:X_train})
    correct = np.equal(np.argmax(pred,1),np.argmax(y_train,1))
    accuracy = np.mean(correct.astype(np.float32))
    print('Accuracy on validation set: %.9f'%accuracy)
    #儲存變數
#    saver.save(sess,'./modelVar/model.ckpt')
    
#    上面的程式碼執行結束後，當前目錄下出現四個檔案：
#    my-model.ckpt.meta
#    my-model.ckpt.data-*
#    my-model.ckpt.index
#    checkpoint
#    利用這四個檔案就能恢復出 w1和w2這兩個變數。

W = tf.Variable(tf.random_normal([6,2]),name='weights')
b = tf.Variable(tf.zeros([2]),name='bias')    
X = tf.placeholder(tf.float32,shape=[None,6])
yHat = tf.nn.softmax(tf.add(tf.matmul(X,W),b))
Weights = []
with tf.Session() as sess1:
    tf.global_variables_initializer().run()
    model_file=tf.train.latest_checkpoint('./modelVar')
    saver.restore(sess1,model_file)
    all_vars = tf.get_collection('vars')
    for i,v in enumerate(all_vars):
#        print('v',v)
#        print('vname',v.name)
        v_ = v.eval() # sess.run(v)
#        print(i,v_)
        Weights.append(v_)
    Weights9 = Weights[14]
    bias9 = Weights[15]
    y_Hat = sess1.run(yHat,feed_dict={X:X_test,W:Weights9,b:bias9})
    
#預測測試資料結果
testdata = pd.read_csv('titanic_test.csv')
testdata = testdata.fillna(0)
testdata['Sex'] = testdata['Sex'].apply(lambda s: 1 if s == 'male' else 0)
XTest = testdata[['Sex','Age','Pclass','SibSp','Parch','Fare']]

#開啟session進行預測
with tf.Session() as sess2:
    tf.global_variables_initializer().run()
    predictions = np.argmax(sess2.run(yHat,feed_dict={X:XTest,W:Weights9,b:bias9}),1)
    
#構建提交結果的資料結構，並將結果儲存為csv檔案
submission = pd.DataFrame({'PassengerId':testdata['PassengerId'],\
                           'Survived':predictions})
submission.to_csv('mySubmission201712.csv',index=False)

TensorFlow學習筆記二Titanic題目實戰

1. data.info()可以檢視資料的基本status2. DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)引數：（1）func：應用於每個列/行

tensorflow學習筆記二----------變量

oat eval() 函數 port variable eva oba 筆記二如果 tensorflow裏面的變量表示，需要使用特定的語法進行。如果想構造一個行（列）向量，需要調用Variable函數進行。對兩個變量進行操作，也要調用相應的函數。 import tens

Tensorflow學習筆記二--線性迴歸模型

學習完基本操作後，今天來學習一下如何用tensorflow建立線性迴歸模型。一、首先建立一些資料 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt # 隨機生成1000個點，圍繞在y=0.

深度學習框架Tensorflow學習筆記(二)

交叉熵權值和偏置值的調整與無關，另外，梯度公式中的表示輸出值與實際值的誤差。所以當誤差越大時，梯度就越大，引數w和b的調整就越快，訓練的速度也就越快。  如果輸出神經元是線性的，那麼二次代價函式就是一種合適的選擇。如果輸出神經元是S型函式，那麼比較適合用交叉熵代價函

TensorFlow學習筆記(二)：手寫數字識別之多層感知機

在【TensorFlow學習筆記(一)：手寫數字識別之softmax迴歸】中：我使用softmax迴歸演算法識別mnist資料集的手寫數字，在我機器上的mnist測試集上最好結果是 92.9% 。

tensorflow學習筆記(二十一):tensorflow視覺化

tensorflow的視覺化是使用summary和tensorboard合作完成的. 基本用法首先明確一點,summary也是op. 輸出網路結構 with tf.Session() as

tensorflow學習筆記(二)-PTBModel初步解析

前言本人最近正在學習深度學習以及tensorflow，在此記錄一些學習過程中看到的有價值的參考資料，並且寫下一點我自己的初步理解。一、PTB 本人所用anaconda3,ptb位於Anaconda3\Lib\site-packages\tens

tensorflow學習筆記（二）

example initial turn rate mnist pac rac test mode import tensorflow as tfimport numpy as npimport mathimport tensorflow.examples.tutorial

tensorflow學習筆記（二十八）：collection tensorflow學習筆記（二十八）：collection

tensorflow學習筆記（二十八）：collection 2016年12月27日 11:53:06 閱讀數：11346 tensorflow collection tensorflow的collection提供一個

TensorFlow學習筆記（二十三）四種Cross Entropy交叉熵演算法實現和應用

交叉熵（Cross-Entropy）交叉熵是一個在ML領域經常會被提到的名詞。在這篇文章裡將對這個概念進行詳細的分析。 1.什麼是資訊量？假設是一個離散型隨機變數，其取值集合為，概率分佈函式為 p ( x ) = r (

Tensorflow 學習筆記（二）: 深層神經網路

Tensorflow 學習筆記（二）: 深層神經網路前言本文是閱讀《TensorFlow：實戰Google深度學習框架》第四章提煉出來的筆記。同時我在github找到這本書作者提供的配套原始碼，發現和書相比多了一些例子（code），推薦結合書一起使用！深度學習與深層神

tensorflow學習筆記（二）實現MNIST

import tensorflow as tf from tensorflow.contrib import rnn import numpy as np import input_data input_vec_size = lstm_size = 28 time_st

TensorFlow學習筆記（二）之視覺化(Tensorboard）

一、Tensorboard簡介 Tensorboard是TensorFlow自帶的一個強大的視覺化工具，也是一個web應用程式套件。通過將tensorflow程式輸出的日誌檔案的資訊視覺化使得tensorflow程式的理解、除錯和優化更加簡單高效。支援其七種視

《從Lucene到Elasticsearch：全文檢索實戰》學習筆記二

天我給大家講講分詞演算法分詞演算法概述：詞是語義的最小單位。分詞對搜尋引擎的作用很大，可以促進搜尋引擎程式自動識別語句的含義，可以提高搜尋結果的匹配度，分析的質量也將直接影響了搜尋結果的精確度。分詞存在於文字索引的建立過程和使用者提交檢索過程。利用相同的分詞器把短

google機器學習框架tensorflow學習筆記（二）

線性迴歸人們早就知曉，相比涼爽的天氣，蟋蟀在較為炎熱的天氣裡鳴叫更為頻繁。數十年來，專業和業餘昆蟲學者已將每分鐘的鳴叫聲和溫度方面的資料編入目錄。Ruth 阿姨將她喜愛的蟋蟀資料庫作為生日禮物送給您，並邀請您自己利用該資料庫訓練一個模型，從而預測鳴叫聲與溫度的關係。如果把資料

《TensorFlow學習筆記》卷積神經網路CNN實戰-cifar10資料集（tensorboard視覺化）

IDE：pycharm Python: Python3.6 OS: win10 tf : CPU版本程式碼可在github中下載，歡迎star，謝謝 CNN-CIFAR-10 一、CIFAR10資料集資料集程式碼下載 from te

《重構：改善既有程式碼的設計》-學習筆記二（+實戰解析）

我不是個偉大的程式設計師；我只是個有著一些優秀習慣的好程式設計師而己本人比較直接，不說虛的，直接上乾貨。目錄　　Long Parameter List（過長引數列）　　Divergent Change（發散式變化）　　Shotgun Surgery（散彈式修改）　　Feat

tensorflow學習筆記（二）：tensor 變換

矩陣操作 #對於2-D #所有的reduce_...，如果不加axis的話，都是對整個矩陣進行運算 tf.reduce_sum(a, 1） #對axis1 tf.reduce_mean(a,0) #每列均值第二個引數是axis，如果為0的話，res[i

tensorflow學習筆記（二十三）：variable與get_variable

Variable tensorflow中有兩個關於variable的op，tf.Variable()與tf.get_variable()下面介紹這兩個的區別 tf.Variable與tf.get_variable() tf.Variable(ini

TensorFlow學習筆記（二）：快速理解Tutorial第一個例子-MNIST機器學習入門

TensorFlow教程的第一章“MNIST機器學習入門”很簡單，用了一個很簡單的網路，實現了MNIST樣本訓練。教程連結：http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_

TensorFlow學習筆記二Titanic題目實戰

相關推薦