獨熱（one-hot）編碼的tensorflow實現

阿新 • • 發佈：2018-11-01

一、獨熱編碼

獨熱編碼，又稱一位有效碼，用序列化的數字（只有0和1）表達特徵。主要思路是使用N位數字對N種情況進行編碼。

舉個例子，對[0,1,2,3]分別進行編碼。由於有4種情況，序列的長度為4，對應數字的位置1，其餘置0。所以：

[1,0,0,0]

[0,1,0,0]

[0,0,1,0]

[0,0,0,1]

二、幾個必要函式

掌握了獨熱編碼的規律，我們先來看一段程式碼，瞭解幾個必要的函式。

import tensorflow as tf

#建立一維向量a和b，shape均為(3, )

a = tf.constant([1,2,3])

b = tf.constant([4,5,6])

 

#a和b在一維上連線，c的shape為(6, )

c = tf.concat([a,b],0)

#由於a和b是一維向量，無法連線，會報錯

#c1 = tf.concat([a,b],1)

 

#將a和b擴充為二維向量，二者的shape均為(3,1)

t1 = tf.expand_dims(a,1)

t2 = tf.expand_dims(b,1)

 

#分別在第二維和第一維上連線

concated = tf.concat([t1,t2],1)

concated1 = tf.concat([t1,t2],0)

 

#檢視結果

with tf.Session() as sess:

  print(a,a.shape)

  print(b,b.shape)

  print(sess.run(t1),t1.shape)

  print(sess.run(t2),t2.shape)

  print(sess.run(c),c.shape)

  print(sess.run(concated),concated.shape)#（3,2）

  print(sess.run(concated1),concated1.shape)#（6,1）

tf.concat(values,dim,name='concat')

在某維上連線兩個向量的函式。

Values - 需要連線的向量

Dim - 維數。0表示第一維，1表示第二維

由上面的例子可知，維度為(3,1)和（3,1）的兩個向量，在第一維上連線，就是(6,1);在第二維連線，就是(3,2).

注意：有的版本可能是tf.concat(dim，values)，具體可以自行實驗。

tf.expand_dims(input, axis=None, name=None, dim=None)

擴充向量的維數。

由上面的例子可知，使用t1 = tf.expand_dims(a,1)將向量[1,2,3]擴充為[[1],[2],[3]]，從原來的（3，）變為（3,1），便於在第二維上連線concat。

三、獨熱編碼實現

接下來看一段實際程式碼，瞭解獨熱編碼究竟如何生成。

為了方便理解，假設現在我們要對5張手寫數字進行分類，這些數字的標籤labels的範圍是0~9，形成(5, )的行向量，為[5,4,3,8,7]。

labels = [5,4,3,8,7]

NUM_CLASSES = 10

batch_size = tf.size(labels)

#labels表示圖片的標籤，5張圖片有5個標籤。Batch_size=5

labels = tf.expand_dims(labels, 1)

#擴充維數，將（5，）擴充為（5,1），裡面的內容不變：[[5],[4],[3],[8],[7]]

indices = tf.expand_dims(tf.range(0, batch_size, 1), 1)

#擴充維數。由於batch_size=(5, )，迴圈之後生成5*1的矩陣：[[0],[1],[2],[3],[4]]

concated = tf.concat(1, [indices, labels])

#將indices和labels在第二維連線，形成5*2的矩陣：[[0,5],[1,4],[2,3],[3,8],[4,7]]

onehot_labels = tf.sparse_to_dense(
concated, tf.stack([batch_size, NUM_CLASSES]), 1.0, 0.0)

#轉化為獨熱編碼。

#tf.pack()將兩個向量打包成一個。由於batch_size=5和NUM_CLASSES=10都是數，合併為行向量：[5，10]

#tf.sparse_to_dense()將稀疏矩陣轉密集矩陣。stack()函式指定生成的矩陣的shape為5*10,concated指定更換值的座標，1.0表示將concated指定座標的值更換為1,0.0表示其餘座標值置0.

最終結果：

def sparse_to_dense(sparse_indices,
                    output_shape,
                    sparse_values,
                    default_value=0,
                    validate_indices=True,
                    name=None):

幾個引數的含義： 

sparse_indices: 元素的座標[[0,0],[1,2]] 表示(0,0)，和(1,2)處有值 

output_shape: 得到的密集矩陣的shape 

sparse_values: sparse_indices座標表示的點的值，可以是0D或者1D張量。若0D，則所有稀疏值都一樣。若是1D，則len(sparse_values)應該等於len(sparse_indices) 

default_values: 預設點的預設值

tf.pack() ===> tf.stack(values, name = "pack")

Values表示輸入的tensor，實現將兩個tensor打包成一個。

        例子：

          a = tf.constant([1,2,3])   b=tf.constant([4,5,6])

          sess.run([a,b])

          輸出：[array([1, 2, 3]), array([4, 5, 6])]

          sess.run(tf.stack([a,b],name='rank')) 

          輸出：[[1,2,3],[4,5,6]]

獨熱（one-hot）編碼的tensorflow實現

一、獨熱編碼獨熱編碼，又稱一位有效碼，用序列化的數字（只有0和1）表達特徵。主要思路是使用N位數字對N種情況進行編碼。舉個例子，對[0,1,2,3]分別進行編碼。由於有4種情況，序列的長度為4，對應數字的位置1，其餘置0。所以： [1,0,0,0] [0,1,0,0] [

資料預處理之獨熱編碼（One-Hot）：為什麼要使用one-hot編碼？

一、問題由來最近在做ctr預估的實驗時，還沒思考過為何資料處理的時候要先進行one-hot編碼，於是整理學習如下：在很多機器學習任務如ctr預估任務中，特徵不全是連續值，而有可能是分類值。如下：　　　　分類變數（定量特徵）與連續變數（定性特徵）。我們訓練模型的變數，一般分為兩種形式。以廣告

機器學習筆記（十二）：TensorFlow實現四（影象識別與卷積神經網路）

1 - 卷積神經網路常用結構 1.1 - 卷積層我們先來介紹卷積層的結構以及其前向傳播的演算法。一個卷積層模組，包含以下幾個子模組：使用0擴充邊界(padding) 卷積視窗過濾器（filter）前向卷積反向卷積（可選） 1.1.2 - 邊界填充

批標準化（Batch Normalization）、Tensorflow實現Batch Normalization

批標準化（Batch Normalization）：論文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 論文地址：https://arxiv.or

膠囊網路（Capsule Network）的TensorFlow實現

現在我們都知道Geoffrey Hinton的膠囊網路（Capsule Network）震動了整個人工智慧領域，它將卷積神經網路（CNN）的極限推到一個新的水平。網上已經有很多的帖子、文章和研究論文在探討膠囊網路理論，以及它如何做的比傳統的CNN更好。因此

資料預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標籤編碼

一、問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。離散特徵的編碼分為兩種情況：　　1、離散特徵的取值之間沒有大小的意義，比如color：[red,blue],那麼就使用one-hot編碼　　2、離散特徵的取值有大小的意義，比如size:[

資料預處理之獨熱編碼（One-Hot Encoding）

比如 sex:[“male”, “female”] country: [‘china’,’USA’,’Japan’] 正常數字量化後： “male”, “female”用0,1表示; ‘china’,’USA’,’Japan’用0,1,2表示。現

多分類標籤（one-hot向量）

參考：https://blog.csdn.net/huangbo1221/article/details/79671797 最近學習TensorFlow，例子裡面全是mnist這種，鬼知道你裡面資料格式是個什麼鬼？想用自己的資料訓練，於是，第一步先開始製作資料集，開始用one-hot向量打標籤；

Spring Boot （配置篇）：devtools實現熱部署

初使用SpringBoot時候，是採用的Tomcat的Update class and resources，後來發現SpringBoot 有自帶的熱部署工具。和Tomcat熱部署類似，只要有修改程式碼（編譯通過的）就會自動重新啟動程式（Tomcat），

舞蹈鏈—— 9 × 9 數獨模板（POJ - 3074）

用 324 324 324 列、

機器學習筆記（十一）： TensorFlow實戰三（MNIST數字識別問題）

1 - MNIST數字識別問題前面介紹了這樣用TensorFlow訓練一個神經網路模型和主要考慮的問題及解決這些問題的常用方法。下面我們用一個實際的問題來驗證之前的解決方法。我們使用的是MNIST手寫數字識別資料集。在很多深度學習教程中，這個資料集都會被當做一個案例。 1.1

one-hot-encode編碼方式

有時特徵內容並不是數值，而是字串型別。如果直接將字串轉成一個對應的數值，造成原本的特徵具有大小關係。這是需要使用 one-hot-encode編碼格式。兩種轉化方式： pandas.get_dummies()：常用方法，功能強大，操作簡單； sklearn.preprocessing.On

機器學習筆記（十五）：TensorFlow實戰七（經典卷積神經網路：VGG）

1 - 引言之前我們介紹了LeNet-5和AlexNet，在AlexNet發明之後，卷積神經網路的層數開始越來越複雜，VGG-16就是一個相對前面2個經典卷積神經網路模型層數明顯更多了。 VGGNet是牛津大學計算機視覺組（Visual Geometry Group）和Google

機器學習筆記（十四）：TensorFlow實戰六（經典卷積神經網路：AlexNet ）

1 - 引言 2012年，Imagenet比賽冠軍的model——Alexnet [2]（以第一作者alex命名）。這個網路算是一個具有突破性意義的模型首先它證明了CNN在複雜模型下的有效性，然後GPU實現使得訓練在可接受的時間範圍內得到結果，讓之後的網路模型構建變得更加複雜，並且通過

機器學習筆記（十二）：TensorFlow實戰四（影象識別與卷積神經網路）

1 - 卷積神經網路常用結構 1.1 - 卷積層我們先來介紹卷積層的結構以及其前向傳播的演算法。一個卷積層模組，包含以下幾個子模組：使用0擴充邊界(padding) 卷積視窗過濾器（filter）前向卷積反向卷積（可選） 1.1

機器學習筆記（二十）：TensorFlow實戰十二（TensorBoard視覺化）

1 - 引言前面已經介紹到TensorFlow可以實現許多非常常用的神經網路結構，有的網路結構十分複雜，裡面的引數關係更是難以管理。因此，TensorFlow提供了一個視覺化工具TensorBoard。可以有效的展示執行過程中的計算圖、各種指標隨著時間的變化趨勢以及訓練中使用到的影象等

機器學習筆記（十九）：TensorFlow實戰十一（多執行緒輸入資料）

1 - 引言為了加速模型訓練的時間，TensorFlow提供了一套多執行緒處理輸入資料的框架。下面我們來詳細的介紹如何使用多執行緒來加速我們的模型訓練速度 2 - 佇列與多執行緒在TensorFlow中，佇列和變數類似，我們可以修改它們的狀態。下面給出一個示例來展示如

機器學習筆記（十八）：TensorFlow實戰十（影象資料處理）

1 - 引言之前我們介紹了通過卷積神經網路可以給影象識別技術帶來突破性的進展，現在我們從影象的預處理這個角度來繼續提升我們影象識別的準確率。輸入的預處理需要使用TFRecord格式來同一不同的原始資料格式，並且更加有效的管理不同的屬性。並且TensorFlow支援影象處理函式，

機器學習筆記（十七）：TensorFlow實戰九（經典卷積神經網路：ResNet）

1 - 引言我們可以看到CNN經典模型的發展從 LeNet -5、AlexNet、VGG、再到Inception，模型的層數和複雜程度都有著明顯的提高，有些網路層數更是達到100多層。但是當神經網路的層數過高時，這些神經網路會變得更加難以訓練。一個特別大的麻煩就在於訓練的時候會產

機器學習筆記（十六）：TensorFlow實戰八（經典卷積神經網路：GoogLeNet）

1 - 引言 GoogLeNet, 在2014年ILSVRC挑戰賽獲得冠軍，將Top5 的錯誤率降低到6.67%. 一個22層的深度網路論文地址：http://arxiv.org/pdf/1409.4842v1.pdf 題目為：Going deeper with convolu

獨熱（one-hot）編碼的tensorflow實現

一、獨熱編碼

二、幾個必要函式

三、獨熱編碼實現

相關推薦