1. 程式人生 > >keras 處理文字,分類,數值資料,並新增進網路的步驟和方法

keras 處理文字,分類,數值資料,並新增進網路的步驟和方法

一,讀取資料:

主要使用pandas 讀取,以後考慮使用其他方法(libsvm等)

二,獲取訓練集和測試集:

這一步主要是劃分資料集,drop()掉訓練集裡的預測那一列

三,處理缺失值:

可以使用fillna(value,inplace)來把缺失值補全

四:送入網路之前的處理:

1;分類資訊的處理:

主要使用Keras的Tokenizer方法進行處理:1,使用Tokenizer類對訓練集和測試集中的每一類進行詞統計(方便embadding層),生成文件詞典,以支援基於文件位序生成文字的向量表示。其中時間資料需要用pandas進行特別的處理,數值資料需要轉化為數值型別。

2,連續型變數的處理:

如果不是數值型需要轉化一下,如果資料的分佈很廣不便於處理可以使用np.log()進行處理,使其分佈在一個較小區間內,對於其中的缺失值使用-1來填充。

3,文字特徵:和分類特徵不同的點在於文字資訊要使用pad_sequences(maxlen)用0來補足。便於後續送入nlp網路

4,分別計算各種特徵的長度

5,   劃分訓練和驗證集:獲取取樣的索引,利用索引分別為分類數值(一塊兒處理,如果分開處理需要單獨分),文字資訊劃分訓練集和測試集。

五,建立模型

六,訓練

七,測試和視覺化

八,調整引數