【學習筆記】合成特徵與離群值

阿新 • • 發佈：2018-12-10

Dataset庫我還有問題沒有解決清楚，因此先用feed_dict方法。

首先問題1是需要我們合成特徵:

建立一個名為 rooms_per_person 的特徵。

df = pd.read_csv('california_housing_train.csv')
df['median_house_value'] /=1000
df['rooms_per_person'] = df['total_rooms']/df['population'].astype('float32')
df = df.reindex(np.random.permutation(df.index))
x1 = df[['rooms_per_person']]
y1 = df[['median_house_value']].astype('float32')

這裡的df[[]]和 [:, np.newaxis]的效果一樣，我們可以自行選擇其中的一種方法。

loss依舊使用的RMSE

我構建的框架和上次基本無異。這次只有一個神經元。

import pandas as pd
import tensorflow as tf
import numpy as np


def add_layer(inputs, input_size, output_size, activation_function=None):
    weights = tf.Variable(tf.random_normal([input_size, output_size]))
    biases = tf.Variable(tf.zeros(output_size)+0.1)
    wx_b = tf.matmul(inputs, weights) + biases
    if activation_function is None:
        outputs = wx_b
    else:
        outputs = activation_function(wx_b)
    return outputs


df = pd.read_csv('california_housing_train.csv')
df['median_house_value'] /= 1000
df['rooms_per_person'] = df['total_rooms']/df['population'].astype('float32')
df = df.reindex(np.random.permutation(df.index))
x1 = df[['rooms_per_person']]
y1 = df[['median_house_value']].astype('float32')


xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])

l1 = add_layer(xs, 1, 1)

loss = tf.sqrt(tf.reduce_mean(tf.square(l1 - ys)))

train_step = tf.train.AdamOptimizer(0.1).minimize(loss)

sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)
for i in range(1000):
    sess.run(train_step, feed_dict={xs: x1, ys: y1})
    if i % 50 == 0:
        print(sess.run(loss, feed_dict={xs: x1, ys: y1}))

同樣我們也將結果輸出為散點圖。

我們看到大部分點都在一條直線上，少量的點偏離的很厲害，我們這時畫出輸入值的直方圖。

雖然不明顯，但是我們還是能看出來我們的資料中有少量的離群值。

我們按照原文的方法把輸入值最大設定為5:

df['rooms_per_person'] = df['rooms_per_person'].apply(lambda x:min(x, 5))

也可以

df['rooms_per_person'] = np.clip(df['rooms_per_person'], 0, 5)

按照這種方法，我們的確看到了RMSE減少了，同時我畫出了預測值和實際值的散點圖。

以前一直用numpy 和pandas處理特徵，過程很繁瑣，並沒有使用過Dataset,因此寫在這裡害怕有錯誤會誤導別人。如果tf為我們提供了特徵的處理方法那真是再好不過了，等我弄明白會單獨寫一個帖子著重去講Dataset的用法。

【學習筆記】合成特徵與離群值

Dataset庫我還有問題沒有解決清楚，因此先用feed_dict方法。首先問題1是需要我們合成特徵: 建立一個名為 rooms_per_person 的特徵。 df = pd.read_csv('california_housing_train.csv') df['

【學習筆記】連通分量與Tarjian

空格 top set dfs memset ridge ins define 同學連通分量與Tarjian 所以Tarjian到底怎麽讀強連通分量基本概念強連通如果兩個頂點可以相互通達，則稱兩個頂點強連通強連通圖如果有向圖G的每兩個頂點都強連通，稱G

【學習筆記】softmax迴歸與mnist程式設計

我們之前談到了2元分類，但是有時候我們需要多元分類，這時候sigmoid函式就不再適用了。假如我們需要三個分類，而輸出層在啟用函式之前得到的值為3.,4.,5. ，如果我們用sigmoid: sess.run(tf.nn.sigmoid([3.,4.,5.])) arr

【學習筆記】FreeMarker 之於Servlet與Stuts2的應用

patch warnings ftl 4.0 type shm .html enter src FreeMarker應用在Servlet（0配置web.xml形式）：準備環境： tomcat7、eclipse最新版、jdk1.8、freemarker v2.3.20.ja

【學習筆記】狄利克雷與莫比烏斯

數論學習筆記卷積加法結果整數 class 知識 rac Ahead 10.9.2018 前置知識數論函數指一個正整數集對一個數集的映射可以看成 N+->R 加法若函數 \(f(x) + g(x) = h(x)\) 那麽 \(h(x) = \sum_{

【學習筆記】唐大仕—Java程式設計第5講深入理解Java語言之5.3 物件構造與初始化

物件構造與初始化構造方法構造方法（constructor）物件都有構造方法如果沒有，編譯器加一個default構造方法抽象類（abstract）有沒有構造方法？答案：抽象類也有構造方法。實際上，任何類都有自己的構造方法

【學習筆記】唐大仕—Java程式設計第5講深入理解Java語言之5.4 物件清除與垃圾回收

/** * 物件清除與垃圾回收 * @author cnRicky * @date 2018.11.10 */ 物件清除與垃圾回收物件清除我們知道：new建立物件那麼如何銷燬物件？ Java中是自動清除不需要使用delete等方法人為銷燬它

【學習筆記】唐大仕—Java程序設計第5講深入理解Java語言之5.4 對象清除與垃圾回收

let 要求什麽 jdk1 style 1.10 垃圾 ati 內存 /** * 對象清除與垃圾回收 * @author cnRicky * @date 2018.11.10 */ 對象清除與垃圾回收對象清除我們知道：new創建對象那麽如何銷毀對象？ Java

【學習筆記】唐大仕—Java程式設計第5講深入理解Java語言之5.5 內部類與匿名類

/** * 內部類與匿名類 * @author cnRicky * @date 2018.11.10 */ 內部類與匿名類內部類（inner class）是在其他類中的類匿名類（anonymous class）是一種特殊的內部類，它沒有類名內部類（Inner class）

【C++學習筆記】虛擬函式與純虛擬函式概念

源至：https://blog.csdn.net/hackbuteer1/article/details/7558868 虛擬函式：定義一個函式為虛擬函式，不代表函式為不被實現的函式，定義他為虛擬函式是為了允許用基類的指標來呼叫子類的這個函式。（注意：子類中非基類虛擬函式不能被基類呼叫）純虛擬

【學習筆記javascript設計模式與開發實踐（釋出--訂閱模式）----8】

第8章釋出—訂閱模式釋出—訂閱模式又叫觀察者模式，它定義物件間的一種一對多的依賴關係，當一個物件的狀態發生了改變時，所有依賴於它的物件都將得到通知。在javascript開發中，我們一般都用事件模型來替代傳統的釋出—訂閱模式。 8.1 現實中的釋出—訂閱模式不論是在程

【學習筆記】與調和級數相關的時間複雜度

宣告：博主寫這個部落格的理由只是為了緩解心情，大部分的東西都是我手推的，沒有驗證過，如果有問題敬請指出。 Noip2018day1完掛，非常難受，過來寫個部落格頹一下，緩解心情 1. 調和級數調和級數

【學習筆記】Python基礎-字典Dict和Set和List與Str擴充套件

Dict 使用大括號圍起來，這裡提供一種鍵值對的list表示方法 1. Dict {} 2. List [] 3. turple () 例項程式碼 #!/usr/bin/env python3 # -*- coding: utf-8 -*- #

【學習筆記】Google JobScheduler Demo的學習與運用

官方 DEMO 路徑如下 sdk\sources\android-22\com\android\demo\jobSchedulerApp\ Demo 需求 JobShedule的出發點是提供省電場景給使用者進行任務完成，目前主要場景如下 1.網路資

【學習筆記】Arduino 與 DS18B20 數字溫度感測器聯合除錯

“DS18B20是常用的數字溫度感測器，其輸出的是數字訊號，具有體積小，硬體開銷低，抗干擾能力強，精度高的特點 DS18B20在與微處理器連線時僅需要一條口線即可實現微處理器與DS18B20的雙向通訊工作電壓範圍為3.0 V至5.5 V ，測量溫度範圍為-55 ° C至

【學習筆記javascript設計模式與開發實踐（代理模式）----6】

第6章代理模式代理模式是為一個物件提供一個代用品或佔位符，以便控制對它的訪問。代理模式是一種非常有意義的模式，在生活中可以找到很多代理模式的場景。比如明星都有經濟人作為代理。如果想請明星來辦一場商業演出，只能聯絡他的經紀人，經紀人會把演出的細節和報酬都談好之後，再把合

【學習筆記】ACM與Java

這兩天遇到了一些關於大資料處理的題目，發現Java對於這方面的優勢很大。最重要的是程式碼量小了。於是針對這兩天對Java的摸索，寫一篇日誌。記錄一下針對ACM來說常用的Java方面的東西。 1、輸入首先要想輸入需要先包括： import java.util.*;

【學習筆記】大資料搜尋與挖掘

第一章緒論“我們雖然淹沒在資訊的海洋中，但是卻渴求所需的知識。” 美國作家，奈斯位元《大趨勢》。為什麼會出現這種情況呢？主要原因之一是缺乏有效的大資料搜尋、挖掘與知識獲取手段。何謂大資料？研究機構Gartner給出了這樣的定義：大資料是需要新處理模式才能具有更強的決策了

【學習筆記】linux與windows中wchar_t的問題

遇到的問題：做Unity for Android專案時遇到了兩個問題，一是用boost序列時，windows下序列化的二進位制

【學習筆記】ThreadLocal與引用型別相關知識點

## 0 寫在前邊今天以 “TheadLocal 為什麼會導致記憶體洩漏” 為題與朋友們討論了一波，引出了一些原理性的內容，本文就這個問題作答，並擴充套件相關的知識點 ## 1 ThreadLocal 和 ThreadLocalMap 是什麼？簡單來說，ThreadLocal 是一種操作與執行緒繫結

【學習筆記】合成特徵與離群值

相關推薦