R語言學習(七)——資料規範化
由於取值範圍大的變數會在測算距離時被賦予較大的權重,降低取值範圍小的資料對結果的影響,所以要對原始變數進行規範化處理。
讀取資料: 或者將Excel檔案儲存為csv(逗號分隔)型檔案,然後用read函式讀取: 但這種方法可能造成資料缺失或錯誤
標準化
統一期望和方差 (1)caret包中:preProcess(x, …) (2)R內建scale()函式 例:
最大、最小值規範化
x=(maxx−minx
xij=2max(xij)−min(xij)xij−min(xkj)−1
Box-cox變換
判斷樣本是否有偏
樣本如果是近似對稱,偏度大致為0,右偏資料偏度為正,左偏的偏度為負。
樣本偏度: skewness=E[δx−μ]3 或者利用e1071包中skewness函式: library(e1071) apply(Loan,2,skewness,na,rm=T)
存在明顯的右偏分佈特徵,使用box-cox變換: x~=logx,λ=0 x~=λxλ−1,λ̸=0
對annual這一列資料規範化,觀察直方圖,變換後的更對稱:
對Loan中每一列資料做box-cox變換:
相關推薦
R語言學習(七)——資料規範化
由於取值範圍大的變數會在測算距離時被賦予較大的權重,降低取值範圍小的資料對結果的影響,所以要對原始變數進行規範化處理。 讀取資料: 或者將Excel檔案儲存為csv(逗號分隔)型檔案,然後用read函
R語言學習(五)高階資料管理
(一)數值和字元處理函式 數學函式: 統計函式: 輸入help( )可以檢視函式的具體用法 z <- mean(x) z <- mean(x,trim=0.05,na.rm=TRUE) ;;丟棄最大最小百分之5後的截尾平均書 均值與標準
R語言學習(7)字符串和因子
const sprint 水平 tostring 大小 pow 個數 end paste 字符串和因子 1.字符串 創建字符串 > c("Hello","World")[1] "Hello" "World" paste( ) 函數連接字符串 >
C++語言學習(七)——友元
ons 封裝性 int turn 安全性 語句 機制 int() sin C++語言學習(七)——友元 一、友元簡介 1、友元簡介 面向對象編程的類的設計機制實現了數據的隱藏與封裝,類的成員變量一般定義為私有成員,成員函數一般定義為公有的,是類與外部的通信接口。在實踐中,類
GO語言學習(七)Go 語言變量
數據 指定 需要 內容 load 默認值 操作符 此外 alt Go 語言變量 變量來源於數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。 Go 語言變量名由字母、數字、下劃線組成,其中首個字母不能為數字。 聲明變量的一般形式是使用 va
Mac版R語言入門(三)資料的匯入
R語言(三)資料的匯入,包括以下幾個部分的內容: R語言問題討論交流,歡迎關注我的新浪微博:Jenny愛學習 1.資料型別介紹  
Java語言學習(七):字串的常見使用
Java中字串的使用很是常見,也是不可避免的,比如:格式化、大小寫轉換等等,下面就這些常見的使用來說下字串。 在使用前,必須要理解一點:字串是不可變的物件,意味著每當呼叫字串物件的方法操作字串時,都將產生一個新的字串物件,而不是更改原來的字
R語言學習(三)——二項分佈
二項分佈統計推斷 dbinom(x, size, prob):計算某點的概率值 x:生成隨機數的數量;size:伯努利實驗的次數;prob:試驗成功的概率 pbinom(q, size, prob):生成累積概率 qbinom(p, size, prob):生成
R語言學習(四)——泊松分佈
dpois(x, lambda, log = FALSE) ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) qpois(p, lambda, lower.tail = TRUE, log.p = FALSE)
Python資料分析與挖掘學習筆記(5)資料規範化與資料離散化實戰
一、相關理論: 1、資料規範化的常見方法: (1)離差標準化(最小-最大標準化)--消除量綱(單位)影響以及變異大小因素的影響。(最小-最大標準化) x1=(x-min)/(max-min) (2)標準差標準化--消除單
Mac版R語言入門(五)R語言中的資料型別之factor因子
更多R語言資訊歡迎關注我的新浪微博:Jenny愛學習微信公眾號:R語言資料分析與實踐分析資料時,經常遇到分類變數。例如,假設你有一系列關於人群特徵的資料,其中一個指標是瞳孔顏色。這時候,可以用字元型陣列來表示瞳孔顏色:> eye.colors <- c("brow
再談C語言的學習(七)──學習C語言的方法
如果你打定了要學好C語言,那麼請看下面的方法吧,雖然我學習C語言的時候沒有用上,但是現在學習新知識新技術的時候很管用──不管學的是什麼。因此大家可以試試,或許還有比這些方法更有效的方法,不妨也寫出來交流交流。實際上我這裡是想教大家怎麼面對一個新事物,並用有效的辦法學習
CS231n課程學習筆記(七)——資料預處理、批量歸一化和Dropout
資料預處理 均值減法 它對資料中每個獨立特徵減去平均值,從幾何上可以理解為在每個維度上都將資料雲的中心都遷移到原點。 #numpy X -= np.mean(X, axis=0) 歸一化 是指將資料的所有維度都歸一化,使其數值範圍都
Java 多執行緒學習筆記(七)資料型別String的常量池特性
將synchronized(String)與String 混合使用時需要注意String的常量池特性帶來的影響 package extthread; import service.Service;
JAVA學習(七):方法重載與方法重寫、thiskeyword和superkeyword
格式 hello new 初始 per 而且 方法重寫 學習 方式 方法重載與方法重寫、thiskeyword和superkeyword 1、方法重載 重載可以使具有同樣名稱但不同數目和類型參數的類傳遞給方法。 註: 一是重載方法的參數列表必須與被重載的方法不同
Guice 學習(七)常量和屬性的註入( Constant and Property Inject)
-a ret roc build ann class google mes ota 1、常量註入方式 package com.guice.ConstantInjectDemo; import com.google.inject.Binder; i
Python學習(七)
偏移量 學習 所有 ecs tables column 信息 詳細 rom 一、MySQL基礎 show databases; 查看所有數據庫 use db_name; 用那個數據庫 show tables; 查看數據庫下的所有表 decs table_name;
[讀書筆記] R語言實戰 (四) 基本數據管理
mean 圖片 數值 函數 nbsp 一個 img order 分享 1. 創建新的變量 mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8)) #方法一 mydata$sumx<-mydata$x1+mydat
R語言學習 第七篇:列表
方法 靈活的數據類型 引號 bounds 參考 最大的 post 長度 索引操作 列表(List)是R中最復雜的數據類型,一般來說,列表是數據對象的有序集合,但是,列表的各個元素(item)的數據類型可以不同,每個元素的長度可以不同,是R中最靈活的數據類型。列表項可以是列表
python學習(七)列表/字典合並、布爾型、交換變量值、列表轉換字符串連接和分割
for post type abcde 列表 str 根據 指定 學習 1、列表合並 a=[] b=[12,23] a.insert(0,‘sdv‘)#在指定位置增加元素 a.append(‘we‘)#增加元素 a.extend(b) #合並列表 print(a) a