1. 程式人生 > >【讀書筆記】《R語言實戰》Day1

【讀書筆記】《R語言實戰》Day1

R中的資料集

資料集的概念:資料集是由資料構成的一個矩形陣列。統計學家稱資料集的行為觀測,列為向量;資料庫分析師稱資料集的行為記錄,列為欄位;資料探勘/機器學習的研究者則稱其為示例和屬性。資料集包括資料結構、內容和資料型別。

R語言常用的資料結構包括標量、向量、陣列、資料框和列表,可以處理的資料型別包括數值型、字元型、邏輯型、複數型(虛數)、原生型(位元組)。

向量

定義:向量是用於儲存數值型、字元型或邏輯型資料的一維陣列

使用方式:R中用函式c()來建立向量,數值型:a<-c(1,2,3,4,5,6)   字元型:b<-c("one","two","three")  邏輯型:c<-c(TRUE,FALSE,TRUE)

注意:單個向量中的資料必須擁有相同的型別或模式(數值型、字元型或邏輯型),同一向量中無法混雜不同模式的資料

訪問元素:通過在方括號中給定元素所處位置的數值,可以訪問向量中的元素。例如a[c(2,4)]

矩陣

定義:矩陣即二維陣列,每個元素都是相同的資料型別。

使用方式:用函式matrix()來建立矩陣,例如mymatrix<-matrix(vector(元素),nrow=行數,ncol=列數,byrow=填充方式,dimnames=list("行名","列名"))

注意:函式中各屬性賦值時引號的使用

訪問元素:通過下標和方括號來選擇行、列或者元素

陣列

定義:陣列與矩陣類似,但是維度可以大於2

使用方式:用函式array()來建立陣列,例如myarray<-array(資料,維度下標最大值,各維度名稱)

訪問元素:通過下標和方括號

資料框

定義:資料框可以包含不同型別的資料,類似於資料庫中的二維表,也是最常用到的資料結構

使用方式:用函式data.frame()建立,例如mydataframe<-data,frame(col1,col2,col3,......)

訪問元素:下標、列名、用$選取資料框中的某個特定變數

注意:列連表常用函式包括attach(),detach(),with()

    attach():將資料框新增到搜尋路徑中,侷限是對於多個相同名稱的變數無能為力

    dettach():將資料庫從搜尋路徑中移除

    with():可以消除多個相同名稱變數帶來的影響,但侷限是賦值只能在函式括號內生效,解決方式是用<<-代替<-

    row.name用於定義資料框的例項識別符號

因子

定義:類別(名義型)變數和有序類別(有序型)變數在R中稱為因子

使用方式:函式factor()以一個整數向量的形式儲存類別值,整數的取值範圍是[1...k],同時一個由字串(原始值)組成的內部向量將對映到這些整數上

   myfactor<-factor(myfactor,order=,levels=)

列表

定義:列表是一些物件的有序集合,其可以允許整合若干物件到單個物件名下

使用方式:mylist<-list(name1=obj1,name2=obi2....)

訪問方式:雙重方括號,例如mylist[[2]]