1. 程式人生 > >R語言—因子

R語言—因子

一.介紹

  類比:性別:男、女

             年紀:一年級、二年級、三年級

二.基本語法

  factor(x=character(),levels,labels=levels,exclude=NA,order=is.ordered(x),nmax=NA)

  levels:用來指定因子可能的水平(預設值是向量x中互異的值)

  labels:用來指定水平的名字

  exclude:表示從向量x中剔除的水平值

 1)

      因子為 A B C

 2)


   指定因子是 A B,C的地方顯示空,因子只有A B

 3)


      指定因子代表的名字

 4)


      剔除某一因子

三.建立因子

 colour<-c('G','G','R','Y','Y','R')


  col<-factor(colour)

   colour是字串型別,col是因子型別


 col<-factor(colour,labels = c('green','red','yellow'))

 指定因子名字


  as.vector  轉化為向量

  

ps:

 

當調換因子型資料的取值水平(levels)或字元標籤(labels)時,所得向量取值發生相應變化,即levels與labels有對應關係成立,但當不對levels或labels進行設定時,各個字元的數字程式碼則按照字母表順序從1開始依此取值,如:



   因子型資料不可進行數值運算

   轉換為數值型資料後可參與運算

四.有序因子

  1.ordered()

 

  2.cut()函式

 

   分組後,每個數值以組的形式出現

五.常用函式

 tapply()


  根據gender分組求age的平均值