1. 程式人生 > >《R語言與商業智慧》讀書筆記--第一章

《R語言與商業智慧》讀書筆記--第一章

今天開始閱讀《R語言與商業智慧》,作者:韓偉 毛俊傑,出版社:電子工業出版社出版,為了加深記憶,邊讀邊做筆記。版權歸期所有。

第 1 章 R簡介

R是用於統計分析、統計繪圖的語言和操作環境,是屬於GNU系統的一個自由、免費、原始碼開放的軟體,也是一個用於統計計算和統計製圖的優秀工具。

1.1 R簡介

1.2 R的發展歷史

1.3 R的功能

R是一套完整的資料處理、計算和製圖軟體系統。其功能包括:資料儲存和處理系統、陣列運算工具(在向量、矩陣運算方面的功能尤其強大)、完整連貫的統計分析工具、優秀的統計製圖功能、簡便而強大的程式語言、可操縱資料的輸入和輸出,可實現分支、迴圈、使用者可自定義功能。

與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程式,使用者只需指定資料來源和若干引數便可進行統計分析。R的思想是:它可以提供一些整合的統計工具,但更大量的是它提供各種數學計算、統計計算的函式,從而使使用者能靈活機動地進行資料分析,甚至創造出符合需要的新的統計計算方法。

R語言的語法表面上類似C,但在語義上是函式設計語言(functional programming language)的變種,並且和Lisp以及APL有很強的相容性。特別的是,它允許在“語言上計算”(computing on the language)。這使得它可以把表示式作為函式的輸入引數,而這種做法對統計模擬和繪圖非常有用。

1.4 CRAN 和 Bioconductor

CRAN為 Comprehensive R Archive Network(R綜合典藏網)的簡稱。它除了收藏了R可執行檔案、原始碼和說明檔案,也收錄了使用者撰寫的各種軟體包。

1.5 R的缺點

  1. R是一種解釋性語言,和編譯語言相比,速度顯得略慢一點,但是隨著硬體和R自身的發展,這個問題已經慢慢消失了。
  2. R所有的計算都是在記憶體中進行的。
  3. 由於R語言的自由,各種包的編寫者來自不同的領域,所以在一定程度上是比較混亂的,沒有統一的命名格式,引數格式不一,原始碼和文件質量良莠不齊。

1.6 安裝R

1.7 R的使用

1.7.1 第一次使用R

在R中可以使用“=”,也可是使用“<-”來賦值,在實際使用中,這兩種方法幾乎沒有區別。但是,一般在賦值的時候使用箭頭,在傳遞引數的時候使用等號(必須使用等號,雖然有的時候用箭頭也可以執行,但是很危險)。

> x<-1:10
> x
 [1]  1  2  3  4  5  6  7  8  9 10
> y=1:10
> y
 [1]  1  2  3  4  5  6  7  8  9 10

不推薦使用等號賦值。在R中使用井號“#”來註釋。

1.7.2 獲取幫助

#檢視函式的幫助
help(rnorm)        #等價於?rnorm
#模糊查詢
help.search("rnor")#等價於??rnor
#檢視一個函式的例子的執行結果
example("rnorm")
#列出包當中的小短文
vignette()

1.7.3 工作空間和工作目錄

R是在記憶體中執行的,所使用的資料和函式等都在記憶體中,這被稱為之為工作空間。可以使用ls()來列出當前工作空間中的多有物件,使用rm()來刪除工作空間中的某一個物件,特別地,可以使用rm(list=ls(all.names=T))來刪除所有的物件,包括其中隱藏的物件。

另外一個概念是工作目錄,工作目錄是一個資料夾的路徑,這個路徑表示的是當前在哪一個資料夾下工作。在存取檔案時,如果不指定路徑的話,就會預設為這個資料夾。在R中,可以使用getwd(即get work directory)函式來獲得當前目錄,如果要改變當前工作目錄,可以使用setwd函式來設定。

1.8 包的安裝和使用

在R中使用命令來安裝包

# 在R中使用命令來安裝包
install.packages("安裝的包名",dependencies=TRUE)
# 載入一個包
library("包名")
# 檢視一個包的使用說明
library(help="包名")

一個包在安裝完成後需要先載入才能使用。

1.9 其他輔助工具

1.9.1 Rcmdr包:實現R的選單化操作

1.9.2 rattle:視覺化資料探勘工具

1.9.3 Rstudio:一個有好的編輯器

相關推薦

R語言商業智慧讀書筆記--第一

今天開始閱讀《R語言與商業智慧》,作者:韓偉 毛俊傑,出版社:電子工業出版社出版,為了加深記憶,邊讀邊做筆記。版權歸期所有。 第 1 章 R簡介 R是用於統計分析、統計繪圖的語言和操作環境,是屬於GNU系統的一個自由、免費、原始碼開放的軟體,也是

《數據庫設計入門經典》讀書筆記——第一:數據庫建模的過去現在

port 混合 如果 執行 很好 創建表 規則 什麽 增長 《數據庫設計入門經典》,現在學習的是這本書,雖然以前就看過類似的書,可能由於之前經驗不足,書中說的某些東西只消化了一部分,現在重溫一邊好懂多了。所以說讀第一遍讀不懂不要緊,過個一年半載的再來讀,還是會讀不懂的,哈哈

《Linux命令列shell指令碼程式設計大全》讀書筆記————第一 初識Linux shell

本章內容 1、什麼是Linux 2、Linux核心的組成   1、1 什麼是Linux Linux課劃分為以下四部分 a)Linux核心 b)GNU工具 c)圖形化桌面環境 d)應用軟體   1.1.1 深入探究Linux核心

《高效能MySQL》讀書筆記---第一:MySQL架構歷史

本章描述了MySQL的伺服器架構、各種儲存引擎之間的主要區別,以及這些區別的重要性   1.1 MySQL邏輯架構 MySQL的邏輯架構如下圖所示: 第一層:該層的服務並不是MySQL獨有的,大多數基於網路的客戶端/伺服器的工具或者伺服器都有類似的架構。如連線處理、授權認證、安全等

R語言機器學習學習筆記(分類演算法)(1)K-近鄰演算法

前言      最近在學習資料探勘,對資料探勘中的演算法比較感興趣,打算整理分享一下學習情況,順便利用R來實現一下資料探勘演算法。      資料探勘裡我打算整理的內容有:分類,聚類分析,關聯分析,異常檢測四大部分。其中分類演算法主要介紹:K-近鄰演算法,決策樹演算法,樸素

R語言點估計學習筆記(刀切法最小二乘估計)

一、       刀切法(jackknife)         刀切法的提出,是基於點估計準則無偏性。刀切法的作用就是不斷地壓縮偏差。但需要指出的是縮小偏差並不是一個好的辦法,因為偏差趨於0時,均方誤差會變得十分大。而且無偏性只有在大量重複時才會表現出與真值的偏差不大。Ja

R語言點估計學習筆記(EM演算法Bootstrap法)

一、EM演算法       EM演算法是一種在觀測到資料後,用迭代法估計未知引數的方法。可以證明EM演算法得到的序列是穩定單調遞增的。這種演算法對於截尾資料或引數中有一些我們不感興趣的引數時特別有效。    EM演算法的步驟為:        E-step(求期望):在給定

R語言時間序列學習筆記(1)

       今天分享的是R語言中時間序列的有關內容。主要有:時間序列的建立,ARMA模型的建立與自相關和偏自相關函式。 一、          時間序列的建立 時間序列的建立函式為:ts().函式的引數列表如下: ts(data = NA, start = 1, end

R語言機器學習學習筆記(分類演算法)(3)樸素貝葉斯

演算法三:樸素貝葉斯演算法 在貝葉斯決策中,對於先驗概率p(y),分為已知和未知兩種情況。 1. p(y)已知,直接使用貝葉斯公式求後驗概率即可; 2. p(y)未知,可以使用聶曼-皮爾遜決策(N-P決策)來計算決策面。 而最大最小損失規則主要就是使用解決最小損失規則時先驗概率未知或難以計算的問題的

R語言迴歸分析學習筆記(bootstrap method)

           Bootstrap方法在之前的博文《R語言與點估計學習筆記(EM演算法與Bootstrap法)》裡有提到過,簡而言之,bootstrap方法就是重抽樣。為什麼需要bootstrap方法呢?因為bootstrap方法使得我們無需分佈理論的知識也可以進行假

R語言點估計學習筆記(矩估計MLE)

          眾所周知,R語言是個不錯的統計軟體。今天分享一下利用R語言做點估計的內容。主要有:矩估計、極大似然估計、EM演算法、最小二乘估計、刀切法(Jackknife)、自助法(Bootstrap)的相關內容。           點估計是引數估計的一個組成部分。

R語言機器學習學習筆記(分類演算法)(2)決策樹演算法

演算法二:決策樹演算法 決策樹定義 決策樹模型是基於特徵對例項進行分類的樹形結構。由結點和有向邊組成。結點包括內部結點和葉節點,內部結點為特徵或屬性,葉子節點表示一個類。 【優點】 模型具有可讀性,分類速度快。 以鳶尾花為例,觀察上圖,我們判決鳶尾花的思考過程可以這麼來描述:花瓣的長度

R語言機器學習學習筆記(分類演算法)(6)logistic迴歸

邏輯迴歸研究因變數Y為分類變數與多個自變數X之間的迴歸問題。隨機變數X的取值為實數,隨機變數Y的取值為1或0。常用於預測某隨機事件發生概率的大小。 Logistic迴歸問題的最優化問題可以表述為: 尋找一個非線性函式Sigmoid的最佳擬合引數,求解過程可使用最優化演

R語言時間序列學習筆記(2)

ARMA模型的引數估計方法              ARMA引數估計和前面我們介紹的點估計內容相似,也介紹矩估計與最小二乘估計兩種方法。            和上一次的點估計一樣,這一次我分享的內容主要有:矩估計,最小二乘估計,一個應用例題             關

高質量程式設計指南C++/c語言讀書筆記 第一

第一章 高質量軟體開發之道 1.1質量的定義 詞典:(1)典型或本質的特徵;(2)事物固有的或區別於其他物質的特徵或本質;(3)優秀或出色的程度。 CMM定義:(1)一個系統、元件或過程符合特定需求的

《神經網絡設計》讀書筆記第一

tails 人工 讀書筆記 進一步 結構 network 設計 消失 第一章 包括記憶在內的所有生物神經功能,都存儲在神經元及其之間的連接上。 神經網絡中關於學習的過程是 神經元之間建立新的連接或對已有連接進行修改的過程。 神經網絡的起源:M-P模型 是按照生物神經元的

《MySQL技術內幕InnoDB存儲引擎》讀書筆記 第一

內存 ndb存儲 mvcc select mysql5.0 事務 myisam 包括 插入 Mysql體系結構和存儲引擎 1.1 定義數據庫和實例   數據庫:物理操作系統文件或其他形式文件類型的集合。 數據庫文件可以使frm,MYD,MYI,ibd結尾的文件。   

隨機過程(方兆本,繆伯其)讀書筆記-第一-引論

重要 聯合 時間差 給定 函數 完全 tro markdown 狀態 第一章 引論 1.1 引言 1.1.1 基本概念和例子 定義1.1: 隨機過程就是一族隨機變量${X(t), t \in T}$, 其中$t$ 是參數, 屬於某個指標集$T$, $T$ 稱為參數集. $t

ansible for devops讀書筆記第一

class 讀書筆記 nbsp yum div username -a free gpo yum -y install ansible ansible --version mkdir /etc/ansible touch /etc/ansible/host

[Elasticsearch in Action讀書筆記]第一 Elasticsearch介紹

為什麼需要搜尋引擎 搜尋的目的是快速尋找需要的內容而不用瀏覽整個站點 搜尋結果應該是有順序的,相關度越高的結果越應該排在前面 需要提供篩選,以優化搜尋結果整體的相關性 搜尋的速度不能太慢 由於傳統的關係型資料庫無法很好地解決這類問題,所以需要引入專門的搜尋引擎。