1. 程式人生 > >《利用Python進行資料分析》筆記及案例

《利用Python進行資料分析》筆記及案例

《利用Python進行資料分析》

本書算是資料分析領域絕對經典的一本書了,動物書系列基本都是比較值得學習的範本。

針對科學計算領域的Python開源庫生態系統,在過去十幾年間得到了飛速發展,本書對剛剛接觸資料分析和統計應用的Python程式設計師,提供了集中的學習資源。本書利用Python語言,集中火力用於應對資料分析這個細分領域,對於新手來說是絕對的福音。美中不足的是,本書基於Python2來編寫的,對於Python3的支援做的不是很好。但總的來說,值得購買和細讀。

這本書值得看,但是需要不求甚解的看,不用逐行逐行的把每一個函式都看懂、更不必記下來;你只需要記得一個印象和相關術語,知道資料可以這樣匯入、清晰、合併、轉換、視覺化即可。遇到具體的問題時候,再去查詢這本書,當做一個手冊來使用。

其章節如下:

前言

CH1 準備工作

本書主要內容

為什麼要使用Python進行資料分析

重要的Python庫

安裝和設定

社群和研討會

使用本書

致謝

CH2 引言

小結及展望

CH3 IPython:一種互動式計算和開發環境

IPython基礎

內省

使用命令歷史

與作業系統互動

軟體開發工具

IPthon HTML Notebook

利用IPython提高程式碼開發效率的幾點提示

高階Python功能

致謝

CH4 Numpy基礎:陣列和向量計算

Numpy的ndarray:一種多維陣列物件

通用函式:快速的元素級陣列函式

利用陣列進行資料處理

用於陣列的檔案輸入輸出

線性代數

隨機數生成

CH5 pandas入門

pandas的資料結構介紹

基本功能

彙總和計算描述統計

處理缺失資料

層次化索引

其他有關pandas的話題

CH6 資料載入、儲存與檔案格式

讀寫文字格式的資料

二進位制資料格式

使用HTML和Web API

使用資料庫

CH7 資料規整化:清理、轉換、合併、重塑

合併資料集

重塑和軸向旋轉

資料轉換

字串操作

CH8 繪圖和視覺化

matplotlib API入門

pandas中的繪圖函式

Python圖形化工具生態系統

CH9 資料聚合與分組運算

GroupBy技術

資料聚合

分組級運算和轉換

透視表和交叉表

示例:2012聯邦選舉委員會資料庫

CH10 時間序列

日期和時間資料型別及工具

時間序列基礎

日期的範圍、頻率以及移動

時區處理

時期及其算術運算

重取樣及頻率轉換

時間序列繪圖

移動視窗函式

效能和記憶體使用方面的注意事項

CH11 金融和經濟資料應用

資料規整化方面的話題

分組變換和分析

更多示例展示

CH12 Numpy高階應用

ndarray物件的內部機理

高階陣列操作

廣播

ufunc高階應用

結構化和記錄式資料

更多有關排序的話題

Numpy的matrix類

高階陣列輸入輸出

效能建議

附錄A Python語言精要

相關推薦

利用Python進行資料分析筆記-時間序列(轉換、索引、偏移)

時間序列指能在任何能在時間上觀測到的資料。很多時間序列是有固定頻率(fixed frequency)的,意思是資料點會遵照某種規律定期出現,比如每15秒,每5分鐘,或每個月。時間序列也可能是不規律的(irregular),沒有一個固定的時間規律。如何參照時間序列

重要的Python庫(利用Python進行資料分析筆記

NumPy(Numerical Python) 快速高效的多維陣列物件ndarray 用於對陣列執行元素級計算以及直接對陣列執行數學運算的函式 線性代數運算、傅立葉變換,以及隨機數生成 用於將C、C++,Fortran程式碼整合到Python的工具

利用Python進行資料分析——筆記2

用純Python程式碼對時區進行計數 (注:原來使用pylab輸入程式碼,不太方便,就換成了Pycharm編輯器) 假設我們想要知道該資料集中最常出現的是哪個時區(即tz欄位),得到答案的辦法有很多。 import json path ='G:/python/pydata-

利用Python進行資料分析筆記案例

《利用Python進行資料分析》 本書算是資料分析領域絕對經典的一本書了,動物書系列基本都是比較值得學習的範本。 針對科學計算領域的Python開源庫生態系統,在過去十幾年間得到了飛速發展,本書對剛剛接觸資料分析和統計應用的Python程式設計師,提供了集中

利用python進行資料分析》讀書筆記案例二:全美嬰兒姓名

這份資料包含了從1880到2010年間的嬰兒名字頻率資料,其資料形式是多個txt檔案,且用逗號分隔,可以用pandas.read_csv將其載入到DataFrame中,並且用pandas.concat將所有資料都組裝到一個DataFrame。  years=range

利用Python進行資料分析——第8章繪圖視覺化——學習筆記Python3 5.0.0

matplotlib API 入門 matplotlib API 函式(如plot和close)都位於matplotlib.pyplot模組中,通常的引入方式如下: import matplotlib.pyplot as plt Figure和Subplot matplot

利用python進行資料分析》讀書筆記案例一:來自bit.ly的1.usa.gov資料

        從網上下來的資料檔案,先讀取檔案中的第一行檢視是什麼資料型別 path="usagov_data.txt" open(path).readline()          結果是:                   從上面的資料格

筆記1:利用python進行資料分析

#筆記1:利用python進行資料分析 numpy模組,各種函式等等 因為不想使用編碼軟體,所以直接文字編輯器,cmd執行結果; 提一個小技巧:cmd中複製資訊操作,右擊–》標記–》選擇需要複製的資訊(一般為白色背景)–》在複製區外右擊,之後在需要的地方-》ctrl+v 就可以了; 直

利用Python進行資料分析閱讀筆記(一)

資料規整化:清理,轉換,合併,重塑 轉置(transpose)     實現的幾種方式:  import numpy as np arr = np.arange(15).reshape((3,5)) print(arr) print(arr.T) pri

利用Python進行資料分析【01】-資料型別結構

Python資料型別詳解 Python基本資料型別一般分為:數字、字串、列表、元組、字典、集合這六種基本資料型別。下面分別來介紹這幾種資料型別基本用法。 目錄 數字—>int 類 字串 —>str類 列表—>list類 元組—>tupl

Python--學習筆記2 常用庫 <利用Python進行資料分析>

numpy   科學計算包:多維陣列物件;數學運算函式;隨機數;傅立葉變換   可以作為演算法之間傳遞資料的容器。 pandas   快速處理結構化資料和函式。   dataframe, 面向列的二維表結構,含有行標和列標。 matplotliba &nb

利用Python進行資料分析筆記

第七章----->最後資料的準備:載入、清理、轉換、重塑合併資料集pandas物件中的資料可以通過內建的方式進行合併資料庫風格的dataframe合併合併(merge)或連線(join)索引上的合併可以傳入left_index=True或right_index=True

初入資料分析2(《利用Python進行資料分析·第2版》筆記

初入資料分析2 遍歷 seq=[(1,2,3),(4,5,6),(7,8,9)] for a,b,c in seq: print("a==",a,"b==",b,"c==",c) a== 1 b== 2 c== 3 a== 4 b== 5 c== 6 a==

Numpy基礎 --陣列和向量計算 利用Python進行資料分析讀書筆記

Numpy 陣列和向量計算 程式碼下載 import numpy as np #ndarray物件 陣列 NumPy陣列 建立ndarray data1=[6,7.5,8,0,1] arr1=np.array(data1) a

資料集合與分組運算 《利用python進行資料分析筆記,第9章

pandas的groupby功能,可以計算 分組統計和生成透視表,可對資料集進行靈活的切片、切塊、摘要等操作 GroupBy技術 “split-apply-comebine”(拆分-應用-合併) import numpy as np from pand

轉載]利用Python進行資料分析——繪圖和視覺化 xticks-學習筆記

matplotlib是一個用於創建出版質量圖表的桌面繪圖包(主要是2D方面)。該專案是由John Hunter於2002年啟動的,其目的是為Python構建一個MATLAB式的繪圖介面。如果結合使用一種GUI工具包(如IPython),matplotlib還具有諸如縮放和平移等互動功能。它不僅支援各種作業系

利用Python進行資料分析》第二版,第二章精選筆記

因為這本書是專注於Python資料處理的,對於一些Python的資料結構和庫的特性難免不足。因此,本章和第3章的內容只夠你能學習本書後面的內容。 在我來看,沒有必要為了資料分析而去精通Python。我鼓勵你使用IPython shell和Jupyter試驗示例

利用python進行資料分析學習筆記-Pandas篇

無論如何,堅持啊! pandas的資料結構 Series obj = Series([]) #產生一個Series obj = Series({})#可以通過引入一個dict來建立一個Series 包括values和index兩個屬性,而valu

利用Python進行資料分析》第一章讀書筆記

一、重要的Python庫 1. NumPy(Python科學計算的基礎包) 2. pandas(本書用得最多pandas物件是DataFrame) 3. matplotlib(繪製資料圖表得Python庫) 4. IPython(目的是提

利用Python進行資料分析》第三章筆記

第三章IPython 1.在IPython環境中輸入一個東西后按TAB鍵可顯示自動完成功能 2.IPython會自動隱藏以下劃線開頭的方法和屬性,若要輸出自己必須先輸入一個下劃線後按TAB即可 3.TAB鍵還可以查詢檔案:例如 D:/(按TAB鍵可顯示D盤檔案) 4.物件內