【MOOC】Python資料分析與展示-北京理工大學-【第三週】資料分析之概要
概要:提取資料的基本特徵
單元7:pandas庫入門
Pandas是Python第三方庫,提供高效能易用資料型別和分析工具,Pandas基於NumPy實現,常與NumPy和Matplotlib一同使用。
常用引用方法:
import pandas as pd
7.1對pandas庫的理解
與numpy的區別
該庫基於numpy提供了兩個新的資料型別:Series, DataFrame
基於上述資料型別有各類操作:基本操作、運算操作、特徵類操作、關聯類操作
7.2 Series型別(一維)
Series型別由一組資料及與之相關的資料索引組成
例項1:
例項2:
Series型別可以由如下型別建立:
• Python列表,index與列表元素個數一致
• 標量值,index表達Series型別的尺寸
• Python字典,鍵值對中的“鍵”是索引,index從字典中進行選擇操作
• ndarray,索引和資料都可以通過ndarray型別建立
• 其他函式,range()函式等
例項:
如何理解該型別
Series是一維帶“標籤”陣列(Series型別包括index和values兩部分)
index_0 —–> data_a**(索引 與 值 一一對應)**
Series基本操作類似ndarray和字典
Series型別的基本操作
- 使用 .index 獲取索引,使用 .value 獲取資料
2.自動索引 與 自定義索引並存(但不能混合使用)
3.Series型別的操作類似ndarray型別:
• 索引方法相同,採用[]
• NumPy中運算和操作可用於Series型別(運算和操作結果仍然是Series型別)
• 可以通過自定義索引的列表進行切片(切片後的結果仍然是Series型別)
• 可以通過自動索引進行切片,如果存在自定義索引,則一同被切片(切片後的結果仍然是Series型別)
4.Series型別的操作類似Python字典型別:
• 通過自定義索引訪問
• 保留字in操作(只會判斷自定義索引,不會判斷自動索引)
• 使用.get()方法
5.Series型別的對齊問題:
Series型別在運算中會自動對齊不同索引的資料
6.Series型別的.name屬性:
Series物件和索引都可以有一個名字,儲存在屬性.name中
7.Series型別的修改:
Series物件可以隨時修改並即刻生效
7.3 DataFrame型別(二維)
DataFrame型別由共用相同索引的一組列組成
axis =0 /axis = 1的介紹
DataFrame是一個表格型的資料型別,每列值型別可以不同(類似於Excel)
DataFrame既有行索引、也有列索引
DataFrame常用於表達二維資料,但可以表達多維資料
建立DataFrame型別
DataFrame型別可以由如下型別建立:
• 二維ndarray物件
• 由一維ndarray、列表、字典、元組或Series構成的字典
• Series型別
• 其他的DataFrame型別
例項分析:
對DataFrame的理解
DataFrame是二維帶“標籤”陣列,DataFrame基本操作類似Series,依據行列索引
7.4 pandas的資料型別操作
資料型別操作 <– 等價–> 如何改變Series和DataFrame物件?
->增加或重排:重新索引
->刪除:drop
重新索引
.reindex()能夠改變或重排Series和DataFrame索引
引數解釋
關於索引
Series和DataFrame的索引是Index型別,Index物件是不可修改型別
index型別的常用方法
pandas通過操作索引來操作dataframe的資料集。
panda通過索引來實現對一組資料的操作。
刪除指定索引物件
.drop()能夠刪除Series和DataFrame指定行或列索引
刪除列時要指定axis=1(預設axis=0)
7.5 pandas的資料型別運算
算術運演算法則:
算術運算根據行列索引,補齊後運算,運算預設產生浮點數
補齊時缺項填充NaN (空值)
二維和一維、一維和零維間為廣播運算*(低維物件元素會作用到高維物件的每一個元素)*
採用+ ‐ * /符號進行的二元運算產生新的物件
方法形式的運算
方法形式的運算可通過指定引數避免上面的NaN的產生
廣播運算例項:
比較運演算法則:
比較運算只能比較相同索引的元素,不進行補齊
二維和一維、一維和零維間為廣播運算
採用> < >= <= == !=等符號進行的二元運算產生布爾物件
單元小結
單元8:pandas資料特徵分析
8.1資料排序
.sort_index()方法在指定軸上根據索引進行排序,預設升序
.sort_values()方法在指定軸上根據數值進行排序,預設升序
使用方式:
Series.sort_values(axis=0, ascending=True)
DataFrame.sort_values(by, axis=0, ascending=True)
#by : axis軸上的某個索引或索引列表
排序時,NaN永遠都是在排序結果末尾(不管是升序 還是 降序)
8.2 資料的基本統計
基本統計函式
describe函式例項
8.3 資料的累計統計分析
基本函式1:
基本函式2:
8.4 資料的相關分析
兩個事物,表示為X和Y,協方差可判斷它們之間的相關性:
• 協方差>0, X和Y正相關( X增大,Y增大)
• 協方差<0, X和Y負相關(X增大,Y減小)
• 協方差=0, X和Y獨立無關(X增大,Y無視)
兩個事物,表示為X和Y,如何判斷它們之間的存在相關性?
r取值範圍[‐1,1]
…….r …………相關性
• 0.8‐1.0 極強相關
• 0.6‐0.8 強相關
• 0.4‐0.6 中等程度相關
• 0.2‐0.4 弱相關
• 0.0‐0.2 極弱相關或無相關
例項:房價增幅與M2增幅的相關性
單元小結
相關推薦
【MOOC】Python資料分析與展示-北京理工大學-【第〇周】資料分析之前奏
課程內容導學 主題思想 與一組資料相關的那些事兒: 如何理解一組資料表達的含義 有損地提取資料特徵 內容組織 全課程包括: • 8個內容單元,共12個單元 • 全課程總長4周,每週3個單元 • 每週包含一個實戰型例項 程式
【MOOC】Python資料分析與展示-北京理工大學-【第一週】資料分析之表示
單元一:NumPy庫入門 1.1 資料的維度 維度:一組資料的組織形式 一維資料 一維資料由對等關係的有序或無序資料構成,採用線性方式組織,對應列表、陣列和集合等概念 如:3.1413, 3.1398, 3.1404, 3.1401, 3.13
【MOOC】Python資料分析與展示-北京理工大學-【第三週】資料分析之概要
概要:提取資料的基本特徵 單元7:pandas庫入門 Pandas是Python第三方庫,提供高效能易用資料型別和分析工具,Pandas基於NumPy實現,常與NumPy和Matplotlib一同使用。 常用引用方法: import pandas
【MOOC】Python資料分析與展示-北京理工大學-【第二週】資料分析之展示
單元4:matplotlib庫入門 寫在前面:matplotlib庫非常複雜,我們沒必要花時間去學習所有函式,對於該庫,應該採用:根據我們已有的資料,查詢文件或搜尋,來即時選擇可實現目的的函式,以實踐指導理論學習。 Matplotlib庫由各種視覺化類構
【第三週】學習筆記+思維導圖+翻譯
【學習筆記】一丶概念結構設計1.首先就是需要了解概念模型分為以下四個特點:(1)能真實充分地反映現實世界(2) 易於理解(3)易於更改(4)易於向關係、網狀、層次等各種資料模型轉換2. 接下來就是重點來理解一下E-R模型E-R模型分為一下三種概念:(1)兩個實體型之間的聯絡(
python第三週基本資料型別,字元,字串,time庫,format()
目錄 整數型別: 複數型別: 整數型別: 沒有取數範圍限制, 二進位制以0b或0B開頭;八進位制以0o或0O開頭;十六進位制以0x或0X開頭 浮點數型別: 取值範圍數量級約為-10^308至10^308,精度數量為10^-16. 浮點數
第三週:Excel分析
Excel常用於敏捷,快速,需要短時間相應的場景下是非常便捷的資料處理工具。 相對於語言類例如python和R等則用於常規的,規律的場景中應用,便於形成日常規則統計分析。 對於學習的路徑:Excel函式--->SQL函式------>python 必知必會內容:保證使用版本是2013+;培養
Coursera概率圖模型(Probabilistic Graphical Models)第三週程式設計作業分析
Markov Networks for OCR 光學字元識別的馬爾科夫網路 說到光學字元識別(OCR),此前筆者首先想到的會是卷積神經網路,而單詞識別則會考慮使用遞迴神經網路。而本週的作業則基於馬爾科夫網路構建了一個較為基礎OCR系統,目的也主要是讓我們對馬爾科夫網路有個感
程式設計與演算法(一)第三週測驗
8:奧運獎牌計數 描述 2008年北京奧運會,A國的運動員參與了n天的決賽專案(1≤n≤17)。現在要統計一下A國所獲得的金、銀、銅牌數目及總獎牌數。2008年北京奧運會,A國的運動員參與了n天的決賽專案(1≤n≤17)。現在要統計一下A國所獲得的金、銀、銅牌
Python資料分析與展示(二)(基於北理MOOC)
Numpy庫入門 Python資料分析與展示 1.1.2ndarray陣列的變換 對於建立後的ndarray陣列,可以對其進行維度變換和元素型別變換 a = np.ones((2,3,4), dtype=np.int32) ndarray陣列的維度變
Python資料分析與展示(一)(基於北理MOOC)
NumPy庫入門 Python資料分析與展示 .掌握表示、清洗、統計和展示資料的能力 1.1.1資料的維度 NumPy的主要物件是齊次多維陣列。它是一個元素表(通常是數字),所有相同的型別,由正整數的元組索引。在NumPy維度被稱為軸。軸的數量是等級。
Python 資料分析與展示筆記4 -- Pandas 庫基礎
Python 資料分析與展示筆記4 – Pandas 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: Numpy 官方文件(英文) Numpy 官方文件(中文) P
Python 資料分析與展示筆記3 -- Matplotlib 庫基礎
Python 資料分析與展示筆記3 – Matplotlib 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: Numpy 官方文件(英文) Numpy 官方文件(中
Python 資料分析與展示筆記2 -- 影象手繪效果
Python 資料分析與展示筆記2 – 影象手繪效果 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: Numpy 官方文件(英文) Numpy 官方文件(中文) PIL 官
Python 資料分析與展示筆記1 -- Numpy 基礎
Python 資料分析與展示筆記1 – NumPy 基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: NumPy 官方文件(英文) NumPy 官方文件(中文) PIL
python進階之資料分析與展示(三)
資料分析之表示 資料存取與函式 資料的CSV檔案存取 CSV (Comma‐Separated Value, 逗號分隔值) CSV是一種常見的檔案格式,用來儲存批量資料。 np.savetxt(frame, array, fmt=’%.
python進階之資料分析與展示(二)
資料分析之表示 NumPy庫入門 資料的維度 一維資料 一維資料由對等關係的有序或無序資料構成,採用線性方式組織。 例如:3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376。 對應列
python進階之資料分析與展示(一)
資料分析之前奏 Anaconda IDE的使用方法 一個數據表達一個含義,一組資料表達一個或多個含義。 摘要 有損地提取資料特徵的過程。 基本統計(含排序)。 分佈/累計統計。 資料特徵。 相關性、
北京理工python資料分析與展示課單元二總結
一、檔案讀取與儲存: 1:savetxt()與loadtxt()函式 import numpy as np numpy.savetxt(frame, array, fmt='%.18e',
【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 4
網路爬蟲之框架 1.scrapy爬蟲框架介紹 1.1.scrapy爬蟲框架介紹 安裝方法: 簡要地說,Scrapy不是一個函式功能庫,而是一個快速功能強大的網路爬蟲框架。 (爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合,是一個半成品,