1. 程式人生 > >【MOOC】Python資料分析與展示-北京理工大學-【第三週】資料分析之概要

【MOOC】Python資料分析與展示-北京理工大學-【第三週】資料分析之概要

概要:提取資料的基本特徵

這裡寫圖片描述

單元7:pandas庫入門

Pandas是Python第三方庫,提供高效能易用資料型別和分析工具,Pandas基於NumPy實現,常與NumPy和Matplotlib一同使用。

常用引用方法:

import pandas as pd

7.1對pandas庫的理解

與numpy的區別
這裡寫圖片描述

該庫基於numpy提供了兩個新的資料型別:Series, DataFrame

基於上述資料型別有各類操作:基本操作、運算操作、特徵類操作、關聯類操作

7.2 Series型別(一維)

Series型別由一組資料及與之相關的資料索引組成

這裡寫圖片描述

例項1:
這裡寫圖片描述

例項2:
這裡寫圖片描述

Series型別可以由如下型別建立:
• Python列表,index與列表元素個數一致
• 標量值,index表達Series型別的尺寸
• Python字典,鍵值對中的“鍵”是索引,index從字典中進行選擇操作
• ndarray,索引和資料都可以通過ndarray型別建立
• 其他函式,range()函式等

例項:
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

如何理解該型別

Series是一維帶“標籤”陣列(Series型別包括index和values兩部分)

index_0 —–> data_a**(索引 與 值 一一對應)**

Series基本操作類似ndarray和字典

,根據索引對齊進行運算(而不是像numpy一般基於維度進行運算)

Series型別的基本操作

  1. 使用 .index 獲取索引,使用 .value 獲取資料
    這裡寫圖片描述

2.自動索引 與 自定義索引並存(但不能混合使用
這裡寫圖片描述

3.Series型別的操作類似ndarray型別:

• 索引方法相同,採用[]

• NumPy中運算和操作可用於Series型別(運算和操作結果仍然是Series型別)

• 可以通過自定義索引的列表進行切片(切片後的結果仍然是Series型別)

• 可以通過自動索引進行切片,如果存在自定義索引,則一同被切片(切片後的結果仍然是Series型別)

這裡寫圖片描述

4.Series型別的操作類似Python字典型別:

• 通過自定義索引訪問

• 保留字in操作(只會判斷自定義索引,不會判斷自動索引)

• 使用.get()方法

這裡寫圖片描述

5.Series型別的對齊問題:

這裡寫圖片描述

Series型別在運算中會自動對齊不同索引的資料

6.Series型別的.name屬性:

Series物件和索引都可以有一個名字,儲存在屬性.name中

這裡寫圖片描述

7.Series型別的修改:

Series物件可以隨時修改並即刻生效

這裡寫圖片描述

7.3 DataFrame型別(二維)

DataFrame型別由共用相同索引的一組列組成

這裡寫圖片描述

axis =0 /axis = 1的介紹
這裡寫圖片描述

DataFrame是一個表格型的資料型別,每列值型別可以不同(類似於Excel)

DataFrame既有行索引、也有列索引

DataFrame常用於表達二維資料,但可以表達多維資料

建立DataFrame型別

DataFrame型別可以由如下型別建立:

• 二維ndarray物件

• 由一維ndarray、列表、字典、元組或Series構成的字典

• Series型別

• 其他的DataFrame型別

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

例項分析:

這裡寫圖片描述

這裡寫圖片描述

對DataFrame的理解

DataFrame是二維帶“標籤”陣列,DataFrame基本操作類似Series,依據行列索引
這裡寫圖片描述

7.4 pandas的資料型別操作

資料型別操作 <– 等價–> 如何改變Series和DataFrame物件?

->增加或重排:重新索引

->刪除:drop

重新索引

.reindex()能夠改變或重排Series和DataFrame索引

這裡寫圖片描述

引數解釋

這裡寫圖片描述

關於索引

Series和DataFrame的索引是Index型別,Index物件是不可修改型別

這裡寫圖片描述

index型別的常用方法
這裡寫圖片描述

這裡寫圖片描述

pandas通過操作索引來操作dataframe的資料集。

panda通過索引來實現對一組資料的操作。

刪除指定索引物件

.drop()能夠刪除Series和DataFrame指定行或列索引

這裡寫圖片描述

刪除列時要指定axis=1(預設axis=0)

7.5 pandas的資料型別運算

算術運演算法則:

算術運算根據行列索引,補齊後運算,運算預設產生浮點數

補齊時缺項填充NaN (空值)

二維和一維、一維和零維間為廣播運算*(低維物件元素會作用到高維物件的每一個元素)*

採用+ ‐ * /符號進行的二元運算產生新的物件

這裡寫圖片描述

方法形式的運算

方法形式的運算可通過指定引數避免上面的NaN的產生

這裡寫圖片描述

這裡寫圖片描述

廣播運算例項:

這裡寫圖片描述
這裡寫圖片描述

比較運演算法則:

比較運算只能比較相同索引的元素,不進行補齊

二維和一維、一維和零維間為廣播運算

採用> < >= <= == !=等符號進行的二元運算產生布爾物件

這裡寫圖片描述

這裡寫圖片描述

單元小結

這裡寫圖片描述

單元8:pandas資料特徵分析

8.1資料排序

.sort_index()方法在指定軸上根據索引進行排序,預設升序

這裡寫圖片描述

這裡寫圖片描述

.sort_values()方法在指定軸上根據數值進行排序,預設升序

使用方式:

Series.sort_values(axis=0, ascending=True)

DataFrame.sort_values(by, axis=0, ascending=True)
#by : axis軸上的某個索引或索引列表

這裡寫圖片描述

排序時,NaN永遠都是在排序結果末尾(不管是升序 還是 降序)
這裡寫圖片描述

8.2 資料的基本統計

基本統計函式
這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

describe函式例項
這裡寫圖片描述

這裡寫圖片描述

8.3 資料的累計統計分析

基本函式1:

這裡寫圖片描述

這裡寫圖片描述

基本函式2:

這裡寫圖片描述

這裡寫圖片描述

8.4 資料的相關分析

兩個事物,表示為X和Y,協方差可判斷它們之間的相關性:

這裡寫圖片描述

• 協方差>0, X和Y正相關( X增大,Y增大)
• 協方差<0, X和Y負相關(X增大,Y減小)
• 協方差=0, X和Y獨立無關(X增大,Y無視)

兩個事物,表示為X和Y,如何判斷它們之間的存在相關性?

這裡寫圖片描述

r取值範圍[‐1,1]
…….r …………相關性
• 0.8‐1.0 極強相關
• 0.6‐0.8 強相關
• 0.4‐0.6 中等程度相關
• 0.2‐0.4 弱相關
• 0.0‐0.2 極弱相關或無相關

這裡寫圖片描述

例項:房價增幅與M2增幅的相關性
這裡寫圖片描述

單元小結

這裡寫圖片描述

相關推薦

MOOCPython資料分析展示-北京理工大學-〇周資料分析前奏

課程內容導學 主題思想 與一組資料相關的那些事兒: 如何理解一組資料表達的含義 有損地提取資料特徵 內容組織 全課程包括: • 8個內容單元,共12個單元 • 全課程總長4周,每週3個單元 • 每週包含一個實戰型例項 程式

MOOCPython資料分析展示-北京理工大學-第一資料分析表示

單元一:NumPy庫入門 1.1 資料的維度 維度:一組資料的組織形式 一維資料 一維資料由對等關係的有序或無序資料構成,採用線性方式組織,對應列表、陣列和集合等概念 如:3.1413, 3.1398, 3.1404, 3.1401, 3.13

MOOCPython資料分析展示-北京理工大學-資料分析概要

概要:提取資料的基本特徵 單元7:pandas庫入門 Pandas是Python第三方庫,提供高效能易用資料型別和分析工具,Pandas基於NumPy實現,常與NumPy和Matplotlib一同使用。 常用引用方法: import pandas

MOOCPython資料分析展示-北京理工大學-第二資料分析展示

單元4:matplotlib庫入門 寫在前面:matplotlib庫非常複雜,我們沒必要花時間去學習所有函式,對於該庫,應該採用:根據我們已有的資料,查詢文件或搜尋,來即時選擇可實現目的的函式,以實踐指導理論學習。 Matplotlib庫由各種視覺化類構

學習筆記+思維導圖+翻譯

【學習筆記】一丶概念結構設計1.首先就是需要了解概念模型分為以下四個特點:(1)能真實充分地反映現實世界(2) 易於理解(3)易於更改(4)易於向關係、網狀、層次等各種資料模型轉換2. 接下來就是重點來理解一下E-R模型E-R模型分為一下三種概念:(1)兩個實體型之間的聯絡(

python基本資料型別,字元,字串,time庫,format()

目錄 整數型別: 複數型別: 整數型別: 沒有取數範圍限制, 二進位制以0b或0B開頭;八進位制以0o或0O開頭;十六進位制以0x或0X開頭 浮點數型別: 取值範圍數量級約為-10^308至10^308,精度數量為10^-16. 浮點數

:Excel分析

Excel常用於敏捷,快速,需要短時間相應的場景下是非常便捷的資料處理工具。 相對於語言類例如python和R等則用於常規的,規律的場景中應用,便於形成日常規則統計分析。 對於學習的路徑:Excel函式--->SQL函式------>python 必知必會內容:保證使用版本是2013+;培養

Coursera概率圖模型(Probabilistic Graphical Models)程式設計作業分析

Markov Networks for OCR 光學字元識別的馬爾科夫網路   說到光學字元識別(OCR),此前筆者首先想到的會是卷積神經網路,而單詞識別則會考慮使用遞迴神經網路。而本週的作業則基於馬爾科夫網路構建了一個較為基礎OCR系統,目的也主要是讓我們對馬爾科夫網路有個感

程式設計演算法(一)測驗

8:奧運獎牌計數 描述 2008年北京奧運會,A國的運動員參與了n天的決賽專案(1≤n≤17)。現在要統計一下A國所獲得的金、銀、銅牌數目及總獎牌數。2008年北京奧運會,A國的運動員參與了n天的決賽專案(1≤n≤17)。現在要統計一下A國所獲得的金、銀、銅牌

Python資料分析展示(二)(基於北理MOOC

Numpy庫入門 Python資料分析與展示 1.1.2ndarray陣列的變換 對於建立後的ndarray陣列,可以對其進行維度變換和元素型別變換 a = np.ones((2,3,4), dtype=np.int32) ndarray陣列的維度變

Python資料分析展示(一)(基於北理MOOC

NumPy庫入門 Python資料分析與展示 .掌握表示、清洗、統計和展示資料的能力 1.1.1資料的維度 NumPy的主要物件是齊次多維陣列。它是一個元素表(通常是數字),所有相同的型別,由正整數的元組索引。在NumPy維度被稱為軸。軸的數量是等級。

Python 資料分析展示筆記4 -- Pandas 庫基礎

Python 資料分析與展示筆記4 – Pandas 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: Numpy 官方文件(英文) Numpy 官方文件(中文) P

Python 資料分析展示筆記3 -- Matplotlib 庫基礎

Python 資料分析與展示筆記3 – Matplotlib 庫基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: Numpy 官方文件(英文) Numpy 官方文件(中

Python 資料分析展示筆記2 -- 影象手繪效果

Python 資料分析與展示筆記2 – 影象手繪效果 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: Numpy 官方文件(英文) Numpy 官方文件(中文) PIL 官

Python 資料分析展示筆記1 -- Numpy 基礎

Python 資料分析與展示筆記1 – NumPy 基礎 Python 資料分析與展示系列筆記是筆者學習、實踐Python 資料分析與展示的相關筆記 課程連結: Python 資料分析與展示 參考文件: NumPy 官方文件(英文) NumPy 官方文件(中文) PIL

python進階資料分析展示

資料分析之表示 資料存取與函式 資料的CSV檔案存取 CSV (Comma‐Separated Value, 逗號分隔值) CSV是一種常見的檔案格式,用來儲存批量資料。 np.savetxt(frame, array, fmt=’%.

python進階資料分析展示(二)

資料分析之表示 NumPy庫入門 資料的維度 一維資料 一維資料由對等關係的有序或無序資料構成,採用線性方式組織。 例如:3.1413, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376。 對應列

python進階資料分析展示(一)

資料分析之前奏 Anaconda IDE的使用方法 一個數據表達一個含義,一組資料表達一個或多個含義。 摘要 有損地提取資料特徵的過程。 基本統計(含排序)。 分佈/累計統計。 資料特徵。 相關性、

北京理工python資料分析展示課單元二總結

一、檔案讀取與儲存: 1:savetxt()與loadtxt()函式 import numpy as np numpy.savetxt(frame, array, fmt='%.18e',

MOOCPython網路爬蟲資訊提取-北京理工大學-part 4

網路爬蟲之框架 1.scrapy爬蟲框架介紹 1.1.scrapy爬蟲框架介紹 安裝方法: 簡要地說,Scrapy不是一個函式功能庫,而是一個快速功能強大的網路爬蟲框架。 (爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合,是一個半成品,