1. 程式人生 > >資料分析——練習筆記(一)

資料分析——練習筆記(一)

通過實戰練習,學會用pandas做資料分析

案例一    探索Chipotle快餐資料

1、匯入庫

import pandas as pd

2、匯入資料集

path1 = "../input/pandas_exercise/exercise_data/chipotle.tsv"    # chipotle.tsv

3、將資料集存入一共名為chipo的資料框中

chipo = pd.read_csv(path1)

4、檢視前10行內容

chipo.head(10)


5、資料集中有多少個列

chipo.shape[1]

df.shape        #返回tuple (行,列)

6、打印出全部的列名稱

chipo.columns

df.columns        #列名,返回index型別的列的集合

7、資料集的索引是怎樣的

chipo.index

  df.index        #索引名,返回index型別的索引的集合

8、被下單最多商品是什麼

chipo[['item_name', 'quantity']].groupby(['item_name', as_index=False).agg({'quantity':sum})
c.sort_value(['quantity'], ascending=False, inplace=True)
c.head()

    groupby函式的as_index引數

    首先看一下pandas官方給出的groupby函式,可以看到預設值為as_index=True

    groupby()中的形參可用help(df.groupby)檢視

groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

  下面部分是從https://stackoverflow.com/questions/41236370/what-is-as-index-in-groupby-in-pandas搬運

import pandas as pd
 
df = pd.DataFrame(data={'books':['bk1','bk1','bk1','bk2','bk2','bk3'], 'price': [12,12,12,15,15,17]})
print df
print
print df.groupby('books', as_index=True).sum()
print
print df.groupby('books', as_index=False).sum()

   Output:注意兩次print輸出中‘book’和‘price’的位置

  books  price
0   bk1     12
1   bk1     12
2   bk1     12
3   bk2     15
4   bk2     15
5   bk3     17
 
       price
books       
bk1       36
bk2       30
bk3       17
 
  books  price
0   bk1     36
1   bk2     30
2   bk3     17

9、在item_name這一列中,一共有多少種商品被下單

chipo['item_name'].unique()

  s.unique()        #Series去重

10、在choice_description中,下單次數最多的商品是什麼?

chipo['choice_description'].value_counts().head()

  s.value_counts()        #Series統計頻率,並從大到小排序,DataFrame沒有這個方法

11、一共有多少商品被下單?

chipo['quantity'].sum()

12、將item_price轉換為浮點數

13、在改資料集對應的時期內,收入(revenue)是多少

14、在該資料及對應的時期內,一共有多少訂單?

15、每一單(order)對應的平均總價是多少

16、一共有多少種不同的商品被售出?

相關推薦

資料分析——練習筆記

通過實戰練習,學會用pandas做資料分析案例一    探索Chipotle快餐資料1、匯入庫import pandas as pd2、匯入資料集path1 = "../input/pandas_exercise/exercise_data/chipotle.tsv"

利用Python進行資料分析閱讀筆記

資料規整化:清理,轉換,合併,重塑 轉置(transpose)     實現的幾種方式:  import numpy as np arr = np.arange(15).reshape((3,5)) print(arr) print(arr.T) pri

04# 資料分析 學習筆記

二、R的讀寫 讀資料  ---read.table('tablename')  或者 read.csv('tablename')      read.tabls('school.c

資料Hadoop學習筆記

大資料Hadoop2.x hadoop用來分析儲存網路資料 MapReduce:對海量資料的處理、分散式。 思想————> 分而治之,大資料集分為小的資料集,每個資料集進行邏輯業務處理合並統計資料結果(reduce) 執行模式:本地模式和yarn模式 input—

spark快速大資料分析學習筆記1

本文是《spark快速大資料分析學習》第三章學習筆記,文中大量摘抄書中原本,僅為個人學習筆記。 RDD基礎: RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽,這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。 建立RDD的方式:

python進階之資料分析與展示

資料分析之前奏 Anaconda IDE的使用方法 一個數據表達一個含義,一組資料表達一個或多個含義。 摘要 有損地提取資料特徵的過程。 基本統計(含排序)。 分佈/累計統計。 資料特徵。 相關性、

電商大資料分析平臺專案專案框架

開發可以在web專案中內嵌的js sdk。每當使用者瀏覽到網站頁面或者觸發某種事件時,會呼叫js程式碼,根據使用者cookie傳送一個session資訊這時到我們的nginx伺服器中。 nginx伺服器在接收到傳送的session後會將其寫入日誌檔案中記錄下來,這時監聽日誌檔案的flume會將session

資料結構複習筆記——靜態順序表C語言

定義結構體 typedef struct{ int data[MAXSIZE]; //MAXSIZE為最大容量 int length; //當前長度 } Array; 建立順序表 /* 需要接受一個已知的陣列,以及該陣列的長度 按順序將陣列內的值,賦給順

Python資料分析學習筆記1numpy模組基礎入門

        numpy模組可以進行高效的資料處理,並提供了陣列的支援,很多模組都依賴他,比如pandas、scipy、matplotlib等,因此這個模組是基礎。 (1)匯入: import numpy (2)建立一維和二維陣列: #建立一維陣列 x=numpy.

Python資料分析學習筆記6資料規約實戰--以主成分分析PCA為例

一、相關理論: 1、資料規約:產生更小且保持資料完整性的新資料集。意義在於降低無效、錯誤資料;降低儲存成本;少量且具有代表性的資料大幅加快,主要分為以下兩類: ①屬性規約:屬性合併或刪除無關維,目標是尋找最小子集使子集概率分佈儘可能與原來相同。     常用方法: (

資料結構學習筆記

一.陣列       陣列用一塊連續的記憶體空間,來儲存形同型別的一組資料,最大的特點就是支援隨機訪問,但插入,刪除操作也因此變得比較低效(為了保持記憶體資料的連續性),平均情況時間複雜度為O(n)。在平時的業務開發中,我們

看到這些,做好資料分析並不難

很多人在還沒真正接觸資料分析工作的時候認為資料分析工作都是比較難的,其實並非如此,資料分析工作如果按照步驟工作的話就是一個非常順利的事情。資料是非常的客觀的,但是資料的內容需要大家去挖掘資料中的價值,這樣我們的工作才有意義。那麼大家知道不知道資料分析的步驟是什麼呢?具體的內容就是明確目

資料分析學習方向

很多人看到了資料分析行業的火爆形勢,於是就想進入資料分析行業.他們在學習資料分析知識的時候可能有點迷茫,這是因為資料分析知識有很多內容,不知道如何去學習或者不知道從何處下手。今天我們中給大家介紹一系列的資料分析的學習方向,希望這篇文章能夠給大家帶來幫助。  資料分析這四個字讓人們覺得這是一個高

如何明確資料分析的方法

當我們在進行資料分析中,我們需要保證資料分析框架的體系化,這是因為資料分析是需要很強的邏輯性。如果要做好資料分析工作,就需要讓每一個步驟都具有層次感。現在很多的企業都在使用資料分析,他們主要是以營銷、管理等理論為指導,結合實際業務情況,搭建分析框架,這樣才能儘量確保資料分析維度的完整性,結果的有效性及正確

資料分析學習筆記-- 股價分析

本例子,通過numpy分析股價 csv檔案讀寫 CSV(Comma-Separated Value,逗號分隔值)是一種常見的檔案格式,通常資料庫的轉存檔案就是csv格式,檔案中的各個欄位對應於資料庫表中的列。 這裡有一份csv格式的檔案,本文一該檔案資

資料結構複習筆記:書籍《資料結構》劉大有版更新中。。。

資料結構是指由若干資料成分按照一定方式構成的符合資料以及作用於其上的函式或運算。 資料成分及其間的資料約束關係合稱為資料結構的邏輯結構。 有些人也認為資料結構應由資料的邏輯結構、資料的儲存結構及其運算(操作:查詢、刪除、遍歷等)三部分組成。  1.1資料的邏輯

資料結構學習筆記基礎概念

1、資料(Data)和      資料是外部世界資訊的載體,是描述客觀事物的符號,它能夠被計算機識別、儲存和加工處理,是計算機程式加工的原料。計算機程式處理各種各樣的資料,可以是數值資料,如整數、實數或複數;也可以是非數值資料,如字元、文字、圖形、影象、聲音等。 2、

NDIS截獲資料包學習筆記

  網路驅動程式介面規範(NDIS)是微軟為網路介面卡(NIC)的區域網驅動程式提供的一種標準應用程式介面(API)。NDIS 適用於伺服器或工作站。NDIS 標準支援計算機通過不同的通訊協議與網路相連,如:TCP/IP、IPX、NetBIOS、AppleTalk 等。  

《Python資料分析與挖掘實戰》筆記資料探勘基礎

一、資料探勘的基本任務 利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智慧推薦等方法,幫助企業提取資料中蘊含的商業價值,提升企業的競爭力。 二、資料探勘建模過程 定義挖掘目標:任務目標和完

《商業資料分析》讀書筆記

前言   1.介紹:資料分析思考 資料機會的普遍存在 案例:法國颶風 案例:預測客戶流失 資料科學,工程,和資料驅動決策制定 資料處理和“大資料” 從大資料1.0到大資料2.0 作為戰略資產的資料和資料科學能力 資料分析思考 這本書 資料探勘