《利用python進行資料分析》————2012年聯邦選舉委員會資料庫

阿新 • • 發佈：2018-11-27

[本次資料分析所用到的資料集連結]
(http://github.com/wesm/pydata-book)

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
fec = pd.read_csv('datasets/fec/P00000001-ALL.csv') #載入資料
print(fec.info())
print(fec.iloc[123456])
unique_cands = fec.cand_nm.unique() #使用unique獲得所有不同的政治候選人名單
parties = {'Bachmann, Michelle':'Republican',
           'Cain, Herman':'Republican',
           'Gingrich, Newt':'Republican',
           'Huntsman, Jon':'Republican',
           'John, Gary Earl':'Republican',
           'McCotter, Thaddeus G':'Republican',
           'Obama, Barack':'Democrat',
           'Paul, Ron':'Republican',
           'Pawlenty, Timothy':'Republican',
           'Perry, Rick':'Republican',
           "Roemer, Charles E. 'Buddy' III":'Republican',
           'Romney, Mitt':'Republican',
           'Santorum, Rick':'Republican'}  #表示政黨背景的方式之一是使用相應的字典
print(fec.cand_nm[123456:123461].map(parties)) #從候選人姓名中計算出政黨的陣列
fec['party'] = fec.cand_nm.map(parties) #將它作為一列加入
print(fec['party'].value_counts())
print((fec.contb_receipt_amt > 0).value_counts()) #資料準備的要點，這些資料既包括捐款也包括退款
fec = fec[fec.contb_receipt_amt > 0] #將分析範圍限制在正向貢獻中
fec_mrbo = fec[fec.cand_nm.isin(['Obama, Barack','Romney, Mitt'])] #由於Barack Obama和Mitt Romney是主要的兩位候選人，所以準備一個僅對他們的競選有貢獻的子集
print(fec.contbr_occupation.value_counts()[:10]) #獲得按職業的捐獻總數
occ_mapping = {
    'INFORMATION REQUESTED PER BEST EFFORTS':'NOT PROVIDED',
    'INFORMATION REQUESTED':'NOT PROVIDED',
    'INFORMATION REQUESTED (BEST EFFORTS)':'NOT PROVIDED',
    'C.E.O':'CEO'
}
f = lambda x:occ_mapping.get(x,x) #如果沒有對映，則返回x
fec.contbr_occupation = fec.contbr_occupation.map(f)
emp_mapping = {
    'INFORMATION REQUESTED PER BEST EFFORTS':'NOT PROVIDED',
    'INFORMATION REQUESTED':'NOT PROVIDED',
    'SELF':'SELF-EMPLOYED',
    'SELF EMPLOYED':'SELF-EMPLOYED',
}
f = lambda x:emp_mapping.get(x,x) #如果沒有對映，則返回x
fec.contbr_employer = fec.contbr_employer.map(f)
by_occupation = fec.pivot_table('contb_receipt_amt',
                                index = 'contbr_occupation',
                                columns = 'party',aggfunc = 'sum') #按照黨派和職業聚合資料
over_2mm = by_occupation[by_occupation.sum(1) > 2000000] #過濾出至少捐贈200萬美元的子集
over_2mm.plot(kind = 'barh') #以條形圖的方式進行資料視覺化,按黨派劃分各職業捐贈總量
plt.show()
def get_top_amounts(group,key,n = 5):
    totals = group.groupby(key)['contb_receipt_amt'].sum()
    return totals.nlargest(n)
grouped = fec_mrbo.groupby('cand_nm')
grouped.apply(get_top_amounts,'contbr_occupation',n = 7) #按照職業進行聚合
grouped.apply(get_top_amounts,'contbr_employer',n = 10) #按照僱主進行聚合
bins = np.array([0,1,10,100,1000,10000,
                 100000,1000000,10000000])
labels = pd.cut(fec_mrbo.contb_receipt_amt, bins) #使用cut函式將貢獻者的數量按貢獻大小離散化分桶
print(labels)
grouped = fec_mrbo.groupby(['cand_nm',labels]) #將Obama和Romney的資料按名稱和分類標籤進行分組，以獲得捐贈規模的直方圖
print(grouped.size().unstack(0))
bucket_sums = grouped.contb_receipt_amt.sum().unstack(0)
normed_sums = bucket_sums.div(bucket_sums.sum(axis = 1),axis = 0) #對捐款數額進行歸一化
print(normed_sums)
normed_sums[:-2].plot(kind = 'barh') #畫出不同捐贈規模的候選人收到的捐贈總額的百分比，這裡排除了最大的兩個箱體，因為這些箱體不是由個人捐贈的
plt.show()
grouped = fec_mrbo.groupby(['cand_nm','contbr_st']) #按照候選人和州進行聚合
totals = grouped.contb_receipt_amt.sum().unstack(0).fillna(0)
totals = totals[totals.sum(1) > 100000]
print(totals[:10])
percent = totals.div(totals.sum(1),axis = 0) #將每一行除以捐款總額，就可以得到每個候選人按州的捐贈總額的相對百分比
print(percent[:10])

《利用python進行資料分析》————2012年聯邦選舉委員會資料庫

[本次資料分析所用到的資料集連結] (http://github.com/wesm/pydata-book) import pandas as pd import matplotlib.pyplot as plt import numpy as np fec = pd.read_csv(

《利用Python進行資料分析》例項：USDA食品資料庫

USDA食品資料庫：from pandas import DataFrame,Series from pylab import * import pandas as pd import json de

《利用python進行資料分析》————美國1880-2010年的嬰兒名字

[本次資料分析所用到的資料集連結] (http://github.com/wesm/pydata-book) import pandas as pd import matplotlib.pyplot as plt import numpy as np names1880 = pd.rea

利用python進行資料分析（第二版） pdf下載

適讀人群：適合剛學Python的資料分析師或剛學資料科學以及科學計算的Python程式設計者。閱讀本書可以獲得一份關於在Python下操作、處理、清洗、規整資料集的完整說明。本書第二版針對Python 3.6進行了更新，並增加實際案例向你展示如何高效地解決一系列資料分析問題。你將在閱讀

《利用Python進行資料分析》學習記錄

第8章249頁原語句：party_counts = pd.crosstab(tips.day, tips.size) 現在的pandas似乎有個size屬性，就是計算資料的大小，而不會返回那一列具體的資料，比如這裡tips這個csv資料，其裡面包含一列size資料，現在來執行這句語句的話，

資料基礎---《利用Python進行資料分析·第2版》第12章 pandas高階應用

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。前面的章節關注於不同型別的資料規整流程和NumPy、pandas與其它庫的特點。隨著時間的發展，pandas發展出了更多適

資料基礎---《利用Python進行資料分析·第2版》第6章資料載入、儲存與檔案格式

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。訪問資料是使用本書所介紹的這些工具的第一步。我會著重介紹pandas的資料輸入與輸出，雖然別的庫中也有不少以此為目的的工具

資料基礎---《利用Python進行資料分析·第2版》第4章 NumPy基礎：陣列和向量計算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 NumPy（Numerical Python的簡稱）是Python數值計算最重要的基礎包。大多數提供科學計算的包都是用Nu

資料基礎---《利用Python進行資料分析·第2版》第11章時間序列

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。時間序列（time series）資料是一種重要的結構化資料形式，應用於多個領域，包括金融學、經濟學、生態學、神經科學、物

資料基礎---《利用Python進行資料分析·第2版》第10章資料聚合與分組運算

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。對資料集進行分組並對各組應用一個函式（無論是聚合還是轉換），通常是資料分析工作中的重要環節。在將資料集載入、融合、準備好之

資料基礎---《利用Python進行資料分析·第2版》第8章資料規整：聚合、合併和重塑

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在許多應用中，資料可能分散在許多檔案或資料庫中，儲存的形式也不利於分析。本章關注可以聚合、合併、重塑資料的方法。首先

資料基礎---《利用Python進行資料分析·第2版》第7章資料清洗和準備

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。在資料分析和建模的過程中，相當多的時間要用在資料準備上：載入、清理、轉換以及重塑。這些工作會佔到分析師時間的80%或更多。

資料基礎---《利用Python進行資料分析·第2版》第5章 pandas入門

之前自己對於numpy和pandas是要用的時候東學一點西一點，直到看到《利用Python進行資料分析·第2版》，覺得只看這一篇就夠了。非常感謝原博主的翻譯和分享。 pandas是本書後續內容的首選庫。它含有使資料清洗和分析工作變得更快更簡單的資料結構和操作工具。pandas經常和其它工

分享《利用Python進行資料分析(第二版)》高清中文版PDF+英文版PDF+原始碼

資料下載：https://pan.baidu.com/s/1K3DjJ9S1S3AxpacEElNF9Q 《利用Python進行資料分析(第二版)》【中文版和英文版】【高清完整版PDF】+【配套原始碼】《利用Python進行資料分析(第二版)》中文和英文兩版對比學習，高清完整版PDF，帶書籤，可複製貼

利用Python進行資料分析之第七章記錄2 資料規整化:清理、轉換、合併、重塑

索引上的合併 DataFrame中傳入引數left_index=True或者right_index=True（或者兩個都傳入）,表示DataFrame的index（索引）被用作兩個DataFrame連線的連線鍵，如下： dataframe1 = DataFrame({'key':

利用Python進行資料分析之第七章記錄資料規整化:清理、轉換、合併、重塑

合併資料集： pandas物件中的資料可以通過一些內建的方式進行合併： pandas.merge可根據一個或多個鍵將不同DataFrame中的行連線起來。SQL或其它關係型資料庫的使用者對此應該會比較熟悉，因為它實現的就是資料庫的連線操作。 pandas.concat可以沿著一條軸將多個

利用python進行資料分析——p26,"一定要以pylab模式”開啟如何解決

本人使用Pythonxy,(Python(x,y)-2.7.10.0.exe)，初學者面對如圖的列表，大腦空白首先，使用python IDEL，雖然有自動路徑提示，但是做不出來圖，鬱

筆記1:利用python進行資料分析

#筆記1:利用python進行資料分析 numpy模組，各種函式等等因為不想使用編碼軟體，所以直接文字編輯器，cmd執行結果；提一個小技巧：cmd中複製資訊操作，右擊–》標記–》選擇需要複製的資訊(一般為白色背景)–》在複製區外右擊，之後在需要的地方-》ctrl+v 就可以了；直

《利用python進行資料分析》之整數索引

《利用python進行資料分析》之整數索引 # -*- coding: utf-8 -*- """ Created on Sat Nov 17 22:23:46 2018 @author: muli """ from pandas import Series,Dat

利用Python進行資料分析——繪圖和視覺化(八)(2)

1、註釋以及在Subplot上繪圖除標準的圖表物件之外，你可能還希望繪製一些自定義的註釋（比如文字、箭頭或其他圖形等）。註釋可以通過text、arrow和annotate等函式進行新增。text可以將文字繪製在圖表的指定座標（x, y），還可以加上一些自定義格式： In [41]: ax.t

《利用python進行資料分析》————2012年聯邦選舉委員會資料庫

相關推薦