官方練習 Pandas 資料結構簡介 Series VS DataFrame

阿新 • • 發佈：2018-12-16

傳遞的索引是軸標籤列表。因此，根據資料的不同，這可分為幾種情況：

In [42]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

來自ndarray

如果data是ndarray，則索引的長度必須與資料的長度相同。如果沒有傳遞索引，將建立一個具有值的索引。[0, ..., len(data) - 1]

s = pd.Series(data, index=index) 在這裡，data可以有很多不同的東西：

一個Python字典

一個ndarray

標量值（如5）

傳遞的索引是軸標籤列表。

In [43]:

s = pd.Series(np.random.randn(5),index=['a', 'b', 'c', 'd', 'e'])
s

Out[43]:

a    0.752638
b    0.677576
c    0.070753
d   -1.030516
e    0.030880
dtype: float64

In [44]:

s.index

Out[44]:

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [45]:

pd.Series(np.random.randn(5))

Out[45]:

0   -0.342847
1    0.595423
2   -0.287877
3   -0.742966
4   -0.738780
dtype: float64

從dict

注意當資料是dict，並且未傳遞Series索引時，如果您使用的是Python版本> = 3.6且Pandas版本> = 0.23 ，則索引將按dict的插入順序排序。

如果您使用的是Python <3.6或Pandas <0.23，並且未傳遞Series索引，則索引將是詞彙順序的dict鍵列表。

In [89]:

d = {'b' : 1, 'a' : 0, 'c' : 2}
pd.Series(d).index

Out[89]:

Index(['a', 'b', 'c'], dtype='object')

In [87]:

d = {'a' : 0., 'b' : 1., 'c' : 2.}
pd.Series(d)

Out[87]:

a    0.0
b    1.0
c    2.0
dtype: float64

如果傳遞索引，則將拉出與索引中的標籤對應的資料中的值。空餘的為NaN

In [48]:

pd.Series(d,index=['b', 'c', 'd', 'a'])

Out[48]:

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

從標量值，如果data是標量值，則必須提供索引。將重複該值以匹配索引的長度。

In [49]:

pd.Series(5, index=['a', 'b', 'c', 'd', 'e'])

Out[49]:

a    5
b    5
c    5
d    5
e    5
dtype: int64

In [50]:

pd.Series([5.,3.,5.,3.,2], index=['a', 'b', 'c', 'd', 'e'])

Out[50]:

a    5.0
b    3.0
c    5.0
d    3.0
e    2.0
dtype: float64

Series行為與a非常相似ndarray，並且是大多數NumPy函式的有效引數。但是，切片等操作也會對索引進行切片。

In [51]:

Out[51]:

a    0.752638
b    0.677576
c    0.070753
d   -1.030516
e    0.030880
dtype: float64

In [52]:

s[0]

Out[52]:

0.75263790197081093

In [53]:

s[:3]

Out[53]:

a    0.752638
b    0.677576
c    0.070753
dtype: float64

In [54]:

s[s>s.median()]

Out[54]:

a    0.752638
b    0.677576
dtype: float64

In [55]:

s[[4, 3, 1]]

Out[55]:

e    0.030880
d   -1.030516
b    0.677576
dtype: float64

In [56]:

np.exp(s)

Out[56]:

a    2.122592
b    1.969099
c    1.073316
d    0.356823
e    1.031362
dtype: float64

Series類似於固定大小的dict，您可以通過索引標籤獲取和設定值

In [57]:

s['a']

Out[57]:

0.75263790197081093

In [58]:

s['e']

Out[58]:

0.030879785155672308

In [59]:

Out[59]:

a    0.752638
b    0.677576
c    0.070753
d   -1.030516
e    0.030880
dtype: float64

In [61]:

'e' in s

Out[61]:

True

In [62]:

'f' in s

Out[62]:

False

In [64]:

# 如果未包含標籤，則會引發異常：
#s['f']

使用該get方法，缺少的標籤將返回None或指定的預設值：

In [65]:

s.get('f')

In [66]:

s.get('f', np.nan)

Out[66]:

nan

使用Series¶進行向量化操作和標籤對齊

使用原始NumPy陣列時，通常不需要迴圈使用value-by-value。

在pandas中使用Series時也是如此。系列也可以傳遞到大多數期待ndarray的NumPy方法。

In [72]:

Out[72]:

a    0.752638
b    0.677576
c    0.070753
d   -1.030516
e    0.030880
dtype: float64

In [69]:

s+s

Out[69]:

a    1.505276
b    1.355152
c    0.141507
d   -2.061032
e    0.061760
dtype: float64

In [70]:

s*2

Out[70]:

a    1.505276
b    1.355152
c    0.141507
d   -2.061032
e    0.061760
dtype: float64

In [71]:

np.exp(s)

Out[71]:

a    2.122592
b    1.969099
c    1.073316
d    0.356823
e    1.031362
dtype: float64

Series和ndarray之間的主要區別在於Series之間的操作會根據標籤自動對齊資料。

因此，您可以在不考慮所涉及的系列是否具有相同標籤的情況下編寫計算。

In [77]:

s[1:]

Out[77]:

b    0.677576
c    0.070753
d   -1.030516
e    0.030880
dtype: float64

In [78]:

s[:-1]

Out[78]:

a    0.752638
b    0.677576
c    0.070753
d   -1.030516
dtype: float64

未對齊Series之間的操作結果將包含所涉及的索引的並集。

如果在一個系列或另一個系列中找不到標籤，則結果將標記為缺失NaN。

In [79]:

s[1:]+s[:-1]

Out[79]:

a         NaN
b    1.355152
c    0.141507
d   -2.061032
e         NaN
dtype: float64

Series也可以有一個name屬性：

name在許多情況下，Series將自動分配，特別是在拍攝一維DataFrame時，如下所示。

In [84]:

s = pd.Series(np.random.randn(5), name='something')
s

Out[84]:

0    0.070190
1    2.264641
2    0.416647
3   -1.156442
4   -0.259729
Name: something, dtype: float64

In [85]:

s.name

Out[85]:

'something'

版本0.18.0中的新功能。

您可以使用該pandas.Series.rename()方法重新命名Series 。

In [86]:

s2 = s.rename("different")
s2

Out[86]:

0    0.070190
1    2.264641
2    0.416647
3   -1.156442
4   -0.259729
Name: different, dtype: float64

DataFrame是一個二維標記資料結構，具有可能不同型別的列。

您可以將其視為電子表格或SQL表，或Series物件的字典。

它通常是最常用的pandas物件。與Series類似，DataFrame接受許多不同型別的輸入：

1D ndarray，list，dicts或Series的Dict

二維numpy.ndarray

結構化或記錄 ndarray

一個 Series

另一個 DataFrame

除了資料，您還可以選擇傳遞索引（行標籤）和列（列標籤）引數。

1、從Series或詞典的詞典

得到的指數將是工會的各種系列的指標。如果有任何巢狀的dicts，這些將首先轉換為Series。

如果沒有傳遞列，則列將是dict鍵的有序列表。

In [96]:

d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c'])}
df = pd.DataFrame(d)
df

Out[96]:

one
a	1.0
b	2.0
c	3.0

In [97]:

d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

In [98]:

df = pd.DataFrame(d)
df

Out[98]:

one	two
a	1.0	1.0
b	2.0	2.0
c	3.0	3.0
d	NaN	4.0

In [99]:

pd.DataFrame(d, index=['d', 'b', 'a'])

Out[99]:

one	two
d	NaN	4.0
b	2.0	2.0
a	1.0	1.0

In [100]:

pd.DataFrame(d, index=['d', 'b', 'a'],columns=['two','three'])

Out[100]:

two	three
d	4.0	NaN
b	2.0	NaN
a	1.0	NaN

通過訪問索引和列屬性，可以分別訪問行和列標籤：

注意當一組特定的列與資料的dict一起傳遞時，傳遞的列將覆蓋dict中的鍵。

In [102]:

df.index

Out[102]:

Index(['a', 'b', 'c', 'd'], dtype='object')

In [103]:

df.columns

Out[103]:

Index(['one', 'two'], dtype='object')

從ndarrays / lists的字典

ndarrays必須都是相同的長度。如果傳遞索引，則它必須明顯與陣列的長度相同。

如果沒有傳遞索引，結果將是range(n)，n陣列長度在哪裡。

In [105]:

d = {'one' : [1., 2., 3., 4.],
      'two' : [4., 3., 2., 1.]}

In [106]:

pd.DataFrame(d)

Out[106]:

one	two
0	1.0	4.0
1	2.0	3.0
2	3.0	2.0
3	4.0	1.0

In [107]:

pd.DataFrame(d,index=['a', 'b', 'c', 'd'])

Out[107]:

one	two
a	1.0	4.0
b	2.0	3.0
c	3.0	2.0
d	4.0	1.0

從結構化或記錄陣列

這種情況的處理方式與陣列的字典相同。

In [117]:

data = np.zeros((2,))
data

Out[117]:

array([ 0.,  0.])

In [118]:

data = np.zeros((2,),dtype=[('A','i4'),('B', 'f4'),('C', 'a10')])
data

Out[118]:

array([(0,  0., b''), (0,  0., b'')],
      dtype=[('A', '<i4'), ('B', '<f4'), ('C', 'S10')])

In [124]:

data = [(1,2,'Hello'),(2,3,'World')]
data

Out[124]:

[(1, 2, 'Hello'), (2, 3, 'World')]

In [120]:

pd.DataFrame(data)

Out[120]:

0	1	2
0	1	2	Hello
1	2	3	World

In [126]:

pd.DataFrame(data,index=['first','second'],columns=['C', 'A', 'B'])

Out[126]:

C	A	B
first	1	2	Hello
second	2	3	World

In [125]:

pd.DataFrame(data, columns=['C', 'A', 'B'])

Out[125]:

C	A	B
0	1	2	Hello
1	2	3	World

從dicts列表

In [129]:

data2 = [{'a': 1, 'b': 2}]
pd.Series(data2)

Out[129]:

0    {'a': 1, 'b': 2}
dtype: object

In [130]:

data2 = [{'a': 1, 'b': 2}]
pd.DataFrame(data2)

Out[130]:

a	b
0	1	2

In [131]:

data2 = [{'a': 1, 'b': 2}, 
         {'a': 5, 'b': 10, 'c': 20}]
pd.DataFrame(data2)

Out[131]:

a	b	c
0	1	2	NaN
1	5	10	20.0

行標籤必須與行數相等，列標籤可以不等，也可以不存在，不存在了所在列全部補充NaN

In [134]:

pd.DataFrame(data2, index=['first', 'second'])

Out[134]:

a	b	c
first	1	2	NaN
second	5	10	20.0

In [137]:

pd.DataFrame(data2, columns=['a', 'e'])

Out[137]:

a	e
0	1	NaN
1	5	NaN

從元組的詞典，您可以通過傳遞元組字典自動建立多索引框架

In [139]:

pd.DataFrame({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2}})

Out[139]:

a
b
A	B	1
A	C	2

In [138]:

pd.DataFrame({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
     ('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
     ('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
     ('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
     ('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}})

Out[138]:

a			b
a	b	c	a	b
A	B	4.0	1.0	5.0	8.0	10.0
	C	3.0	2.0	6.0	7.0	NaN
	D	NaN	NaN	NaN	NaN	9.0

從Series

結果將是一個與輸入Series具有相同索引的DataFrame，以及一個列，

其名稱是Series的原始名稱（僅當沒有提供其他列名時）。

日期時間

對於datetime64 [ns]型別，NaT表示缺少的值。這是一個偽本機標記值，可以由單個dtype（datetime64 [ns]）中的NumPy表示。

pandas物件提供NaT和之間的互操作性NaN。

官方練習 Pandas 資料結構簡介 Series VS DataFrame

傳遞的索引是軸標籤列表。因此，根據資料的不同，這可分為幾種情況： In [42]: import pandas as pd import numpy as np import matplotlib.pyplot as plt 來自ndarray 如果data是nda

Python資料分析之pandas基本資料結構：Series、DataFrame

1引言本文總結Pandas中兩種常用的資料型別：（1）Series是一種一維的帶標籤陣列物件。（2）DataFrame，二維，Series容器 2 Series陣列 2.1 Series陣列構成 Series陣列物件由兩部分構成：值（value）：一維陣列的各元素值，是一個ndarr

pandas的資料結構之一series

Pandas的資料結構 1、Series Series是一種類似於一維陣列的物件，由下面兩個部分組成： index：相關的資料索引標籤 values：一組資料（ndarray型別） series的建立方法: 1.直接傳入一個列表 s1 = Series([1,2,3,4])s1

資料結構之--series,DataFrame.use python and pandas for data mining

1.好的資料結構是資料分析的基礎，一個高效的資料分析方法離不開資料的構造，series and DataFrame是兩種高效簡單的資料型別。 2.Series是一個一維的類似的陣列物件，包含一個數組的資料（任何NumPy的資料型別）和一個與陣列關聯的資料標籤，

Hive 中的複合資料結構簡介以及一些函式的用法說明

目錄[-] 一、map、struct、array 這3種的用法： 1、Array的使用 2、Map 的使用 3、Struct 的使用 4、資料組合（不支援組合的複雜資料型別）二、hive中的一些不常見函式的用法： 1、array_contains （

02 ndarray的屬性、ndarray的基本操作（索引、切片、變形、連線、切分、副本）、聚合操作、矩陣操作、排序、Panda資料結構、Series建立、索引與切片、屬性與方法、運算

二、ndarray的屬性 4個必記引數： ndim：維度 shape：形狀（各維度的長度） size：總長度 dtype：元素型別 import matplotlib.pyplot as plt ndarr = plt.imread("./jin.png") plt.

《資料結構與演算法》之資料結構簡介

資料結構=資料+結構，資料結構是計算機儲存、組織資料的方式。資料結構是指相互之間存在一種或多種特定關係的資料元素的集合。通常情況下，精心選擇的資料結構可以帶來更高的執行或者儲存效率。資料結構往往同高效的檢索演算法和索引技術有關。一、資料的邏輯結構：指反映資料元素之間的邏輯關係的資料結構，其中的

pandas資料結構之Dataframe

Dataframe DataFrame是一個【表格型】的資料結構，可以看做是【由Series組成的字典】（多個series共用同一個索引）。DataFrame由按一定順序排列的多列資料組成。設計初衷是將Series的使用場景從一維拓展到多維。DataFrame既有行索引，也有列索引。行索引：ind

基礎練習-python資料結構習題

##習題1：列表a = [11,22,24,29,30,32] 1 把28插入到列表的末端 a.append(28) 2 在元素29後面插入元素57 a.insert(4,57) 3 把元素11修改成6 a[0]=6 3 刪除元素32 a.remove(32) 4

java的基礎資料結構簡介

java資料結構簡介　　資料結構是計算機儲存，組織資料的方式。資料結構是指相互之間存在一種或多種特定關係的資料元素的集合。通常情況下，精心選擇的資料結構可以帶來更高的執行或儲存效率。資料結構往往同高效的檢索演算法和索引技術有關。　　 java中常用的資料結構基本上就是Arra

pandas的兩種資料型別：Series和DataFrame

首先要明確pandas是做什麼的，在確定是如何做的，通過哪些方式去做的？ pandas是做什麼的？ Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具，該工具是為了解決資料分析任務而建立的。Pandas 納入

常見資料結構簡介

#Heap-like Data Structures Heaps：小頂堆（二叉樹，完全樹），每個節點都比它的左右子樹小。按照層級從左到右插入節點，然後自下向上調整大小。刪除最小值的時候，直接刪除根節點（一直是最小的），然後把最後一個節點移到根節點，然後自頂向下調整大小。若給出一個已經建立好的完全樹，想調

【練習】資料結構和演算法複習題

題目：a=10,b=15，將a / b的值互換。通常我們的做法是（尤其是在學習階段）：定義一個新的變數，藉助它完成交換。程式碼如下： int a,b; a=10; b=15; int t; t=a; a=b; b=t; 這種演算法易於理解，特別適合幫助初學者瞭解計算機程式的特點，是賦值語句的經典應用。在實際

Pandas玩轉資料（七) -- Series和DataFrame去重

資料分析彙總學習 import numpy as np import pandas as pd from pandas import Series, DataFrame df = pd.read

pandas小記：pandas資料結構和基本操作

pandas的資料結構：Series、DataFrame、索引物件 pandas基本功能：重新索引，丟棄指定軸上的項，索引、選取和過濾，算術運算和資料對齊，函式應用和對映，排序和排名，帶有重複值的軸索引 Pandas介紹 pandas含有使資料分析工作變得更快更簡單

pandas資料結構介紹

pandas是基於NumPy構建的，它以NumPy為中心的應用變得更加簡單。pandas的資料結構介紹 Series Series是一種類似於一維陣列的物件，它由一組資料（各種Numpy的資料型別）以及一組與之相關的資料標籤（即索引）組成。僅由一組資料即可產生最簡單的Ser

資料分析之Pandas——資料結構

資料結構介紹 Pandas的資料物件中都包含最基本的屬性，如資料型別，索引，標籤等。要使用Pandas的資料結構首先需要引入pandas和numpy： In [1]: import numpy as np In [2]: import pandas

pandas資料結構及資料讀寫

1.資料結構Series類似python的字典。建立：pandas.Series([1,2,3,4,5], index=['a','b','c','f','e']) #Index相當於字典的key pandas.Series ( {'a':5} ) #用字典建立物

演算法與資料結構簡介(一)

演算法與資料結構簡介為什麼學習演算法與資料結構？掌握常用的演算法和資料結構，可以提升程式碼的執行效率功利性目的，找到更好的工作喜歡上演算法，理解並運用它，在程式設計領域，擁有雄厚的“內功” 區塊鏈區塊鏈就是演算法中的樹+單向連結串列如

Pandas資料結構

import pandas as pdimport numpy as np # np.arange(10) np.random.rand np.array([]) zerios ones empty identity\n",arr = np.arange(10)print(

官方練習 Pandas 資料結構簡介 Series VS DataFrame

傳遞的索引是軸標籤列表。因此，根據資料的不同，這可分為幾種情況：

DataFrame是一個二維標記資料結構，具有可能不同型別的列。

相關推薦