Spark與Pandas中DataFrame對比（詳細）

阿新 • • 發佈：2019-01-24

Pandas	Spark
工作方式	單機single machine tool，沒有並行機制parallelism 不支援Hadoop，處理大量資料有瓶頸	分散式平行計算框架，內建並行機制parallelism，所有的資料和操作自動並行分佈在各個叢集結點上。以處理in-memory資料的方式處理distributed資料。支援Hadoop，能處理大量資料
延遲機制	not lazy-evaluated	lazy-evaluated
記憶體快取	單機快取	persist() or cache()將轉換的RDDs儲存在記憶體
DataFrame可變性	Pandas中DataFrame是可變的	Spark中RDDs是不可變的，因此DataFrame也是不可變的
建立	從spark_df轉換：pandas_df = spark_df.toPandas()	從pandas_df轉換：spark_df = SQLContext.createDataFrame(pandas_df) 另外，createDataFrame支援從list轉換spark_df，其中list元素可以為tuple，dict，rdd
	list，dict，ndarray轉換	已有的RDDs轉換
	CSV資料集讀取	結構化資料檔案讀取
	HDF5讀取	JSON資料集讀取
	EXCEL讀取	Hive表讀取
	外部資料庫讀取
index索引	自動建立	沒有index索引，若需要需要額外建立該列
行結構	Series結構，屬於Pandas DataFrame結構	Row結構，屬於Spark DataFrame結構
列結構	Series結構，屬於Pandas DataFrame結構	Column結構，屬於Spark DataFrame結構，如：DataFrame[name: string]
列名稱	不允許重名	允許重名修改列名採用alias方法
列新增	df[“xx”] = 0	df.withColumn(“xx”, 0).show() 會報錯 from pyspark.sql import functions df.withColumn(“xx”, functions.lit(0)).show()
列修改	原來有df[“xx”]列，df[“xx”] = 1	原來有df[“xx”]列，df.withColumn(“xx”, 1).show()
顯示	df 不輸出具體內容，輸出具體內容用show方法輸出形式：DataFrame[age: bigint, name: string]
	df 輸出具體內容	df.show() 輸出具體內容
	沒有樹結構輸出形式	以樹的形式列印概要：df.printSchema()
	df.collect()
排序	df.sort_index() 按軸進行排序
排序	df.sort() 在列中按值進行排序	df.sort() 在列中按值進行排序
選擇或切片	df.name 輸出具體內容	df[] 不輸出具體內容，輸出具體內容用show方法 df[“name”] 不輸出具體內容，輸出具體內容用show方法
	df[] 輸出具體內容， df[“name”] 輸出具體內容	df.select() 選擇一列或多列 df.select(“name”) 切片 df.select(df[‘name’], df[‘age’]+1)
	df[0] df.ix[0]	df.first()
	df.head(2)	df.head(2)或者df.take(2)
	df.tail(2)
	切片 df.ix[:3]或者df.ix[:”xx”]或者df[:”xx”]
	df.loc[] 通過標籤進行選擇
	df.iloc[] 通過位置進行選擇
過濾	df[df[‘age’]>21]	df.filter(df[‘age’]>21) 或者 df.where(df[‘age’]>21)
整合	df.groupby(“age”) df.groupby(“A”).avg(“B”)	df.groupBy(“age”) df.groupBy(“A”).avg(“B”).show() 應用單個函式 from pyspark.sql import functions df.groupBy(“A”).agg(functions.avg(“B”), functions.min(“B”), functions.max(“B”)).show() 應用多個函式
統計	df.count() 輸出每一列的非空行數	df.count() 輸出總行數
統計	df.describe() 描述某些列的count, mean, std, min, 25%, 50%, 75%, max	df.describe() 描述某些列的count, mean, stddev, min, max
合併	Pandas下有concat方法，支援軸向合併
	Pandas下有merge方法，支援多列合併同名列自動新增字尾，對應鍵僅保留一份副本	Spark下有join方法即df.join() 同名列不自動新增字尾，只有鍵值完全匹配才保留一份副本
	df.join() 支援多列合併
	df.append() 支援多行合併
缺失資料處理	對缺失資料自動新增NaNs	不自動新增NaNs，且不丟擲錯誤
	fillna函式：df.fillna()	fillna函式：df.na.fill()
	dropna函式：df.dropna()	dropna函式：df.na.drop()
SQL語句	import sqlite3 pd.read_sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19″)	表格註冊：把DataFrame結構註冊成SQL語句使用型別 df.registerTempTable(“people”) 或者 sqlContext.registerDataFrameAsTable(df, “people”) sqlContext.sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19″)
SQL語句		功能註冊：把函式註冊成SQL語句使用型別 sqlContext.registerFunction(“stringLengthString”, lambda x: len(x)) sqlContext.sql(“SELECT stringLengthString(‘test’)”)
兩者互相轉換	pandas_df = spark_df.toPandas()	spark_df = sqlContext.createDataFrame(pandas_df)
函式應用	df.apply(f）將df的每一列應用函式f	df.foreach(f) 或者 df.rdd.foreach(f) 將df的每一列應用函式f df.foreachPartition(f) 或者 df.rdd.foreachPartition(f) 將df的每一塊應用函式f
map-reduce操作	map(func, list)，reduce(func, list) 返回型別seq	df.map(func)，df.reduce(func) 返回型別seqRDDs
diff操作	有diff操作，處理時間序列資料（Pandas會對比當前行與上一行）	沒有diff操作（Spark的上下行是相互獨立，分散式儲存的）

原文連結：http://www.lining0806.com/spark%E4%B8%8Epandas%E4%B8%ADdataframe%E5%AF%B9%E6%AF%94/

Spark與Pandas中DataFrame對比（詳細）

Pandas Spark 工作方式單機single machine tool，沒有並行機制parallelism 不支援Hadoop，處理大量資料有瓶頸分散式平行計算框架，內建並行機制parallelism，所有的資料和操作自動並行分佈在各個叢集結點上。以處

[轉]Spark與Pandas中DataFrame對比（詳細）

Pandas Spark 工作方式單機single machine tool，沒有並行機制parallelism 不支援Hadoop，處理大量資料有瓶頸分散式平行計算框架，內建並行機制parallelism，所有的資料和操作自動並行分佈在各個叢集結點上。以處理in-memory資料的方式處理distr

手繪與碼繪的對比（靜態）

在這次對比用程式碼和用手繪創作靜態繪畫的實驗中，選擇的程式設計工具是p5.js,p5.js語法和使用上較為簡單，入門很快,繪製的作品為一個簡單的卡通小黃人。下面按要求從思路、技術、創作體驗、創作偏好等方面比較一下二者，以及它們的異同。碼繪程式碼如下： function setup()

pandas 中的Axis（軸）含義

根據stackoverflow答主解釋，axis=0指的是逐行，axis=1指的是逐列。 df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \ columns=["col1",

pandas 中的Axis（軸）的理解

python中的axis究竟是如何定義的呢？他們究竟代表是DataFrame的行還是列？考慮以下程式碼： >>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["

SOC中的DFT和BIST對比與比較-IC學習筆記（二）

獨立讀取 c學習連接特殊客戶服務 bsp design 來源 ATE：ATE是Automatic Test Equipment的縮寫，根據客戶的測試要求、圖紙及參考方案，采用MCU、PLC、PC基於VB、VC開發平臺，利用TestStand&LabV

03 -1 pandas 中 DataFrame理解與建立、索引、運算的詳解以及例項

DataFrame DataFrame是一個【表格型】的資料結構，可以看做是【由Series組成的字典】（共用同一個索引）。DataFrame由按一定順序排列的多列資料組成。設計初衷是將Series的使用場景從一維拓展到多維。DataFrame既有行索引，也有列索引。行索引

[2.2]Spark DataFrame操作（二）之通過反射實現RDD與DataFrame的轉換

參考場景檔案/home/pengyucheng/java/rdd2dfram.txt中有如下4條記錄： 1,hadoop,11 2,spark,7 3,flink,5 4,ivy,27 編碼實現：查詢並在控制檯打印出每行第三個欄位值大於7

EM演算法在高斯混合模型中的應用（詳細解釋與求解）

1、高斯混合模型GMM 是指具有以下概率分佈的模型： P ( y

[2.3]Spark DataFrame操作（二）之通過程式設計動態完成RDD與DataFrame的轉換

參考場景一、上一篇部落格將待分析資料影射成JavaBean的欄位，然後通過def createDataFrame(data:java.util.List[_],beanClass:Class[_]):DataFrame完成了RDD與DataFra

Web開發中PHP與JAVA對比（轉載）

在市場上的電子商務軟體基本上可歸結為兩大陣營，即PHP陣營和Java陣營。但對接觸電子商務不久的使用者來說，看到的往往只是它們的表相，只是明顯的價格差異，卻很難看出它們之間的實際差異。其實，PHP+ MySQL高效的開發、品質優良的特性，已經讓風靡大學校園的Java變的越來越難堪。而作為PHP+ My

Pandas中DataFrame數據合並、連接（concat、merge、join）之concat

多個 name mage 參數技術 key 數據合並 bubuko axis 一、concat：沿著一條軸，將多個對象堆疊到一起 concat(objs, axis=0, join=‘outer‘, join_axes=None, ignore_index=False,

python下的Pandas中DataFrame基本操作（一），基本函式整理

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中對pandas的方方面面都有了一個權威簡明的入門級的介紹，但在實際使用過程中，我發現書中的內容還只是冰山一角。談到pandas資料的行更新、表合併等操作，一般用到的

Python基礎 | pandas中dataframe的整合與形變(merge & reshape)

[toc] [本文示例資料下載](https://pan.baidu.com/s/1lQIpvwThXRkUJ16Fl4ERNA)，密碼:**vwy3** ```python import pandas as pd # 資料是之前在cnblog上抓取的部分文章資訊 df = pd.read_csv('

unordered_map 與 map 的對比（轉）

logs fcm uno con 一點 color 解決使用 using unordered_map和map類似，都是存儲的key-value的值，可以通過key快速索引到value。不同的是unordered_map不會根據key的大小進行排序，存儲時是根據key的h

QT中的線程與事件循環理解（2）

註釋由於做什麽 hid post 適用於 tsig call 循環 1. Qt多線程與Qobject的關系　　每一個 Qt 應用程序至少有一個事件循環，就是調用了QCoreApplication::exec()的那個事件循環。不過，QThread也可以開啟事件循環

MySQL與Oracle（二）---日期對比（MySQL）

val replace nbsp rac oracl 日期 align mysql datetime MySQL與Oracle的日期函數對比（一）一、SQL 短日期格式：yyyy-m-d SELECT REPLACE(CONVERT(varchar(10),getda

MySQL與Oracle（三）---日期對比（Oracle）

數據庫 alt to_date pan 技術分享時間日期軟件 floor lte Oracle： 1.獲取當前日期的年，月，日，時，分，秒 select to_char(sysdate,‘yyyy‘) as nowYear from dual; //獲取時間

Spring AOP高級——源碼實現（2）Spring AOP中通知器（Advisor）與切面（Aspect）

color oaf 小麻煩 ntc tro sta ins pack package 本文例子完整源碼地址：https://github.com/yu-linfeng/BlogRepositories/tree/master/repositories/Spring%20AO

pandas DataFrame 警告（SettingWithCopyWarning）

問題 import .html .py 上進 document 切片 panda 賦值剛接觸python不久，編程也是三腳貓，所以對常用的這幾個工具還沒有一個好的使用習慣，畢竟程序語言是頭順毛驢。所以最近在工作中使用的時候在使用pandas的DataFrame時遇到了以下

Spark與Pandas中DataFrame對比（詳細）

相關推薦