（3）pyspark中的dataframe的觀察操作

阿新 • • 發佈：2018-10-11

sel panda 讀取 .com 數據顯示 taf print park 計算

1、讀取：

sparkDF = spark.read.csv(path)
sparkDF = spark.read.text(path)

2、打印：

sparkDF.show()【這是pandas中沒有的】：打印內容

sparkDF.head()：打印前面的內容

sparkDF.describe()：統計信息

sparkDF.printSchema()：打印schema，列的屬性信息打印出來【這是pandas中沒有的】

sparkDF.columns：將列名打印出來

3、選擇列

【select函數，原pandas中沒有】

sparkDF.select(‘列名1‘,‘列名2‘).show()：選擇dataframe的兩列數據顯示出來

sparkDF.select ( sparkDF[‘列名1‘]+1 , ‘列名2‘ ).show()：直接對列1進行操作（值+1）打印出來

技術分享圖片

4、篩選列：

filter【類似pandas中dataframe的采用列名來篩選功能】

sparkDF.filter ( sparkDF[‘value‘] == 100 ).show()：將value這一列值為100的行篩選出來

技術分享圖片

5、計算不重復值以及統計dataframe的行數

distinct()函數：將重復值去除

sparkDF.count()：統計dataframe中有多少行

技術分享圖片

將評分為100的電影數量統計出來：

技術分享圖片

（3）pyspark中的dataframe的觀察操作

sel panda 讀取 .com 數據顯示 taf print park 計算 1、讀取： sparkDF = spark.read.csv(path) sparkDF = spark.read.text(path) 2、打印： sparkDF.show()【這是pa

（4）pyspark中dataframe的清理操作

tab tin eight 存在 ast wid column idt src 1、交叉表（crosstab)： pandas中也有，常和pivot_table比較。查看家庭ID與評分的交叉表： 2、處理缺失值：fillna withColumn：新增一列數據 ca

python（3） python中列表常見的操作

下面列出列表常用的方法操作列表以及小例子： 1. Append 在列表末尾新增元素，需在列表末尾新增元素，需要注意幾個點: A. append中新增的引數是作為一個整體 1 >>> name = list("scott

robotframework 學習（3）：Excel檔案的操作

一、前言上一篇部落格寫了一些使用RIDE來進行介面測試的一個簡單demo，在裡面我們可以發現傳輸的資料都是寫死在裡面，如果需要從外面傳輸就需要進行引數化。我這裡用的是excel來儲存需要傳輸的資料，那麼我就需要用rf來對excel進行

JavaScript基礎（3）-JS中的面向物件、定時器、BOM、位置資訊

一、建立物件的幾種常用方式、 1、使用Object或物件字面量建立物件； a、使用Object()內建的建構函式來建立物件，例如： var student = new Object(); // 建立一個studen

大資料ETL實踐探索（3）---- pyspark 之大資料ETL利器

5.spark dataframe 資料匯入Elasticsearch 5.1 dataframe 及環境初始化初始化， spark 第三方網站下載包：elasticsearch-spark-20_2.11-6.1.1.jar http://spark.apache.org/t

Leetcode題解之字串（3）字串中的第一個唯一字元

題目描述：給定一個字串，找到它的第一個不重複的字元，並返回它的索引。如果不存在，則返回 -1。案例: s = "leetcode" 返回 0. s = "loveleetcode", 返回 2. 注意事項：您可以假定該字串只包含小寫字母。思路：第一種

Maven學習筆記（3）-Maven中POM.XML詳解

目錄一、介紹POM Maven之前的構建工具有Make和Ant，其中Make依賴構建指令碼Makefile，Ant依賴構建指令碼build.xml。同理，Maven專案也依賴構建指令碼。 POM（Project Object Model

（七）Intellij 中的git操作

git原理以後會分章節介紹，本次主要說一下intellij怎樣操作git。intellij有很好的git操作介面，可以拉取程式碼，拉取分支詳情，提交程式碼到本地倉庫，提交程式碼到遠端倉庫，可以merg

Java基礎（3）Java中的日期（Date與Calendar）

一、關於Date private static void dateTest(){ //定義時區，可以避免虛擬機器時間與系統時間不一致的問題 // TimeZone.setDefault(TimeZ

Scala 基礎（3）—— 基礎型別和基礎操作

1. Scala 的一些基礎型別 Scala 提供了 8 種基礎型別，對應 Java 的 8 種基本資料型別。其中包括：整數型別：Byte, Short, Int, Long, Char 浮點型別：Float, Double 布林型別：Boolean 與 Java 不同，這 8 種資

深度學習筆記（3）——CNN中一些特殊環節的反向傳播

但是傳統的神經網路無論是隱層還是啟用函式的導數都是可導，可以直接計算出導數函式，然而在CNN網路中存在一些不可導的特殊環節，比如Relu等不可導的啟用函式、造成維數變化的池化取樣、已經引數共享的卷積環節。NN網路的反向傳播本質就是梯度（可能學術中會用殘差這個

scala總結（3）-- scala中常用型別繼承關係

上圖： in Scala Nothing will be used for all null like use cases Option: either Some or None 典型應用： Map中get方法返回Option： scores.get(“Alice

SmartSql使用教程（3）——SmartSql中的事務，及AOP的使用

一、引言　　經過兩章的鋪墊，我們現在對SmartSql已經有了一定的瞭解，那麼今天我們的主題是事務處理。事務處理是常用的一種特性，而SmartSql至少提供了兩種使用事務的方法。一種是通過Repository（動態倉儲）或者ITransaction的常規呼叫，一種是基於AOP提醒的動態代理方式。接下來我們

pyspark之DataFrame學習【dataFrame查詢】（3）

在檢視dataFrame的資訊時，可以通過collect()、show()、或者take()、來檢視DataFrame中的資料（show()和take()包含了限制返回行數的選項） 1.檢視行數可以使用count()方法檢視DataFrame的行數 from pyspa

python下的Pandas中DataFrame基本操作（一），基本函式整理

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中對pandas的方方面面都有了一個權威簡明的入門級的介紹，但在實際使用過程中，我發現書中的內容還只是冰山一角。談到pandas資料的行更新、表合併等操作，一般用到的

Js屬性操作（3）

var har ext utf-8 按鈕 head content doc cli <!DOCTYPE HTML><html><head><meta http-equiv="Content-Type" content="text/h

JavaScript高級程序設計（3）基本概念中

算數 variable 多個產生加法關系操作符 style 語句移動操作符 ECMA-262描述了一組用於操作數據值的操作符，包括算數操作符、位操作符、關系操作符和相等操作符。他們能夠適應很多值，例如字符串、數字值、布爾值甚至對象。在應用對象時，相應的操作符

【Selenium2+Java自動化（3）】-操作瀏覽的基本方法

臨時文件 mage 關閉 log 開始 str 打開 img bsp 前言　　前面已經把環境搭建好了，這從這篇開始，正式學習selenium的webdriver框架。我們平常說的 selenium自動化，其實它並不是類似於QTP之類的有GUI界面的可視化工具，我們要學的是

Python進階（3）_進程與線程中的lock（互斥鎖、遞歸鎖、信號量）

fun 我們 bsp 控制支持發生 class 線程數據操作 1、同步鎖 (Lock) 當各個線程需要訪問一個公共資源時，會出現數據紊亂例如： 1 import threading,time 2 def sub(): 3 global num

（3）pyspark中的dataframe的觀察操作

1、讀取：

2、打印：

3、選擇列

4、篩選列：

5、計算不重復值以及統計dataframe的行數

相關推薦