spark1.6使用：讀取本地外部資料，把RDD轉化成DataFrame，儲存為parquet格式,讀取csv格式

阿新 • • 發佈：2018-11-12

一、先開啟Hadoop和spark

略

二、啟動spark-shell

spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar

1.讀取spark目錄下面的logs日誌作為測試：

val alllog=sc.textFile("file:///usr/local/src/spark-1.6.1-bin-hadoop2.6/logs/*out*")

alllog.count 看看一共有347記錄

2.轉為為DataFrame

現在讀取進來的是RDD格式，用map函式把每條記錄轉成一行

import org.apache.spark.sql.Row

val alllogRDD=alllog.map(x =>Row(x))

import org.apache.spark.sql.types._

val schemaString="line"

val schema=StructType(schemaString.split(" ").map(fieldName =>StructField(fieldName,StringType,true)))

val alllogDataFrame = sqlContext.createDataFrame(alllogRDD, schema)

alllogDataFrame.printSchema  #列印schema
alllogDataFrame.show(false) #這裡的false表示不省略，否則跟下午一樣，會三點省略

到此為止，已經把RDD轉化為DataFrame了。

三、把DataFrame轉為為表用SQL查詢

alllogDataFrame.registerTempTable("log")

sqlContext.sql("SELECT * FROM log").show()

到此就可以使用SQL了。

四、讀取和儲存外部資料來源

1.讀取json檔案

val df = sqlContext.read.format("json").load("file:///mnt/hgfs/vm/china.json")

df.printSchema

df.select("*").write.format("parquet").mode("overwrite").save("file:///mnt/hgfs/vm/china.parquet") #儲存為parquet格式

這裡的mode可以有overwrite，append，ignore等模式，也可以不用。

這樣就直接生產DataFrame資料，不用新增schema資訊了。

對於parquet檔案，還有更高階的使用方法，直接讀取檔案就行了

val df = sqlContext.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

對於json裡面有巢狀陣列，想要展開成多行，可以在SQL中使用explode函

spark1.6使用：讀取本地外部資料，把RDD轉化成DataFrame，儲存為parquet格式,讀取csv格式

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.j

spark讀取日誌檔案，把RDD轉化成DataFrame

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc

SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

在使用sparkSQL，有時想要把rdd中的資料轉換成DataFrame，RDD中的的資料可能時Array型別，或者是想要把陣列型別中的所有元素放到Row中，當陣列中的元素特別多時，可能就會變得更加麻煩，其實Row的Object中為我們提供了一個很好的方法，就是merge方法，話不多說，直接

java把物件轉化成流，和把流轉化成物件（包含clone機制+序列化機制）

類如下，這裡為了測試僅僅用了內部類class Book implements Serializable { int i = 1; }物件轉化成位元組Book b = new Book(); B

配置sparksql讀hive，dataframe和RDD，將RDD轉換成Dataframe，檢視，withcolumn

文章目錄退出spark-shell 使用spark自帶檔案建立dataframe 退出安全模式配置spark讀hive 1.pom檔案增加 2.resource下加檔案 3.修改h

C#中，把int轉成string，string轉成int

int a; float b; a = int.Parse (textBox.Text); //string型別轉換int型別 b = float.Parse(textBox.Text); //string型別轉換float型別以此類推\(^o^)/~

LDAP基礎：6：使用ldapsearch進行資料查詢

在前面的文章中，我們已經多次使用ldapsearch進行資訊的查詢，但都是一條命令查詢出所有內容，這篇文章對於ldapsearch的常用方式進行進一步的解釋和說明。操作方式執行場所對LDAP進行操作，場所不限，LDAP伺服器上進行操作，也可以在可以連線LDAP服務的客戶

pandas讀取首行資料（首行無列名），dataframe資料錶轉list陣列格式，dataframe轉置

程式碼： def delbycelllist(self, readfrom=None, sheet_name='Sheet1', cgilist=None, cellnamelist=None): if cgilist: fo

聯想ERP專案實施案例分析（6：使用者培訓和資料準備

聯想ERP專案實施案例分析（6）：使用者培訓和資料準備一、集團專案組完成使用者培訓教材編寫與稽核，對教員進行培訓1、方法：1.1、目標：選擇合適的人在適宜的時間接受合適的培訓以完成知識轉移，使聯想能擁有專家、資源和一套方法論，實現自給自足。1.2、職責：專案組落實了各區域培訓負

MSSQL 讀取本地檔案資料

--建立一個臨時表create table #testtable( context ntext);select * from #testtable --將本地檔案寫入表中BULK INSERT #testtable FROM 'c:/1111.txt'WITH ( DATAFILETYPE = 'cha

讀取本地json資料實現省市區三級聯動PickerView

這個功能在應用中還是用的比較多的，這裡我將之前的一個電商專案中使用到的省市區三級聯動選擇器的程式碼粘出來，需要的自取。實現UI如圖：首先是省市區的json資料專案目錄結構使用程式碼匯入jar包 co

《Java 8 in Action》Chapter 6：用流收集資料

1. 收集器簡介 collect() 接收一個型別為 Collector 的引數，這個引數決定了如何把流中的元素聚合到其它資料結構中。Collectors 類包含了大量常用收集器的工廠方法，toList() 和 toSet() 就是其中最常見的兩個，除了它們還有很多收集器，用來對資料進行對複雜的轉換。指令式

Python查詢MySQL資料，並提取mysql欄位名轉化成DataFrame

今天覆習一下，用python操作mysql以及excel，並且作為橋樑，連線mysql，excel. 那麼既然用到了python操作資料就不免需要用到dataframe做資料分析，本文主要一個麻煩點在於從mysql 中獲取到的資料沒有欄位名，下面直接上程式碼： import pymys

Android camera2 回撥imagereader 從Image拿到YUV資料轉化成RGB，生成bitmap並儲存

ImageUtil.java import android.graphics.ImageFormat; import android.media.Image; import android.os.Build; import android.support.annotation.RequiresApi;

《連載 | 物聯網框架ServerSuperIO教程》1.4種通訊模式機制。附小文：招.NET開發，結果他轉JAVA了，一切都是為了生活

參考文章：一、感慨上大學的時候，沒有學過C#，花了5塊錢在地壇書市買了一本教程，也就算是正式入行了。後來深造，學過JAVA，後來迫於生計，打算轉JAVA了。後來考慮考慮，自己寫的框架還是有很大發展餘地，後來還是在C#的陣地上堅持了下來。從一開始的雛形，到SuperIO的

在請求資料回來時，將字串序列化成物件，頁面渲染思路

var vm = new Vue({ el: "#searchApp", data: { ly, search:{}, goodsList :[], total :0,

打造強大的BaseModel（2）：讓Model實現自動對映，將字典轉化成Model

這篇文章將講述Model一項更高階也最常用的功能，讓Model實現自動對映–將字典轉化成Model(所有程式碼全由Swift實現) 將JSON轉化為Model的意義在iOS開發中，基於Model的資料流起到了至關重要的作用。從網路獲取的資料需要進一步處理轉到成View可用的

vue單頁應用中，使用setInterval()定時向伺服器獲取資料，後來跳轉頁面後，發現還在不停的獲取資料。

使用VUE開發單頁專案時遇到這樣的問題，mounted中使用setInterval()定時向伺服器獲取資料，後來跳轉頁面後，發現還在不停的獲取資料。我以為是因為我路由用的push導致的，改成replace也是這樣，後來就在部落格園找到答案了，如下： http://www.cnblogs.com/zzbp/p/

C#讀取XML檔案資料和把資料儲存至xml的方法

原文在百度知道中，來源於多個網友。新浪微博：http://blog.sina.com.cn/s/blog_ad7fd0f4010180md.html （一）儲存 var xml =XElement.Load(@"路徑");xml.Element("節點名字").AddA

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

spark1.6使用：讀取本地外部資料，把RDD轉化成DataFrame，儲存為parquet格式,讀取csv格式

相關推薦