SparkSQL建立RDD：建立DataFrame的方式，配置Spark on Hive【文字說明+關鍵程式碼】

阿新 • • 發佈：2019-01-28

建立DataFrame的方式

建立DataFrame的方式
		1).讀取json格式的檔案
			a).json檔案不能巢狀
			b).讀取的兩種方式：
				DataFrame df = sqlContext.read().format("json").load("./sparksql/json");
				DataFrame df2 = sqlContext.read().json("sparksql/json");
			c).載入過來的DataFrame 列會按照Ascii碼排序
			d).可以使用DataFrame的API操作DataFrame，也可以將DataFrame註冊成臨時表
				df.registerTempTable("jtable");
			
		2).讀取json格式的RDD
		
		3).讀取普通的RDD載入成DataFrame
			a).反射的方式（少）	
				JavaRDD<Person> personRDD = lineRDD.map(new Function<String, Person>() {

					private static final long serialVersionUID = 1L;

					@Override
					public Person call(String line) throws Exception {
						Person p = new Person();
						p.setId(line.split(",")[0]);
						p.setName(line.split(",")[1]);
						p.setAge(Integer.valueOf(line.split(",")[2]));
						return p;
					}
				});
				DataFrame df = sqlContext.createDataFrame(personRDD, Person.class);
				i).自定類要實現序列化介面
				ii).自定義類的訪問級別是public
				iii).載入過來的DataFrame列也會按照Ascii碼排序
			b).動態建立Schema（多）
				List<StructField> asList =Arrays.asList(
					DataTypes.createStructField("id", DataTypes.StringType, true),
					DataTypes.createStructField("name", DataTypes.StringType, true),
					DataTypes.createStructField("age", DataTypes.IntegerType, true)
				);
				
				StructType schema = DataTypes.createStructType(asList);
				
				DataFrame df = sqlContext.createDataFrame(rowRDD, schema);
				
				i).載入過來的DataFrame列不會按照Ascii碼排序
		
		4).讀取parquent檔案載入成DataFrame
			讀取：
				DataFrame load = sqlContext.read().format("parquet").load("./sparksql/parquet");
				load = sqlContext.read().parquet("./sparksql/parquet");
			儲存：
				df.write().mode(SaveMode.Overwrite).format("parquet").save("./sparksql/parquet");
				df.write().mode(SaveMode.Ignore).parquet("./sparksql/parquet");
			
		5).讀取Mysql中的資料載入成DataFrame
			讀取：
				a).
					Map<String, String> options = new HashMap<String,String>();
					options.put("url", "jdbc:mysql://192.168.179.4:3306/spark");
					options.put("driver", "com.mysql.jdbc.Driver");
					options.put("user", "root");
					options.put("password", "123456");
					options.put("dbtable", "person");
					
					DataFrame person = sqlContext.read().format("jdbc").options(options).load();
				b).
					DataFrameReader reader = sqlContext.read().format("jdbc");
					reader.option("url", "jdbc:mysql://192.168.179.4:3306/spark");
					reader.option("driver", "com.mysql.jdbc.Driver");
					reader.option("user", "root");
					reader.option("password", "123456");
					reader.option("dbtable", "score");
					DataFrame score = reader.load();
			儲存：
				Properties properties = new Properties();
				properties.setProperty("user", "root");
				properties.setProperty("password", "123456");
				result.write().mode(SaveMode.Overwrite).jdbc("jdbc:mysql://192.168.179.4:3306/spark", "result", properties);
				
		6).讀取Hive中的資料載入成DataFrame
			要配置Spark on Hive，如果SparkSQL要讀取資料是Hive中資料,要使用HiveContext，HiveContext是SQLContext的子類。
			讀取：
				HiveContext hiveContext = new HiveContext(sc);
				hiveContext.sql("USE spark");
				DataFrame df = hiveContext.table("good_student_infos");
			儲存：
				hiveContext.sql("DROP TABLE IF EXISTS good_student_infos");
				goodStudentsDF.write().mode(SaveMode.Overwrite).saveAsTable("good_student_infos");

配置spark on Hive:

5.配置Spark on Hive
		1).在客戶端建立../conf/hive-site.xml
			<configuration>
			   <property>
					<name>hive.metastore.uris</name>
					<value>thrift://node1:9083</value>
			   </property>
			</configuration>
		2).啟動Hive，在服務端啟動metaStore服務，hive --service metastore
		3).spark-shell 測試

謝謝你的鼓勵，繼續加油。

SparkSQL建立RDD：建立DataFrame的方式，配置Spark on Hive【文字說明+關鍵程式碼】

建立DataFrame的方式建立DataFrame的方式 1).讀取json格式的檔案 a).json檔案不能巢狀 b).讀取的兩種方式： DataFrame df = sqlContext.read().format("json").load(

SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

在使用sparkSQL，有時想要把rdd中的資料轉換成DataFrame，RDD中的的資料可能時Array型別，或者是想要把陣列型別中的所有元素放到Row中，當陣列中的元素特別多時，可能就會變得更加麻煩，其實Row的Object中為我們提供了一個很好的方法，就是merge方法，話不多說，直接

極簡的雲端一體開發方式，物聯網開放平臺【轉載智聯網事】

【轉載智聯網事】物聯網，已經火熱了好幾年，從最初的智慧產品，到萬物互聯概念，到現在的智慧物聯(AIOT)概念，這個市場已經默默的開花結果，可以看到不同行業應用的物聯網解決方案落地，包括智慧家居，智慧城市，智慧抄表等；隨著物聯網市場的普及性越來越高，蛋糕做大的同時，如何更好的滿足不

spark部分運算元的彙總大全（包含Transformations類運算元，action類運算元，持久化運算元等）【文字說明+Scala程式碼+程式碼連結】

一.Spark中的運算元總結（原理） Spark運算元 1).Transformations ,轉換運算元，懶執行，需要Action類運算元觸發。 map/mapToPair,flatMap,filter,reduceByKey,s

SparkSQL建立RDD：UDF（UserDataFrame）使用者建立自定義函式（包含動態建立schema，使用者自定義函式，查詢字元的個數）【Java版純程式碼】

Java版程式碼： package com.bjsxt; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import org.apache.spark.Spark

SparkSQL建立RDD：UDAF（UserDefinedAggregatedFunction）使用者自定義聚合函式【Java版純程式碼】

要實現8個方法，8個方法中，最為重要的有3個： initialize：初始化，在給，map端每一個分割槽的每一個key進行初始化，給0 update：在map端聚合 merge：在reduce端聚合 Java版程式碼： package com.bjsxt; im

Spark中建立RDD的3種方式

在Spark中建立RDD的建立方式大概可以分為三種：（1）從集合中建立RDD；（2）從外部儲存建立RDD；（3）從其他RDD建立。　而從集合中建立RDD，Spark主要提供了兩中函式：parallelize和makeRDD。我們可以先看看這兩個函式的宣告：

Java Spark之建立RDD的兩種方式和操作RDD

首先看看思維導圖，我的spark是1.6.1版本，jdk是1.7版本 spark是什麼？ Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將Spark 部署在大量廉

Java接入Spark之建立RDD的兩種方式和操作RDD

首先看看思維導圖，我的spark是1.6.1版本，jdk是1.7版本 spark是什麼？ Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將Spar

SparkStreaming部分：updateStateByKey運算元（包含從Linux端獲取資料，flatmap切分，maptopair分類，寫入到本地建立的資料夾中）【Java版純程式碼】

package com.bjsxt; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction;

[1.2]Spark core程式設計（一）之RDD總論與建立RDD的三種方式

參考場景 RDD的理解一、RDD是基於工作集的應用抽象;是分散式、函數語言程式設計的抽象。 MapReduce:基於資料集的處理。兩者的共同特徵：位置感知（具體資料在哪裡）、容錯、負載均衡。基於資料集的處理：從物理儲存裝置上載入資料，然

ActiveX部件不能建立物件：‘dm.dmsoft'，程式碼：800A01AD

解決方法需要兩步：第一步改登錄檔： HKEY_CLASSES_ROOT\VBSFile\Shell\Open|\Command 將 “%SystemRoot%\System32\WScript.exe” “%1” %* 改為 “%SystemRoot

Java 8 建立 Stream 的 10 種方式，我保證你受益無窮!

之前棧長分享過 Java 8 一系列新特性的文章，其中重點介紹了 Stream. 獲取上面這份 Java 8~12 系列新特性

mllib實踐（二）之LinearRegression實踐（DataFrame方式，普通標籤格式轉DataFrame）（整合網際網路上多個例項）

package mllib; import org.apache.spark.{ SparkConf, SparkContext } import org.apache.spark.ml.linalg.Vectors import org.apache.spark.mllib.regress

比特幣的機制1：記賬的方式，交易的語法，比特幣指令碼，P2PKH交易

原文連結：郭老師的備課資料比特幣的共識機制生成了一個append-only的賬本，一旦交易在賬本中，再也不能更改。礦工——也即一些有較高計算力的節點，生成區塊，並且驗證交易是正確的（簽名是正確的、幣沒有重複花費）等。賬本和區塊鏈網路使得比特幣成為一種貨幣。在本文中，將介紹一些細節。

比特幣的機制1：記賬的方式，交易的語法，P2PKH指令碼

比特幣的共識機制生成了一個append-only的賬本，一旦交易在賬本中，再也不能更改。礦工——也即一些有較高計算力的節點，生成區塊，並且驗證交易是正確的（簽名是正確的、幣沒有重複花費）等。賬本和區塊鏈網路使得比特幣成為一種貨幣。在本文中，將介紹一些細節。交

專案複習期總結3：CSS引入方式，註釋，命名規範，背景，行高，文字屬性

目錄： 1、CSS註釋的書寫怎麼寫？好處？ 2、CSS引入方式各種的優缺點 3、選擇器的寫法與選擇器的優先順序 4、CSS命名規範 5、背景，行高 6、文字(text與font開頭)等所有屬

restful：獲取引數方式，及restcontroller與controller

restful風格簡單的理解，restful是一種url風格，或者說是規範，在以前的網址中，假定一個業務，取得資料網址為http://test/get ,新增資訊的網址為http://test/post ,類似這樣。但是在restful風格中，取得

ros中建立msg和srv檔案時，配置CMakeLists.txt檔案問題

作為一個ROS菜鳥，在按照ros wiki上的教程一步一步的走的過程中，在自己配置msg和srv檔案時，遇到了編譯的問題，分析問題，發現是package下的CMakeLists.txt檔案配置出現問題。以下是建立並編譯一個新的package後生成的CMakeLists.t

JavaEE基礎(01)：Servlet實現方式，生命週期執行過程

本文原始碼：GitHub·點這裡 || GitEE·點這裡一、Servlet簡介 Java編寫的伺服器端程式，具有獨立於平臺和協議的特性，主要功能在於互動式地瀏覽和生成資料，生成動態Web內容。使用Servlet，可以收集來自網頁表單的使用者輸入，呈現來自資料庫或者其他源的記錄，還可以動態建立網頁。二

SparkSQL建立RDD：建立DataFrame的方式，配置Spark on Hive【文字說明+關鍵程式碼】

相關推薦