Spark實戰(1) 配置AWS EMR 和Zeppelin Notebook

阿新 • • 發佈：2018-11-03

SparkContext和SparkSession的區別，如何取用？

SparkContext:

在Spark 2.0.0之前使用
通過資源管理器例如YARN來連線叢集
需要傳入SparkConf來建立SparkContext物件
如果要使用SQL，HIVE或者Streaming的API, 需要建立單獨的Context

  val conf = new SparkConf()
  .setAppName(“RetailDataAnalysis”)
  .setMaster(“spark://master:7077”)
  . 
set(“spark.executor.memory”, “2g”)
  
  val sc = new SparkContext(conf)

SparkSession:

出現在Spark 2.0.0之後, 推薦使用
除了能夠呼叫Spark的全部功能之外，允許DataFrame和Dataset APIs
對於SQL, HIVE和Streaming，不需要建立單獨的Context

可以在初始化session之後配置config

 # Creating Spark session:
 val spark = SparkSession
 			. 
builder
 			.appName("WorldBankIndex")
 			.getOrCreate()

  # Configuring properties:
  spark.conf.set("spark.sql.shuffle.partitions", 6)
  spark.conf.set("spark.executor.memory", "2g")

配置AWS EMR

# 1. Open aws console
# 2. Access the EMR
# 3. Create cluser
# 4. Go to andvanced options 

# 5. Release: emr-5.11.1
# 6. Hadoop: 2.7.3
# 7. Zeppelin: 0.7.3
# 8. Spark: 2.2.1
# 9. Choose spot price to save budget
# 10. Create you key pair, download and chmod 400 it
# 11. Add inbound Security Group: 22 for ssh, 8890 for Zeppelin

建立Zeppelin Notebook

# 1. access master node public dns:8890
# 2. Create new note
# 3. Default Interpreter: spark
%pyspark # 4. import the pyspark package
# after importing package, you could run python code in zeppelin
for i in [1,2,3]:
	print(i)
	
# the spark context is already set
sc

# the spark session is already set
spark

# read file fro aws s3
df = spark.read.csv("s3n://MyaccessKey:[email protected]/file.csv")

Spark實戰(1) 配置AWS EMR 和Zeppelin Notebook

SparkContext和SparkSession的區別，如何取用？ SparkContext: 在Spark 2.0.0之前使用通過資源管理器例如YARN來連線叢集需要傳入SparkConf來建立SparkContext物件

Spark實戰----(1)使用Scala開發本地測試的Spark WordCount程式

第一步：JDk的安裝第二步：Scala的安裝不會的可以看這裡 Scala環境安裝鑑於以上兩步較為簡單，不再詳細贅述第三步：去Spark官方網站下載Spark包我下載的檔名是spark-1.6.2-bin-hadoop2.6 點選Dow

spark學習1——配置hadoop 單機模式並執行WordCount例項（ubuntu14.04 & hadoop 2.6.0）

1. 安裝SSH hadoop是採用SSH進行通訊的，此時要設定密碼為空，即不需要密碼登陸，免去每次登陸時都要輸入密碼，當叢集較大時該步驟顯得尤為重要。 $ sudo apt-get install ssh 安裝完成後啟動服務： $ /etc/init.

3周第1次課 linux和windows互傳文件用戶配置文件和密碼配置文件用戶組管理用戶管理

windows inux 互傳文件一、linux和windows互傳文件1.Linux 傳文件到 windows ##此辦法只適合使用(xshell securecrt)工具的用戶[root@centos701 ~]# yum install -y lrzsz ##下載支

2.27Linux和windows互傳;3.1用戶配置文件和密碼配置文件;3.2/3.3用戶組用戶

用戶組管理用戶管理 2.27 Linux和windows互傳文件1. yum安裝 lrzsz：[root@hao-01 ~]# yum install -y lrzsz2. Linux上的文件，傳輸給windows下：sz 跟文件[root@hao-01 ~]# sz 1.txt3. windows

2.27linux和windows互傳文件 3.1 用戶配置文件和密碼配置文件 3.2 用戶組管理

用戶用戶組 2.27linux和windows互傳文件1、linux和window互傳文件linux把文件傳遞到windows上使用szwindow文件傳遞到linux使用rz3.1 用戶配置文件和密碼配置文件1、用戶配置文件和密碼配置文件密碼文件，也是用戶的核心文件用戶名開頭，一共分為7個字段；r

HP C7000刀片服務器實戰1：刀片地址配置

-o 電腦 fff 服務器 pro roc 初始化 water p地址 1.到機房看到刀片服務器，打開機櫃前面的LED顯示屏，設置OA管理板初始化IP地址 2.設置完IP地址後，通過網線連接OA管理板和電腦，配置電腦和管理板在同一個網段，實現電腦可以訪問管理板的地址。通過網

三周第一次課 2.27linux和windows互傳文件 3.1 用戶配置文件和密碼配置文件 3.2

學習打卡三周第一次課2.27linux和windows互傳文件3.1 用戶配置文件和密碼配置文件3.2 用戶組管理3.3 用戶管理 2.27linux和windows互傳文件首先要安裝lrzsz 這個包 sz 文件名把文件傳送到win系統上可以在win中指定目錄 rz 把win系統上的文件傳送到l

CentOS&.NET Core初試-1-CentOS的安裝和網卡的配置

linux sta boot install 系統 -c net-tools 本機 network 軟件環境系統版本：CentOS Linux release 7.5.1804 (Core) 虛擬機：VMware 12pro（14Pro安裝後會出現黑屏的情況）安裝Cen

Django 1.8_視圖和URL配置

多個則表達式斜線所在 offset 以及正則消息 sites 前情提要　　學習了如何創建django項目，運行開發django服務器，並了解了mvc模式。內容　　VIEW 　　URL 　　　　正則表達式　　　　錯誤解析與尋求幫助 hello worl

Nginx實戰 1.7-1.11 Nginx架構分析，虛擬機器配置

1.7-1.9 Nginx架構分析 Nginx模組化結構 Nginx涉及到的模組分為核心模組、標準HTTP模組、可選HTTP模組、郵件服務模組以及第三方模組等五大類。核心模組核心模組是指Nginx伺服器正常執行時必不可少的模組，它們提供了Nginx最基本最核心的服務，如程序管理、許可

併發程式設計實戰(1)：執行緒安全性之有狀態和無狀態物件

程序和執行緒的區別程序是具有一定獨立功能的程式關於某個資料集合上的一次執行活動,程序是系統進行資源分配和排程的一個獨立單位. 執行緒是程序的一個實體,是CPU排程和分派的基本單位,它是比程序更小的能獨立執行的基本單位. 程序在執行過程中擁有獨立的記憶體單元，程序

前端高階（二十五）vue2.0專案實戰一配置簡要說明、程式碼簡要說明、Import/Export、輪播和列表例子

一、啟動服務自動開啟瀏覽器執行二、配置簡要說明 1、node_modules 　　安裝好的依賴檔案,中介軟體等，所在位置 2、package.jason 　　配置當前專案要安裝的中介軟體和依賴檔案 { "name": "my-app", "ver

《Hadoop技術內幕：深入解析Hadoop和HDFS》2.1配置檔案簡介

2.1　配置檔案簡介配置檔案是一個靈活系統不可缺少的一部分，雖然配置檔案非常重要，但卻沒有標準。本節我們來了解 Windows 作業系統和 Java 環境中的配置檔案。 2.1.1　Windows 作業系統的配置檔案 Windows 系統廣泛使用一種特殊化的 AS

Spark實戰(3) DataFrame基礎之行列操作和SQL

文章目錄行列操作SQL操作行列操作 df['age'] # I only get a column object df.select('age').show() # I get a datafram with a column that we could us

Hive(1):Hive的安裝和配置

一、Hive版本 hive-1.2.1 二、安裝和配置 1.解壓： tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/modules/ 2.配置環境：修改名稱： mv hive-env.sh.template hiv

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

《Netty實戰》Netty In Action中文版第1章——Netty——非同步和事件驅動

Java網路程式設計 Netty簡介 Netty的核心元件假設你正在為一個重要的大型公司開發一款全新的任務關鍵型的應用程式。在第一次會議上，你得知該系統必須要能夠擴充套件到支撐150 000名併發使用者，並且不能有任何的效能損失，這時所有的目光都投向了你。你會怎麼說呢？如果你可以自信地說：“當然，沒

3臺機器配置spark-2.1.0叢集

一. 環境介紹三臺主機，主機名和ip分別為： ubuntu1 10.3.19.171 ubuntu2 10.3.19.172 ubuntu3 10.3.19.173 三臺主機的登入使用者名稱是bigdata，home目錄是/home/bigdata 現在三臺主機上部

測試hadoop-1.2.1是否成功安裝和配置

本文說明hadoop安裝之後驗證安裝和配置的方法，hadoop-1.2.1安裝方法參考：hadoop安裝成功之後，要簡單驗證是否成功安裝和配置，在hadoop-1.2.1安裝方法詳解教程中，已經通過jps命令簡單的驗證，這裡通過執行MapReduce作業統計單詞來進一步驗證

Spark實戰(1) 配置AWS EMR 和Zeppelin Notebook

SparkContext和SparkSession的區別，如何取用？

配置AWS EMR

建立Zeppelin Notebook

相關推薦