[大資料]spark入門 in python（一）HelloWorld

阿新 • • 發佈：2019-01-04

之前由於工作的需要玩了快一年的hadoop，做了一些資料分析的基礎工作。

自然，hadoop用做離線分析還是完全滿足需求的，無論是自己寫mapreduce程式碼開發

又或者使用hive來便利分析，但是面對實時計算，就需要跟高一層級的框架了，storm，spark

就是對應的技術了，於是自己開始學習spark，作為半路出家的選手自然選用了python作為開發語言

下面就是自己的spark學習筆記了，主要參考書籍：Spark快速大資料分析

spark支援多種開發語言，scala，java，python等

scala，java都不熟，於是乎採用了python，一種：一種方法解決所有問題的語言。

一句話總結：spark是一個基於記憶體的大資料計算框架，

上層包括了：Spark SQL類似HiveQL， Spark Streaming 實時資料流計算，MLlib 機器學習演算法包，GraphX 圖演算法包

底層 SparkCore 實現了基本功能：任務排程，記憶體管理，錯誤恢復，儲存互動等，SparkCore還包含了對RDD（彈性分散式資料集）的API定義

RDD是Spark對計算任務封裝，現在不懂也沒關係，後面會隨著例項進一步理解RDD

一、Spark安裝:

單機版本spark安裝相當簡單，從官網下載一個原始碼包，解壓即可。http://spark.apache.org/downloads.html

解壓，把bin目錄加入環境變數，pyspark即可啟動python shell

單機模式啟動pyspark後

一個簡單的demo：

>>>lines = sc.textFile("1.txt") //建立一個RDD，“1.txt為本地存在的檔案

>>> lines

MapPartitionsRDD[4] at textFile at NativeMethodAccessorImpl.java:-2

>>> lines.count()

通過lines物件，可以呼叫基本的函式，統計單詞數等

例子中sc是什麼呢？SparkContext。

每一個spark應用都有一個驅動器程式（）來發起叢集上的各種並行操作，pyspark即驅動器程式，

驅動器程式通過一個SparkContext物件來訪問Spark，sc代表對計算叢集的一個連線。

驅動器程式一般要管理多個執行器節點，將計算任務分發給不同的節點計算。

下面繼續完成大資料下的Helloword：word count 程式：

>>> words = lines.flatMap(lambda line: line.split(' '))

>>> words

PythonRDD[8] at RDD at PythonRDD.scala:43

>>> wc = words.map(lambda x:(x,1))

>>> wc

PythonRDD[9] at RDD at PythonRDD.scala:43

>>> from operator import add

>>> counts = wc.reduceByKey(add)

>>> counts

PythonRDD[14] at RDD at PythonRDD.scala:43

>>> counts.saveAsTextFile("wc")

示例中可以看出 lines，words，wc，counts都是RDD物件例項

每一步操作在Spark都是RDD的一個抽象

獨立應用，不通過shell怎麼寫獨立的指令碼呢，

直接編寫校本檔案，然後通過spark-submit提交即可

eg：worldcount程式的py指令碼如下：

########first.py############

from pyspark import SparkConf, SparkContext
from operator import add

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf=conf)

lines = sc.textFile("/Users/xiabin/1.txt")

words = lines.flatMap(lambda line: line.split(' '))
wc = words.map(lambda x:(x,1))
counts = wc.reduceByKey(add)

counts.saveAsTextFile("wcres")

########first.py############

測試中還發現，spark-submit可以智慧的識別應用的一些py模組，比如import一個myconf.py檔案

或者一個包都可以無需新增任何程式碼執行（只單機實驗）。

第一次接觸下來對比寫hadoop的mapreduce程式碼，spark的封裝呼叫相對來說簡單了不少。

[大資料]spark入門 in python（一）HelloWorld

之前由於工作的需要玩了快一年的hadoop，做了一些資料分析的基礎工作。自然，hadoop用做離線分析還是完全滿足需求的，無論是自己寫mapreduce程式碼開發又或者使用hive來便利分析，但是面對實時計算，就需要跟高一層級的框架了，storm，spark 就是對應的

python下建立elasticsearch索引實現大資料搜尋——之環境搭建（一）

目錄 1.需求闡述 1）資料儲存在阿里雲內網的Mysql伺服器上，需要通過一臺伺服器SSH隧道穿透取得資料。 2）首先明確，一張設計圖需要多種素材來構成。資料量很大，需要操作的有兩個表，稱為stylepatternshow表，目前資料3w行（

Spark 大資料中文分詞統計（一）開發環境搭建

幾年前搞BI專案時就聽說過大資料技術，當時也買了書，可惜沒有認真去學。幾年5月份開始，報名參加王家林老師的大資料蘑菇雲行動，才算真正開始學習Spark，學習大資料技術。網上很多Spark的例子都是經典的WordCount exam

Spark入門詳解（一）-Spark簡介

個人部落格原文連結簡介 Spark是基於記憶體計算的大資料分散式計算框架。Spark基於記憶體計算，提供可互動查詢方式，提供近實時處理方式，同時保證了高容錯性和高可伸縮性，允許使用者將Spark部署在大量廉價硬體之上，形成叢集。 Spark使用Scala語言進行實現，它是一種面

大資料常見面試題彙總（一）

生活的本質就是快樂地分享引導技術往熟悉的地方引導回答問題需要做到：簡潔、痛點大資料的本質：從資料中挖掘價值雲端計算的本質：共享服務【某公司筆試面試題】 1\使用mr，spark ,spark sql編寫word count程式【Spark 版本】 va

大資料處理的關鍵技術（一）

關於大資料的學習以及瞭解大資料的用途都是很多人比較關注的，畢竟大資料這個詞是近幾年才興起並迅速火熱起來，也有越來越多的朋友想要加入到大資料行業。如果想要學好大資料就必須對大資料處理的關鍵技術有所瞭解，那麼大資料的關鍵技術都有哪些呢？下面就由小編為大家解答一下這個問題。首先我們給大

大資料Hadoop叢集環境搭建（一）

前言 Hadoop在大資料技術體系中的地位至關重要，Hadoop是大資料技術的基礎，對Hadoop基礎知識的掌握的紮實程度，會決定在大資料技術道路上走多遠。這是一篇入門文章，Hadoop的學習方法很多，網上也有很多學習路線圖。本文的思路是：以安裝部署Apache Hadoop2.x

大資料概述及其生態圈（一）

大資料是什麼經常聽別人說“我要去學習大資料”，乍一聽大資料應該是某個技術。百度解釋：無法在規定時間內用給現有的常規軟體工具對其內容進行抓取、管理和處理的資料集合。通俗講，大資料就是大到難以處理的資料集合，是社會技術發展過程中碰到的棘手問題。於是，我們

資料結構與演算法python（一）引言

1.程式設計解決的兩個問題：（1）處理實際問題中的各種物件及其相互關係，即對映到python能處理的某種結構（2）實際問題的求解過程對映到一個計算過程，用程式實現該過程2.解決一個實際問題而開發程式的工作氛圍四個階段：（1）分析：弄清楚要求解的問題，給出儘可能嚴格的描述（2）

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

一、資料獲取手段 1.資料倉庫（DW）：將所有業務資料經彙總處理構成 1）特點：全部事實的記錄；部分維

Python編程入門到實踐（一）

文本編輯器 apt 會有 linu sta all 就是 AS g++ 1.安裝文本編輯器Geany 首先確保已經安裝了gcc與g++（一般的Linux都會有內置的）： sudo apt-get install gcc sudo apt-get install g++

Python入門小程序（一）

while 條件循環條件次數 ima http post nba random 學習了FishC的Python零基礎入門第4節，本次的內容是Python的while循環語句和條件語句。 1. 用一個條件語句實現猜數字的小程序程序設定一個數字，用戶輸入一個數字，判斷是

python-類-從入門到精通（一）

0.什麼是類類（Class）是面向物件程式設計（OOP，Object-Oriented Programming）實現資訊封裝的基礎。類是一種使用者定義型別，也稱類型別。每個類包含資料說明和一組操作資料或傳遞訊息的函式。類的例項稱為物件。面向物件程式設計是最有效的軟體編寫方法之一。在面向物

簡易Python入門攻略（一）

python是最近越來越火的程式語言，也是非常多準備踏入程式設計領域的首選語言。 w3cschool經過精心的歸納和總結，為各位小夥伴帶來一套簡單，並且有效的入門攻略。請各位小夥伴務必認真閱讀和觀看今天先來聊聊Python和Python的學習方法。

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

1、Zookeeper用於叢集主備切換。 2、YARN讓叢集具備更好的擴充套件性。 3、Spark沒有儲存能力。 4、Spark的Master負責叢集的資源管理，Slave用於執行計算任務。 5、Hadoop從2.x開始，把儲存和計算分離開來，形成兩個相對獨立的子叢集：HDF

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

501、MapReduce計算框架中的輸入和輸出的基本資料結構是鍵-值對。 502、Hadoop神奇的一部分在於sort和shuffle過程。 503、Hive驅動計算的“語言”是一XML形式編碼的。 504、Hive通過和Jobtracker通訊來初始化MapReduce任務（Job）。 505、M

python入門學習筆記（一）——字串+註釋

利用課外晚上時間計劃10天基本學完python的基本用法，然後再寫一些小的專案。堅持10天每天一貼，記錄和鞭策自己的學習。如果有興趣的朋友可以來看看，不會適合零基礎學習的，還是需要一些程式設計基礎的用來學習的。 1. 字串 1.1修

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

Spark從入門到精通（一）

什麼是Spark 大資料計算框架離線批處理大資料體系架構圖（Spark） Spark包含了大資料領域常見的各種計算框架：比如Spark Core用於離線計算，Spark SQL用於互動式查詢，Spark Streaming用於實時流式計算，Spark MLib用於機器學習，Spark

Python（一）資料型別和表示式

1資料型別數值；布林型；字串；空值（None) 1數值型整數：十進位制；十六進位制（以0x開頭）；八進位制整數（以0開頭）；二進位制整數（以0b開頭）浮點數又稱小數複數：由實部和虛部構

[大資料]spark入門 in python（一）HelloWorld

相關推薦