Spark Streaming實時流處理專案實戰慕課知識點總結

阿新 • • 發佈：2018-11-17

一直比較推崇學習的時候帶著問題去思考

1 Spark transformation和action的區別

簡介：
1，transformation是得到一個新的RDD，方式很多，比如從資料來源生成一個新的RDD，從RDD生成一個新的RDD

2，action是得到一個值，或者一個結果（直接將RDDcache到記憶體中）

所有的transformation都是採用的懶策略，就是如果只是將transformation提交是不會執行計算的，計算只有在action被提交的時候才被觸發。

transformation操作：

map(func):對呼叫map的RDD資料集中的每個element都使用func，然後返回一個新的RDD,這個返回的資料集是分散式的資料集

filter(func): 對呼叫filter的RDD資料集中的每個元素都使用func，然後返回一個包含使func為true的元素構成的RDD

flatMap(func):和map差不多，但是flatMap生成的是多個結果

mapPartitions(func):和map很像，但是map是每個element，而mapPartitions是每個partition

mapPartitionsWithSplit(func):和mapPartitions很像，但是func作用的是其中一個split上，所以func中應該有index

sample(withReplacement,faction,seed):抽樣

union(otherDataset)：返回一個新的dataset，包含源dataset和給定dataset的元素的集合

distinct([numTasks]):返回一個新的dataset，這個dataset含有的是源dataset中的distinct的element

groupByKey(numTasks):返回(K,Seq[V])，也就是hadoop中reduce函式接受的key-valuelist

reduceByKey(func,[numTasks]):就是用一個給定的reducefunc再作用在groupByKey產生的(K,Seq[V]),比如求和，求平均數

sortByKey([ascending],[numTasks]):按照key來進行排序，是升序還是降序，ascending是boolean型別

join(otherDataset,[numTasks]):當有兩個KV的dataset(K,V)和(K,W)，返回的是(K,(V,W))的dataset,numTasks為併發的任務數

cogroup(otherDataset,[numTasks]):當有兩個KV的dataset(K,V)和(K,W)，返回的是(K,Seq[V],Seq[W])的dataset,numTasks為併發的任務數

cartesian(otherDataset)：笛卡爾積就是m*n，大家懂的

action操作：

reduce(func)：說白了就是聚集，但是傳入的函式是兩個引數輸入返回一個值，這個函式必須是滿足交換律和結合律的

collect()：一般在filter或者足夠小的結果的時候，再用collect封裝返回一個數組

count():返回的是dataset中的element的個數

first():返回的是dataset中的第一個元素

take(n):返回前n個elements，這個士driverprogram返回的

takeSample(withReplacement，num，seed)：抽樣返回一個dataset中的num個元素，隨機種子seed

saveAsTextFile（path）：把dataset寫到一個textfile中，或者hdfs，或者hdfs支援的檔案系統中，spark把每條記錄都轉換為一行記錄，然後寫到file中

saveAsSequenceFile(path):只能用在key-value對上，然後生成SequenceFile寫到本地或者hadoop檔案系統

countByKey()：返回的是key對應的個數的一個map，作用於一個RDD

foreach(func):對dataset中的每個元素都使用func

方法

Spark Streaming實時流處理專案實戰慕課知識點總結

一直比較推崇學習的時候帶著問題去思考 1 Spark transformation和action的區別簡介： 1，transformation是得到一個新的RDD，方式很多，比如從資料來源生成一個新的RDD，從RDD生成一個新的RDD 2，action是得到一個值，或者一個結

Spark Streaming實時流處理專案實戰筆記

第二章分散式日誌收集框架Flume 課程目錄業務現狀分析=>flume概述=>flume架構及核心元件=>flume環境部署=>flume實戰 1、業務現狀分析 WebServer/ApplicationServer分散在各個機器上大資

Spark Streaming實時流處理專案實戰筆記一

Spark Streaming實時流處理專案實戰筆記一視訊資源下載：https://download.csdn.net/download/mys_mys/10778011 第一章：課程介紹 Hadoop環境：虛擬機器Centos6.4 Window：VMware 本地登入到

Spark Streaming實時流處理專案實戰

12-1 -課程目錄 12-2 -需求說明 12-3 -使用者行為日誌介紹 12-4 -Python日誌產生器開發之產生訪問url和ip資訊 12-5 -Python日誌產生器開發之產生referer和狀態碼資訊 12-6 -Python日誌產生器開發之產生日誌訪問時間 12-7 -P

Spark Streaming實時流處理專案實戰

Spark Streaming實時流處理專案實戰教程連結：https://pan.baidu.com/s/1-Wm73wGGxAMS91q3mt7KYQ 提取碼：hhd8 第一章：課程介紹 Hadoop環境：虛擬機器Centos6.4 Window：VMware 本地登入到遠端

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記三之銘文升級版

聚集配置文件 ssi path fig rect 擴展 str 控制臺銘文一級： Flume概述Flume is a distributed, reliable, and available service for efficiently collecting(收集),

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記五之銘文升級版

環境變量 local server 節點數 replicas conn 配置環境 park 所有銘文一級：單節點單broker的部署及使用 $KAFKA_HOME/config/server.propertiesbroker.id=0listenershost.name

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記九之銘文升級版

file sin ssi 右上角 result map tap 核心內容銘文一級：核心概念：StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { th

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十之銘文升級版

state 分鐘 mooc 系統數據使用連接 var style stream 銘文一級：第八章：Spark Streaming進階與案例實戰 updateStateByKey算子需求：統計到目前為止累積出現的單詞的個數(需要保持住以前的狀態) java.lang.I

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十五之銘文升級版

spa for 序列 html art mat div pre paths 銘文一級：[木有筆記] 銘文二級：第12章 Spark Streaming項目實戰行為日誌分析： 1.訪問量的統計 2.網站黏性 3.推薦 Python實時產生數據訪問URL->IP

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十六之銘文升級版

.so zook orm 3.1 date nta highlight org 結果銘文一級： linux crontab 網站：http://tool.lu/crontab 每一分鐘執行一次的crontab表達式： */1 * * * * crontab -e */1

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記十七之銘文升級版

eid 實時 root 現在 ava == oop urn 啟動銘文一級：功能1：今天到現在為止實戰課程的訪問量 yyyyMMdd courseid 使用數據庫來進行存儲我們的統計結果 Spark Streaming把統計結果寫入到數據庫裏面可視化前端根據：yyy

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記二十之銘文升級版

.get frame 結果取數據 lena echarts object 原理四種銘文一級： Spring Boot整合Echarts動態獲取HBase的數據1）動態的傳遞進去當天的時間 a) 在代碼中寫死 b) 讓你查詢昨天的、前天的咋辦？在頁面中放一個時間插

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記二十一之銘文升級版

win7 小時其他 har safari 北京 web 連接 rim 銘文一級： DataV功能說明1）點擊量分省排名/運營商訪問占比 Spark SQL項目實戰課程：通過IP就能解析到省份、城市、運營商 2）瀏覽器訪問占比/操作系統占比 Hadoop項目：userAg

PK2227-Spark Streaming實時流處理項目實戰

con ans filesize strip for 新年感覺 post pre PK2227-Spark Streaming實時流處理項目實戰新年伊始，學習要趁早，點滴記錄，學習就是進步！隨筆背景：在很多時候，很多入門不久的朋友都會問我：我是從其他語言轉到程序

spark streaming 實時流處理實戰視訊

第1章課程引見第2章初識實時流處理第3章散佈式日誌蒐集框架Flume第4章散佈式釋出訂閱訊息系統Kafka第5章環境搭建第6章 Spark Streaming入門第7章 Spark Streaming中心概念與程式設計第8章 Spark Streaming進階與案例

Spark Streaming實時流處理筆記（7)—— 環境搭建

1 配置Hadoop hadoop-env.sh export JAVA_HOME=/usr/apps/jdk1.8.0_181-amd64 core-site.xml <configuration> <property&

Spark Streaming實時流處理筆記（6）—— Kafka 和 Flume的整合

1 整體架構 2 Flume 配置 https://flume.apache.org/releases/content/1.6.0/FlumeUserGuide.html 啟動kafka kafka-server-start.sh $KAFKA_HOME/config/se

Spark Streaming實時流處理筆記（5）—— Kafka API 程式設計

1 新建 Maven工程 pom檔案 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLo

Spark Streaming實時流處理筆記（4）—— 分散式訊息佇列Kafka

1 Kafka概述和訊息系統類似 1.1 訊息中介軟體生產者和消費者 1.2 Kafka 架構和概念 producer:生產者（生產饅頭） consumer：消費者（吃饅頭） broker:籃子 topic : 主題，給饅頭帶一個標籤，（

Spark Streaming實時流處理專案實戰 慕課知識點總結

1 Spark transformation和action的區別

transformation操作：

action操作：

相關推薦

Spark Streaming實時流處理專案實戰慕課知識點總結