【2019春招準備：106.storm（2）】

阿新 • • 發佈：2018-12-30

3.storm周邊框架

ZooKeeper（zookeeper.apache.org）

可以再cdh5上面下載（話說這個網站好強大）
安裝zookeeper到hdp3
啟動server端和cli端
可以在cli help ls（檢視zookeeper的檔案系統）

cli:
建立一個znode ：create /zk_test my_data(字串繫結到這個node上面了)

LogStash（收集日誌資料的工具，類似Flume）

ELK框架(elastic.co ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana）
下載連結

https://www.elastic.co/cn/downloads/past-releases/logstash-2-4-1
實際工作都是些配置檔案
有很多可以收集資料的流，如es elasticSearch file stdin等等，輸出可以指定codec（json格式等）

Kafka （0.9.0.0版本2015）

見kafka章節：https://blog.csdn.net/qq_33907408/article/details/85202666
原始碼：scala（2.11）

Logstash整合Kafka

logstach向kafka producer API中寫訊息
注意版本（kafka client版本0.9—logstach版本(2.4-5.x)—plugin(4.x)版本）

4. Storm架構（重要）

架構

和hadoop中的namenode和datanode一樣
在storm中nimbus表示主節點，supervisor表示從節點
不同的是：他們都是無狀態的，所有的元資料都存放zookeeper上面某一個znode裡面
nimbus主節點：負責任務（task）的指派和分發，資源的分配，是總經理
supervisor：上面可以啟動或者停止多個worker程序（配置指定），是包工頭；worker是具體幹活的工人
一個topology對應幾個worker也是可以設定的
worker程序上面的task是指spout和bolts執行緒
executor：spout和bolt可能會共享一個執行緒

部署（單機版、叢集版）

jdk 1.8
python centos7 自帶2.6.6

storm1.2.2(161M) https://www.apache.org/dyn/closer.lua/storm/apache-storm-1.2.2/apache-storm-1.2.2.tar.gz
自帶一個zookeeper：dev_zookeeper
drpc:分散式的遠端呼叫

啟動

後臺啟動dev-zookeeper：nohup sh storm dev-zookeeper &

nohup sh storm nimbus & ====>(jps:dev_zoo,config_value)
nohup sh storm ui & ====>(jps:dev_zoo,core,nimbus)(UI預設訪問埠是8080）ziboris3:8080

nohup sh storm supervisor & ====>(jps:dev_zoo,core,nimbus,supervisor)
slot就是worker，預設啟動了4個worker
nohup sh storm logviewer & ====>(jps:dev_zoo,core,nimbus,supervisor,logviewer)能在UI上面檢視log，同時在STORM_HOME裡面生成一個log資料夾，裡面很多log檔案

IDEA程式碼打包：view-tools window-maven projects-package
package三個類才14k（很小）不含執行環境和依賴

storm jar /home/hadoop/ZZBfiles/stormFile/storm-1.0.jar com.imooc.bigdata.ClusterlSumStormTopology
停止這topology可以在ui上面進入topology（類的名稱點進去–kill–設定死亡倒計時）；同時也可以通過命令列kill掉（請不要直接kill -9殺掉worker程序）storm kill topology-name [-w wait-time-sec] (有個預設的時間差)
停止叢集直接kill -9

叢集部署規劃
在這裡插入圖片描述

5.並行度（executor的數量）

worker數量設定
executor數量設定
task數量設定
acker數量設定
不需要對叢集進行擴容，修改程式碼提高並行程度
一個topology對應一個或者多個worker程序
worker下面並非直接是task，是executors執行緒們，一個executor執行緒可以是一個或者多個task

【預設情況】
一個supervisor最多啟動4個worker程序（submit函式的Config能調整）
一個topology對應一個worker程序
一個執行緒–一個executor–一個task（builder裡面設定Executor數量）
預設acker是和worker的數量一樣的，一個acker帶一個task（config設定）

在這裡插入圖片描述

n那麼問題來了！
簡單的求和程式碼，見storm（1），應該只有兩個task，就是兩個executor，為什麼顯示會有三個呢？
在這裡插入圖片描述
答案：實際上還有一個acker導致的（單獨的執行緒）

6.storm分組策略（Stream Grouping）

流在bolts應該怎麼分割槽（partition）
在這裡插入圖片描述

6.1 Shuffle Grouping

分發tuple的時候，分到每個bolt裡面的tuple數量是保證相等的。

6.2 Fields Grouping

tuple根據userId進行分組，相同的userId tuple分到同一個task中，不同去不同
根據奇偶的話雖然設定了三個執行緒，但是真正幹活的只有兩個執行緒（並行度設定並不合理）
如果奇偶只設定一個執行緒，那麼不會丟失資料，會都在這個bolt的埠上面輸出

6.3 Partial Key Grouping

也是根據指定的欄位開始分組，但是不同的是多了一個負載均衡的概念。將會在下游的bolt做負載均衡，如果有資料傾斜（資料分割槽不均勻）的時候可以得到更好的利用。

6.4 All grouping（WITH CARE！）

所有資料會被複制傳送到所有的下一級bolt（是否有必要，什麼場景需要？）

7. storm可靠性（容錯性）

7.1 程序級別容錯（worker,supervisor,nimbus）

如果worker死亡，supervisor會檢視重啟他，如果一直不行，nimbus出面講這個worker在其他supervisor上面啟動

task節點死亡，在這個節點上面分配的任務超時之後就會被感知到，nimbus會將這些task重新分配

如果是Nimbus、Supervisor程序死亡：
fail-fast快速失敗機制：都是無狀態的，元資料資訊都保持在ZooKeeper上面
zookeeper在監視著，能夠自己重啟，跟沒事人一樣，只是新提交的作業提交不上去了（和hadoop1.0不同，jobtracker掛掉了，所有的正在執行的job都丟失了）

SPOF（單點故障：single point of failure）
如果單點nimbus掛掉，所有的worker因為不在這個機器上面，也不需要往nimbus上面傳輸元資料，因此是沒有關係的，能夠正常跑完
只是worker如果在出故障，不能被重新分配到新的supervisor上面而已

7.2 ack/fail確認機制

【2019春招準備：106.storm（2）】

3.storm周邊框架 ZooKeeper（zookeeper.apache.org）可以再cdh5上面下載（話說這個網站好強大）安裝zookeeper到hdp3 啟動server端和cli端可以在cli help ls（檢視zookeeper的檔案系

【2019春招準備：106.storm（1）】

0.簡介 a million tuples processed per second per node 單個節點美妙百萬數量級的實時計算 scalable 可擴充套件性 fault-tolerant 容錯性生於Twitter，收購的BackType，並開源到apache 底層語

【2019春招準備：108.storm(3)】

8.DRPC 8.1 RPC(hadoop) remote procedure call 遠端過程呼叫跨網路（跨越傳輸和應用兩層），跨程序 hadoopRPC 依賴hadoop client的RPC自己包 8.2 st

【2019春招準備：B1.Storm熱力統計】

對信令資訊相應欄位的分析，挖掘，結合GIS技術實現自定義區域實時人流量的智慧化統計分析信令：通過移動使用者發生的通訊時間記錄判斷使用者所處的位置，根據區域，定義使用者的行為軌跡 1）區域內：inside 使用者處在目標區域範圍內 2）區域外：outside 使用者處在目標

【2019春招準備：常見演算法題1-10】

【內容】 topK 臺階非遞迴遍歷二叉樹【補充】 ================== 1.topK 2.青蛙跳臺階【@深信服大資料開發】【題目描述】一隻青蛙一次可以跳上1級臺階，也可以跳上2級……它也可以跳上n級。

【2019春招準備：12.原子類操作Atomic包】

【內容】【補充】 Thread.yeild:讓出cpu使用權，重新平等競爭 Thread.activeCount() 【內容】問題引入 public static int 經過20執行緒的1000次count++ 即時判定Thread.aliveCount()>

【2019春招準備：總目錄】

面向崗位及其優先順序：java後端>大資料開發>前端專案連結 1 2 3

【2019春招準備：23. 併發程式設計和高併發總結】

【內容】 A.併發執行緒安全執行緒封閉執行緒排程同步容器併發容器 AQS J.U.C

【2019春招準備：A1】

1. 檢索（Lucene && solr）全文檢索：將非結構化的資料中，提取一部分資訊出來重新組織，變得有一定結構化，然後對這些結構化搜尋比加快。提取的部分叫做索引。建立索引 + 對索引搜尋 lucene && solr

【2019春招準備：22.執行緒生命週期（主執行緒和子執行緒）】

參考：強烈推薦 https://blog.csdn.net/u013905744/article/details/73741056 run java application: 建立一個java虛擬機器程序，main執行緒和userThread都可以在裡面跑，當沒有執行緒的時候，退出程

【2019春招準備：13. 安全Collections----13.1 BlockingQueue阻塞佇列家族】

參考：強烈推薦 http://www.cnblogs.com/WangHaiMing/p/8798709.html BlockingQueue介面 public interface BlockingQueue<E> extends Queue<E> { bo

【2019春招準備：4.JVM java編譯器 java直譯器------4.2載入器雙親委派模型和破壞】

https://blog.csdn.net/zhangcanyan/article/details/78993959 雙親委派模型：Parents Delegation Model 作用：解決了各個類載入器的基礎類統一的問題模型的流程：一個classLoader收到類載入的請求，不會直

【2019春招準備：6.集合框架LIST----6.2LinkedList】

extends AbstractSequentialList implements List, Deque, Cloneable, java.io.Serializable 參考：牆裂推薦http://www.cnblogs.com/skywang12345/p/3308807.ht

【2019春招準備：105.Kafka】

1. JMS Jms(java message service) ： java訊息服務兩個應用程式之間需要通訊，轉件的轉發系統就是jms，解除2個程式的耦合有兩種通訊模式： 1.1 點對點：point-to-point message domain 1.2 釋出

【2019春招準備：103. HA】

高可用叢集搭建：hdfs的HA + yarn的HA 1.HDFS的HA prototype原型問題：fsiamge很大，每次都需要傳輸，效能大幅度下降改進1 【keepAlived】：解決靜態路由的單點故障問題 Keepal

【2019春招準備：102. hadoop叢集搭建】

16G記憶體自己搭建的節點： hdfs叢集和yarn叢集 1-namenode 4-datanode 1-master 4-slave based on Centos 7 JDK1.8 hadoop1.8.0 NAT聯網：同一個網段設定好每個虛擬機器的固定IP，和內網域名對映，s

【2019春招準備：20. spring相關】

1. spring如何管理bean的生命週期 1.1 控制bean是什麼型別的物件是scope屬性【單例物件singleton（預設）】：如service和dao層的物件在spring容器初始化的時候，建立單例物件每次呼叫getBean的時候都是返回的同一個

【2019春招準備：17.sql】

序號考點連結備註（公司、年份） 0 學生成績基本案例見下基本操作 1 查詢某使用者最近的10條交易記錄

不容錯過，最全的安卓架構合集【從零開始搭建android框架系列（2）】

安卓架構文章合集（a collection of android Architecture）部落格原地址：簡書部落格 github地址：這是從各大平臺上參考的android架構文章，文章資料，主要參考自Info，推薦關注： infoQ 1 Android

【extjs6學習筆記】0.1 準備：基礎概念（02）

json over cal 類的屬性 tab 常用事件 data 微軟基於 Ext 類 Ext 是一個全局單例的對象，在 Sencha library 中它封裝了所有的類和許多實用的方法。許多常用的函數都定義在 Ext 對象裏。它還提供了像其他類中一些頻繁使用的方法

【2019春招準備：106.storm（2）】

3.storm周邊框架

4. Storm架構（重要）

5.並行度（executor的數量）

6.storm分組策略（Stream Grouping）

7. storm可靠性（容錯性）

相關推薦