Apache spark2.1.0編譯hadoop-2.6-cdh5.11.2的對應版本

阿新 • • 發佈：2018-12-17

Apache spark2.1.0 編譯 hadoop-2.6-cdh5.11.2 的對應版本

搞了兩天，終於把spark編譯成功了，把編譯過程記錄一下

編譯失敗的坑：

　　1）linux記憶體不足，maven編譯過程中記憶體溢位

　　2）找不到cloudera倉庫

　　3）報各種錯誤

考慮到maven下載可能會被牆，於是買了國外的雲主機,記憶體4g，終於編譯成功了，並且編譯速度相當快，只花了8分鐘

成功編譯Apaceh spark成對應的chd版本基本步驟如下（使用make-distribution.sh打包編譯）：

1.安裝maven,有版本要求3.x以上的，用最新的就行了

2.安裝jdk 1.7+,2.x以上的spark儘量使用 jdk1.8，並且不要使用自帶的open jdk ,下載oracle的jdk

3.確認maven，jdk都配置完成

4.下載spark,解壓

5.因為要編譯成對應hadoop cdh版本，所以需要在spark HOME目錄下的pom.xml檔案找到repository位置新增

<repository>
<id>cloudera</id>
<name>cloudera repository</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>

6.為了加快編譯速度，修改dev/make-distribution.sh檔案

新增以下內容，並把之前的內容註釋，因為預設是通過掃描來獲得這些值的，會消耗一些時間

VERSION=2.1.0  #spark的版本
SCALA_VERSION=2.10.6  #scala的版本，可以在pom.xml檔案的scala.version中找到
SPARK_HADOOP_VERSION=2.6.0-cdh5.11.2 #編譯對應具體的hadoop版本
SPARK_HIVE=1  #支援HIVE

7.避免記憶體溢位

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m 
"可以根據自己電腦記憶體情況調整

8.開始編譯

./dev/make-distribution.sh --name spark2.1.0-cdh5.11.2  --tgz   -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.11.2 -Phive -Phive-thriftserver  -Pyarn
--tgz 打包成 tgz 
  --name 編譯打包的名稱 spark2.1.0-cdh5.11.2 預設會在前面新增spark2.1.0-bin，如果編譯成功那麼全名應該是 spark2.1.0-bin-spark2.1.0-cdh5.11.2

-Phadoop 對應hadoop的大版本

-Dhadoop.version 對應hadoop的具體版本

-Phive  -Pyarn 支援hive，yarn

9.等待完成，編譯成功後會在 spark 的home目錄下生成打包的檔案

10.然後使用xftp軟體把編譯成功的包傳回本地就行

ps：部落格上的程式碼，直接複製到linux檔案上可能會用問題，所以建議手動輸入

Apache spark2.1.0編譯hadoop-2.6-cdh5.11.2的對應版本

Apache spark2.1.0 編譯 hadoop-2.6-cdh5.11.2 的對應版本搞了兩天，終於把spark編譯成功了，把編譯過程記錄一下編譯失敗的坑：　　1）linux記憶體不足，maven編譯過程中記憶體溢位　　2）找不到cloudera倉庫　　3）報各種錯誤考慮到ma

spark2.1.0編譯 cdh5.7.0版本

一、實現目標從spark官網下載2.1.0的原始碼，然後編譯對應hadoop版本的spark，從而可以解決很多相容性問題，使程式執行環境更加優越，順暢。二、環境準備 1.硬體無論雲主機還是虛擬機器，記憶體一定要4G以上，最好8G+。 2.軟體（1）java：spark

centos7.0編譯安裝python3.6.2

python一、查看Linux系統版本信息[[email protected]/* */ ~]# cat /etc/redhat-release CentOS Linux release 7.0.1406 (Core) [[email protected]/* */ ~]# uname

Spring REST Docs 1.2.6.RELEASE 與 2.0.3.RELEASE 釋出

Spring REST Docs 1.2.6.RELEASE 與 2.0.3.RELEASE 釋出了，Spring REST Docs 是 RESTful 服務的測試驅動文件，使用 Asciidoctor 手工編寫內容結合使用 Spring MVC Test 框架自動生成

從 hadoop 1.0 到 hadoop 2.0 的演化

1. 概述在 Google 三篇大資料論文發表之後，Cloudera 公司在這幾篇論文的基礎上，開發出了現在的 Hadoop 。但 Hadoop 開發出來也並非一帆風順的，Hadoop 1.0 版本有諸多侷限。在後續的不斷實踐之中， Hadoop 2.0 橫空出世，而後 Hadoop 2.0 逐漸成為主流

CentOS7+Hadoop2.7.2(HA高可用+Federation聯邦)+Hive1.2.1+Spark2.1.0 完全分散式叢集安裝

本文件主要記錄了Hadoop+Hive+Spark叢集安裝過程，並且對NameNode與ResourceManager進行了HA高可用配置，以及對NameNode的橫向擴充套件（Federation聯邦） 1VM網路配置將子網IP設定為192.168.1.0：將閘道器設定

kettle 5.1.0 連線 Hadoop hive 2 (hive 1.2.1)

1. 配置HiveServer2，在hive-site.xml中新增如下的屬性 <property> <name>hive.server2.thrift.bind.host</name> <value>192.

子雨大資料之Spark入門教程---Spark2.1.0入門：第一個Spark應用程式：WordCount 2.2

前面已經學習了Spark安裝，完成了實驗環境的搭建，並且學習了Spark執行架構和RDD設計原理，同時，我們還學習了Scala程式設計的基本語法，有了這些基礎知識作為鋪墊，現在我們可以沒有障礙地開始編寫一個簡單的Spark應用程式了——詞頻統計。任務要求任務：

在Spark2.1.0中使用Date作為DateFrame列

down -s log set tor com ref ons 使用參考網址:How to store custom objects in Dataset? 在Spark2.1.0中使用Date作為DateFrame列

rocketMQ_4.1.0 編譯好可以直接運行的版本：

rocketMQ如果從gitub上下載源碼需要maven編譯比較麻煩，這裏有現成的可以直接運行的：rocketMQ_4.1.0 編譯好可以直接運行的版本：鏈接：https://pan.baidu.com/s/11MT5rUGd2LXcBzJj-Bs5Sg 密碼：u20jrocketMQ_4.1.0 編譯好可以

Spark2.1.0——運行環境準備

目錄 linux lin hadoop -h rtc 內存 ssp 代碼結構學習一個工具的最好途徑，就是使用它。這就好比《極品飛車》玩得好的同學，未必真的會開車，要學習車的駕駛技能，就必須用手觸摸方向盤、用腳感受剎車與油門的力道。在IT領域，在深入了解一個系統

eclipse4.7.0+maven3.3.9+scala2.11.8+spark2.1.0+hadoop2.7.1在ubuntu16裡的wordcount例項

刪掉src/test下的junit內容 pom.xml參考如下進行修改（確認好使） <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XM

spark2.1.0 on yarn with CDH5.8.0 安裝實戰

Spark 版本釋出很快，CDH整合最新Spark版本需要一定時間，並且CDH 整合的Spark版本不支援Spark-sql。本文件的目的在目前cdh平臺整合最新spark，方便測試和使用最新功能。 spark-env.sh #HADOOP_CONF_DIR ha

Spark2.1.0模型設計與基本架構（上）

　　隨著近十年網際網路的迅猛發展，越來越多的人融入了網際網路——利用搜索引擎查詢詞條或問題；社交圈子從現實搬到了Facebook、Twitter、微信等社交平臺上；女孩子們現在少了逛街，多了在各大電商平臺上的購買；喜歡棋牌的人能夠在對戰平臺上找到世界各地的玩家對弈。在國內隨著網民數量的持續增加，造成網際網路公

Spark2.1.0事件匯流排分析——LiveListenerBus詳解

LiveListenerBus繼承了SparkListenerBus，並實現了將事件非同步投遞給監聽器，達到實時重新整理UI介面資料的效果。LiveListenerBus主要由以下部分組成： eventQueue：是SparkListenerEvent事件的阻塞佇列，佇

Spark2.1.0模型設計與基本架構（下）

閱讀提示：讀者如果對Spark的背景知識不是很瞭解的話，建議首先閱讀《SPARK2.1.0模型設計與基本架構（上）》一文。 Spark模型設計 1. Spark程式設計模型正如Hadoop在介紹MapReduce程式設計模型時選擇word count的例子，並且使用圖形來說明一樣，筆者對於Spark程式設計

spark2.1.0釋出了

2016年12月28日釋出此版本更改預設scala版本是Scala 2.11 官網看到 Spark runs on Java 7+, Python 2.6+/3.4+ and R 3.1+. For the Scala API, Spark 2.1.0uses Scala 2

Spark2.1.0——深入淺出度量系統

對於一個系統而言，首先考慮要滿足一些業務場景，並實現功能。隨著系統功能越來越多，程式碼量級越來越高，系統的可維護性、可測試性、效能都會成為新的挑戰，這時監控功能就變得越來越重要了。在國內，絕大多數IT公司的專案都以業務為導向，以完成功能為目標，這些專案在立項、設計、開發、上線

深入淺出Spark2.1.0度量系統——Source繼承體系

閱讀提示：閱讀本文前，最好請閱讀《Spark2.1.0——深入淺出度量系統》一文。任何監控都離不開度量資料的採集，離線的資料採集很容易做到和被採集模組之間的解耦，但是對於實時度量資料，尤其是那些記憶體中資料的採集就很難解耦。這就類似於網頁監控資料的埋點一

深入淺出Spark2.1.0度量系統——Sink繼承體系

Source準備好度量資料後，我們就需要考慮如何輸出和使用的問題。這裡介紹一些常見的度量輸出方式：阿里資料部門採用的一種度量使用方式就是輸出到日誌；在命令列執行過Hadoop任務（例如：mapreduce）的使用者也會發現控制檯列印的內容中也包含度量資訊

Apache spark2.1.0編譯hadoop-2.6-cdh5.11.2的對應版本

Apache spark2.1.0 編譯 hadoop-2.6-cdh5.11.2 的對應版本

考慮到maven下載可能會被牆，於是買了國外的雲主機,記憶體4g，終於編譯成功了，並且編譯速度相當快，只花了8分鐘

相關推薦