1. 程式人生 > >大資料,hadoop,spark,hive,ZooKeeper,kafka,flume等元件環境搭建

大資料,hadoop,spark,hive,ZooKeeper,kafka,flume等元件環境搭建

大資料環境搭建

1、Virtual Box 4.1
2、CentOS 6.5
3、JDK 1.7
4、SecureCRT(自己下載)
5、WinSCP(自己下載)
6、Hadoop 2.4.1
7、Hive 0.13
8、ZooKeeper 3.4.5
9、kafka_2.9.2-0.8.1
10、Spark 1.3.0
11、Spark 1.5
12、flume-ng-1.5.0-cdh5.3.6

Virtual Box 4.1安裝
1、使用Virtual Box安裝包,一步一步安裝即可。
Oracle_VM_VirtualBox_Extension_Pack-4.1.40-101594.vbox-extpack。
2、之所以選用Virtual Box是因為它比VMWare更加穩定。使用VMWare執行hadoop叢集或者spark叢集時,有時會出現休眠後重啟時,某些程序莫名掛掉的問題。而Virtual Box沒有這種情況。
3、之所以選擇Virtual Box 4.1版本,是因為更高的版本就不相容win7了。
CentOS 6.5安裝


1、使用CentOS 6.5映象即可,CentOS-6.5-i386-minimal.iso。
2、建立虛擬機器:開啟Virtual Box,點選“新建”按鈕,點選“下一步”,輸入虛擬機器名稱為spark1,選擇作業系統為Linux,選擇版本為Red Hat,分配1024MB記憶體,後面的選項全部用預設,在Virtual Disk File location and size中,一定要自己選擇一個目錄來存放虛擬機器檔案,最後點選“create”按鈕,開始建立虛擬機器。
3、設定虛擬機器網絡卡:選擇建立好的spark1虛擬機器,點選“設定”按鈕,在網路一欄中,連線方式中,選擇“Bridged Adapter”。
4、安裝虛擬機器中的CentOS 6.5作業系統:選擇建立好的虛擬機器spark1,點選“開始”按鈕,選擇安裝介質(即本地的CentOS 6.5映象檔案),選擇第一項開始安裝-Skip-歡迎介面Next-選擇預設語言-Baisc Storage Devices-Yes, discard any data-主機名:spark1-選擇時區-設定初始密碼為hadoop-Replace Existing Linux System-Write changes to disk-CentOS 6.5自己開始安裝。
5、安裝完以後,CentOS會提醒你要重啟一下,就是reboot,你就reboot就可以了。

CentOS 6.5網路配置
1、先臨時性設定虛擬機器ip地址:ifconfig eth0 192.168.1.107,在/etc/hosts檔案中配置本地ip(192.168.1.107)到host(spark1)的對映
2、配置windows主機上的hosts檔案:C:\Windows\System32\drivers\etc\hosts,192.168.1.107 spark1
3、使用SecureCRT從windows上連線虛擬機器,自己可以上網下一個SecureCRT的綠色版,網上很多。
4、永久性配置CentOS網路
vi /etc/sysconfig/network-scripts/ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.1.107
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
5、重啟網絡卡
service network restart
6、即使更換了ip地址,重啟網絡卡,可能還是聯不通網。那麼可以先將IPADDR、NETMASK、GATEWAY給刪除,將BOOTPROTO改成dhcp。然後用service network restart重啟網絡卡。此時linux會自動給分配一個ip地址,用ifconfig檢視分配的ip地址。然後再次按照之前說的,配置網絡卡,將ip改成自動分配的ip地址。最後再重啟一次網絡卡。

CentOS 6.5防火牆和DNS配置
1、關閉防火牆

service iptables stop
chkconfig iptables off
vi /etc/selinux/config
SELINUX=disabled

自己在win7的控制面板中,關閉windows的防火牆!

2、配置dns伺服器

vi /etc/resolv.conf
nameserver 61.139.2.69
ping www.baidu.com

安裝之前先安裝rz軟體,提供上傳和下載檔案
linux yum rz 軟體安裝
yum install lrzsz -y
自動下載的包如下:
Downloading Packages:
lrzsz-0.12.20-27.1.el6.x86_64.rpm

CentOS 6.5 yum配置
1、修改repo
使用WinSCP(網上很多,自己下一個),將CentOS6-Base-163.repo上傳到CentOS中的/usr/local目錄下

cd /etc/yum.repos.d/
rm -rf *
mv 自己的repo檔案移動到/etc/yum.repos.d/目錄中:cp /usr/local/CentOS6-Base-163.repo .
修改repo檔案,把所有gpgcheck屬性修改為0

2、配置yum

yum clean all
yum makecache
yum install telnet

JDK 1.7安裝
1、將jdk-7u60-linux-i586.rpm通過WinSCP上傳到虛擬機器中
2、安裝JDK:rpm -ivh jdk-7u65-linux-i586.rpm
3、配置jdk相關的環境變數

vi ~/.bashrc  或者 vi /etc/profile
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$JAVA_HOME/bin
source .bashrc   或者  source /etc/profile

4、測試jdk安裝是否成功:java -version
5、rm -f /etc/udev/rules.d/70-persistent-net.rules

安裝第二臺和第三臺虛擬機器
1、安裝上述步驟,再安裝兩臺一模一樣環境的虛擬機器,因為後面hadoop和spark都是要搭建叢集的。
2、叢集的最小環境就是三臺。因為後面要搭建ZooKeeper、kafka等叢集。
3、另外兩臺機器的hostname分別設定為spark2和spark3即可,ip分別為192.168.1.108和192.168.1.109
4、在安裝的時候,另外兩臺虛擬機器的centos映象檔案必須重新拷貝一份,放在新的目錄裡,使用各自自己的映象檔案。
5、虛擬機器的硬碟檔案也必須重新選擇一個新的目錄,以更好的區分。
6、安裝好之後,記得要在三臺機器的/etc/hosts檔案中,配置全三臺機器的ip地址到hostname的對映,而不能只配置本機,這個很重要!
7、在windows的hosts檔案中也要配置全三臺機器的ip地址到hostname的對映。

配置叢集ssh免密碼登入
1、首先在三臺機器上配置對本機的ssh免密碼登入
生成本機的公鑰,過程中不斷敲回車即可,ssh-keygen命令預設會將公鑰放在/root/.ssh目錄下

ssh-keygen -t rsa

將公鑰複製為authorized_keys檔案,此時使用ssh連線本機就不需要輸入密碼了

cd /root/.ssh
cp id_rsa.pub authorized_keys

2、接著配置三臺機器互相之間的ssh免密碼登入
使用ssh-copy-id -i spark命令將本機的公鑰拷貝到指定機器的authorized_keys檔案中(方便好用)
這裡寫圖片描述

Hadoop 2.4.1叢集搭建
安裝hadoop包

1、使用hadoop-2.4.1.tar.gz,使用WinSCP上傳到CentOS的/usr/local目錄下。
2、將hadoop包進行解壓縮:tar -zxvf hadoop-2.4.1.tar.gz
3、對hadoop目錄進行重新命名:mv hadoop-2.4.1 hadoop
4、配置hadoop相關環境變數
vi .bashrc  或者 vi/etc/profile
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source .bashrc

修改hadoop相關的配置檔案
進入/usr/local/hadoop/etc/hadoop 目錄下
修改core-site.xml

<property>
  <name>fs.default.name</name>
  <value>hdfs://spark1:9000</value>  //設定hdfs叢集對外提供的目錄
</property>

修改hdfs-site.xml //設定hdfs的一些目錄,放在/usr/local/data的目錄下面


<property>
  <name>dfs.name.dir</name>
  <value>/usr/local/data/namenode</value>
</property>
<property>
  <name>dfs.data.dir</name>
  <value>/usr/local/data/datanode</value>
</property>
<property>
  <name>dfs.tmp.dir</name>
  <value>/usr/local/data/tmp</value>
</property>
<property>
  <name>dfs.replication</name>  
  <value>3</value>  //設定副本數
</property>

修改mapred-site.xml //mapreduce的框架設定為yarn

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

修改yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>spark1</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

修改slaves檔案

spark1
spark2
spark3

在另外兩臺機器上搭建hadoop

1、使用如上配置在另外兩臺機器上搭建hadoop,可以使用scp命令將spark1上面的hadoop安裝包和.bashrc或者/etc/profile 配置檔案都拷貝過去。
scp -r hadoop root@spark1:/usr/local/    
scp -r hadoop root@spark2:/usr/local/  

scp -r /etc/profile root@spark1:/etc/
scp -r /etc/profile root@spark2:/etc/
2、要記得對.bashrc檔案或者/etc/profile進行source,以讓它生效。
3、記得在spark2和spark3的/usr/local目錄下建立data目錄。

啟動hdfs叢集

1、格式化namenode:在spark1上執行以下命令,
hdfs namenode -format
2、啟動hdfs叢集:start-dfs.sh
3、驗證啟動是否成功:jps、50070埠檢視是否啟動成功
spark1:namenode、datanode、secondarynamenode
spark2:datanode
spark3:datanode

啟動yarn叢集

1、啟動yarn叢集:start-yarn.sh
2、驗證啟動是否成功:jps、8088埠
spark1:resourcemanager、nodemanager
spark2:nodemanager
spark3:nodemanager

Hive 0.13搭建
安裝hive包
1、將的apache-hive-0.13.1-bin.tar.gz使用WinSCP上傳到spark1的/usr/local目錄下。
2、解壓縮hive安裝包:tar -zxvf apache-hive-0.13.1-bin.tar.gz。
3、重新命名hive目錄:mv apache-hive-0.13.1-bin hive
4、配置hive相關的環境變數,下面以.bashrc檔案操作

vi .bashrc
export HIVE_HOME=/usr/local/hive
export PATH=$HIVE_HOME/bin
source .bashrc

安裝mysql
1、在spark1上安裝mysql。
2、使用yum安裝mysql server。

yum install -y mysql-server
service mysqld start
chkconfig mysqld on

3、使用yum安裝mysql connector

yum install -y mysql-connector-java

4、將mysql connector拷貝到hive的lib包中

cp /usr/share/java/mysql-connector-java-5.1.17.jar /usr/local/hive/lib

5、在mysql上建立hive元資料庫,並對hive進行授權

create database if not exists hive_metadata;

grant all privileges on hive_metadata.* to 'hive'@'%' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'localhost' identified by 'hive';

grant all privileges on hive_metadata.* to 'hive'@'spark1' identified by 'hive';

flush privileges;    //重新整理授權

use hive_metadata;

配置hive-site.xml

mv hive-default.xml.template hive-site.xml
vi hive-site.xml
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://spark1:3306/hive_metadata?createDatabaseIfNotExist=true</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>hive</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>hive</value>
</property>
<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/hive/warehouse</value>
</property>

配置hive-env.sh和hive-config.sh

mv hive-env.sh.template hive-env.sh

vi /usr/local/hive/bin/hive-config.sh
export JAVA_HOME=/usr/java/latest
export HIVE_HOME=/usr/local/hive
export HADOOP_HOME=/usr/local/hadoop

驗證hive是否安裝成功
直接輸入hive命令,可以進入hive命令列

ZooKeeper 3.4.5叢集搭建
安裝ZooKeeper包
1、將zookeeper-3.4.5.tar.gz使用WinSCP拷貝到spark1的/usr/local目錄下。
2、對zookeeper-3.4.5.tar.gz進行解壓縮:tar -zxvf zookeeper-3.4.5.tar.gz。
3、對zookeeper目錄進行重新命名:mv zookeeper-3.4.5 zk。
4、配置zookeeper相關的環境變數

vi .bashrc   或者  vi /etc/profile
export ZOOKEEPER_HOME=/usr/local/zk
export PATH=$ZOOKEEPER_HOME/bin
source .bashrc
配置zoo.cfg  在/usr/local/zk/conf目錄下
vi zoo.cfg
修改:dataDir=/usr/local/zk/data
新增:
server.0=spark1:2888:3888   
server.1=spark2:2888:3888
server.2=spark3:2888:3888

設定zk節點標識

cd zk
mkdir data
cd data

vi myid
0

搭建zk叢集
1、在另外兩個節點上按照上述步驟配置ZooKeeper,使用scp將zk和.bashrc拷貝到spark2和spark3上即可。
scp -r zk [email protected]:/usr/local/

2、唯一的區別是spark2和spark3的標識號分別設定為1和2。及myid 中的值修改為1 和2

啟動ZooKeeper叢集

1、分別在三臺機器上執行:zkServer.sh start。
2、檢查ZooKeeper狀態:zkServer.sh status。

kafka_2.9.2-0.8.1叢集搭建
安裝scala 2.11.4
1、將scala-2.11.4.tgz使用WinSCP拷貝到spark1的/usr/local目錄下。
2、對scala-2.11.4.tgz進行解壓縮:tar -zxvf scala-2.11.4.tgz。
3、對scala目錄進行重新命名:mv scala-2.11.4 scala
4、配置scala相關的環境變數

vi .bashrc
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin
source .bashrc

5、檢視scala是否安裝成功:scala -version
6、按照上述步驟在spark2和spark3機器上都安裝好scala。使用scp將scala和.bashrc拷貝到spark2和spark3上即可。

安裝Kafka包
1、將kafka_2.9.2-0.8.1.tgz使用WinSCP拷貝到spark1的/usr/local目錄下。
2、對kafka_2.9.2-0.8.1.tgz進行解壓縮:tar -zxvf kafka_2.9.2-0.8.1.tgz。
3、對kafka目錄進行改名:mv kafka_2.9.2-0.8.1 kafka
4、配置kafka

vi /usr/local/kafka/config/server.properties
broker.id:依次增長的整數,01234,叢集中Broker的唯一id
zookeeper.connect=192.168.1.107:2181,192.168.1.108:2181,192.168.1.109:2181

5、安裝slf4j
將slf4j-1.7.6.zip上傳到/usr/local目錄下
unzip slf4j-1.7.6.zip
把slf4j中的slf4j-nop-1.7.6.jar複製到kafka的libs目錄下面

搭建kafka叢集
1、按照上述步驟在spark2和spark3分別安裝kafka。用scp把kafka拷貝到spark2和spark3行即可。

2、唯一區別的,就是server.properties中的broker.id,要設定為1和2

啟動kafka叢集
1、在三臺機器上分別執行以下命令:nohup bin/kafka-server-start.sh config/server.properties & (必須在kafka的主目錄下執行 cd /kafka)

2、解決kafka Unrecognized VM option ‘UseCompressedOops’問題

vi bin/kafka-run-class.sh 
if [ -z "$KAFKA_JVM_PERFORMANCE_OPTS" ]; then
  KAFKA_JVM_PERFORMANCE_OPTS="-server  -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -Djava.awt.headless=true"
fi
去掉-XX:+UseCompressedOops即可

3、使用jps檢查啟動是否成功

測試kafka叢集
使用基本命令檢查kafka是否搭建成功

bin/kafka-topics.sh --zookeeper 192.168.0.110:2181,192.168.0.111:2181,192.168.0.112:2181 --topic TestTopic --replication-factor 1 --partitions 1 --create


在spark1 上執行
bin/kafka-console-producer.sh --broker-list 192.168.1.107:9092,192.168.1.108:9092,192.168.1.109:9092 --topic TestTopic


在spark2 上執行
bin/kafka-console-consumer.sh --zookeeper 192.168.1.107:2181,192.168.1.108:2181,192.168.1.109:2181 --topic TestTopic --from-beginning

Spark 1.3.0叢集搭建
安裝spark包
1、將spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上傳到/usr/local目錄下。
2、解壓縮spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz。
3、更改spark目錄名:mv spark-1.3.0-bin-hadoop2.4 spark
4、設定spark環境變數

vi .bashrc
export SPARK_HOME=/usr/local/spark
export PATH=$SPARK_HOME/bin
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
source .bashrc
修改spark-env.sh檔案
1、cd /usr/local/spark/conf
2、cp spark-env.sh.template spark-env.sh
3、vi spark-env.sh
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=192.168.1.107
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves檔案
spark2
spark3

安裝spark叢集
在另外兩個節點進行一模一樣的配置,使用scp將spark和.bashrc拷貝到spark2和spark3即可。

啟動spark叢集
1、在spark目錄下的sbin目錄
2、執行 ./start-all.sh
3、使用jsp和8080埠可以檢查叢集是否啟動成功
4、進入spark-shell檢視是否正常

Spark1.3.0升級1.5
安裝spark包
1、停止Spark 1.3.0叢集:SPARK_HOME/sbin/stop-all.sh
2、將spark-1.5.1-bin-hadoop2.4.tgz使用WinSCP上傳到/usr/local目錄下。
3、解壓縮spark包:tar zxvf spark-1.5.1-bin-hadoop2.4.tgz。
4、修改spark環境變數

vi .bashrc
export SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4
export PATH=$SPARK_HOME/bin
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
source .bashrc

修改spark-env.sh檔案
1cd /usr/local/spark/conf
2、cp spark-env.sh.template spark-env.sh
3、vi spark-env.sh
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=192.168.1.107
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

修改slaves檔案
spark2
spark3

安裝spark叢集
在另外兩個節點進行一模一樣的配置,使用scp將spark和.bashrc拷貝到spark2和spark3即可。
scp -r spark-1.5.1-bin-hadoop2.4 [email protected]:/usr/local/

啟動spark叢集
1、在spark目錄下的sbin目錄
2、執行./start-all.sh
3、使用jsp和8080埠可以檢查叢集是否啟動成功
4、進入spark-shell檢視是否正常

hadoop fs -put spark.txt /
val lines = sc.textFile("hdfs://spark1:9000/spark.txt")
val words = lines.flatMap(line => line.split(" "))
val pairs = words.map(word => (word, 1))
val counts = pairs.reduceByKey(_ + _)
counts.foreach(count => println(count._1 +":"+ count._2))  

flume-ng-1.5.0-cdh5.3.6安裝
安裝flume
1、將flume-ng-1.5.0-cdh5.3.6.tar.gz使用WinSCP拷貝到sparkproject1的/usr/local目錄下。
2、對flume進行解壓縮:tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.gz
3、對flume目錄進行重新命名:mv apache-flume-1.5.0-cdh5.3.6-bin flume
4、配置scala相關的環境變數

vi ~/.bashrc
export FLUME_HOME=/usr/local/flume
export FLUME_CONF_DIR=$FLUME_HOME/conf
export PATH=$FLUME_HOME/bin
source ~/.bashrc

修改flume配置檔案
vi /usr/local/flume/conf/flume-conf.properties

agent1表示代理名稱
agent1.sources=source1
agent1.sinks=sink1
agent1.channels=channel1

配置source1
agent1.sources.source1.type=spooldir
agent1.sources.source1.spoolDir=/usr/local/logs
agent1.sources.source1.channels=channel1
agent1.sources.source1.fileHeader = false
agent1.sources.source1.interceptors = i1
agent1.sources.source1.interceptors.i1.type = timestamp
配置channel1
agent1.channels.channel1.type=file
agent1.channels.channel1.checkpointDir=/usr/local/logs_tmp_cp
agent1.channels.channel1.dataDirs=/usr/local/logs_tmp

配置sink1
agent1.sinks.sink1.type=hdfs
agent1.sinks.sink1.hdfs.path=hdfs://sparkproject1:9000/logs
agent1.sinks.sink1.hdfs.fileType=DataStream
agent1.sinks.sink1.hdfs.writeFormat=TEXT
agent1.sinks.sink1.hdfs.rollInterval=1
agent1.sinks.sink1.channel=channel1
agent1.sinks.sink1.hdfs.filePrefix=%Y-%m-%d

建立需要的資料夾
本地資料夾:mkdir /usr/local/logs
HDFS資料夾:hdfs dfs -mkdir /logs

啟動flume-agent

flume-ng agent -n agent1 -c conf -f /usr/local/flume/conf/flume-conf.properties -Dflume.root.logger=DEBUG,console

測試flume
新建一份檔案,移動到/usr/local/logs目錄下,flume就會自動上傳到HDFS的/logs目錄中

相關推薦

資料hadoop,spark,hive,ZooKeeper,kafka,flume元件環境搭建

大資料環境搭建 1、Virtual Box 4.1 2、CentOS 6.5 3、JDK 1.7 4、SecureCRT(自己下載) 5、WinSCP(自己下載) 6、Hadoop 2.4.1 7、Hive 0.13 8、ZooKeeper 3.

資料實時計算Spark學習筆記(2)—— Spak 叢集搭建

1 Spark 叢集模式 local: spark-shell --master local,預設的 standlone 1.複製 spark 目錄到其他主機 2.配置其他主機的環境變數 3.配置 master 節點的 slaves 檔案 4.啟動 spark

資料學習-Hadoop生態章---HDFS完全分散式(1.X版本)搭建及eclipse外掛整合

完全分散式搭建(1.x版) 一.環境的準備(詳情參考Linux章) Linux 環境 JDK 準備至少3臺機器(通過克隆虛擬機器;配置好網路JDK 時間 hosts,保證節點間能互ping通) 時間同步 (ntpdate time.nist.gov)

38套資料雲端計算架構資料分析師HadoopSparkStormKafka人工智慧機器學習深度學習專案實戰視訊教程

38套大資料,雲端計算,架構,資料分析師,Hadoop,Spark,Storm,Kafka,人工智慧,機器學習,深度學習,專案實戰視訊教程 視訊課程包含: 38套大資料和人工智慧高階課包含:大資料,雲端計算,架構,資料探勘實戰,實時推薦系統實戰,電視收視率專案實戰,實時流統計專案實戰,離線電

首頁 Hadoop Spark Hive Kafka Flume 資料平臺 Kylin 專題文章 Spark運算元 一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

關鍵字: orc、index、row group index、bloom filter index之前的文章《更高的壓縮比,更好的效能–使用ORC檔案格式優化Hive》中介紹了Hive的ORC檔案格式,它不但有著很高的壓縮比,節省儲存和計算資源之外,還通過一個內建的輕量級索引

docker部署分散式資料叢集hadoopsparkhive、jdk、scala、

(一)1 用docker建立映象並搭建三個節點容器的hadoop及spark服務 包括:mysql,hadoop,jdk,spark,hive,scala,sqoop docker已經安裝並且啟動 #搜尋centos映象: docker search centos #拉取

【經典】一篇文章初識資料資料相關框架Hadoopspark、flink

今天看到一篇講得比較清晰的框架對比,這幾個框架的選擇對於初學分散式運算的人來說確實有點迷茫,相信看完這篇文章之後應該能有所收穫。 簡介 大資料是收集、整理、處理大容量資料集,並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或儲存容量早已超過一

資料學習之路98-Zookeeper管理Kafka的OffSet

我們之前的OffSet都是交給broker自己管理的,現在我們希望自己管理。 我們可以通過zookeeper進行管理。 我們在程式中想要使用zookeeper,那麼就肯定會有api允許我們操作。 new ZKGroupTopicDirs() 注意:這裡使用客戶端的時候導包為:

資料hadoop / hive / hbase 的區別是什麼?有什麼應用場景?

文章目錄 1. hadoop 2. hive 3. hbase 總結 1. hadoop 它是一個分散式計算+分散式檔案系統,前者其實就是 MapReduce,後者是 HDFS 。後者可以獨立執行,前者可以選擇性使用,也

資料hadoop對比spark------資料儲存

1.Hadoop的資料都是來自於哪裡: 答案:磁碟。 2.map與reduce可以同時執行嗎? 答案:不能,由什麼決定的,shuffle過程決定的。 3.spark為什麼比hadoop要快,sprak儘量的避免從磁碟中進行讀取,以及配置資訊和計算資料,對比這些特性,極

資料中的SparkHadoop的區別

大資料開發中Spark和Hadoop作為輔助模組受到了很大的歡迎,但是Spark和Hadoop區別在哪?哪種更適合我們呢,一起了解一下它們之間的區別。 Hadoop還會索引和跟蹤這些資料,讓大資料處理和分析效率達到前所未有的高度。Spark,則是那麼一個專門用來

資料平臺Hadoop的分散式叢集環境搭建官網推薦

1 概述 本文章介紹大資料平臺Hadoop的分散式環境搭建、以下為Hadoop節點的部署圖,將NameNode部署在master1,SecondaryNameNode部署在master2,slave1、slave2、slave3中分別部署一個DataNode節點 NN

資料演算法-Hadoop/Spark資料處理技巧》讀書筆記(一)——二次排序

寫在前面: 在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼,的確是的,從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式,但是仔細看就會發現這些用Scala寫的文章

資料演算法-Hadoop/Spark資料處理技巧》讀書筆記(四)——移動平均

移動平均:對時序序列按週期取其值的平均值,這種運算被稱為移動平均。典型例子是求股票的n天內的平均值。 移動平均的關鍵是如何求這個平均值,可以使用Queue來實現。 public class MovingAverageDriver { public

資料入門之Spark快速入門及匯入資料求平均值

執行環境 本文的具體執行環境如下: CentOS 7.6 Spark 2.4 Hadoop 2.6.0 Java JDK 1.8 Scala 2.10.5 一、下載安裝 首先在官網 https://spark.apache.org/downloads.html 下載對應版

資料hadoop 安裝 spark前奏

單節點安裝 開發Hadoop需要的基本軟體 vmware vmware安裝ubuntu 12虛擬機器配置: 開啟root使用者: sudo  -s sudo passwd root 詳細參考: http://blog.csdn.net/flash8627/artic

保姆級教程帶你認識資料從0到1搭建 Hadoop 叢集

# 大資料簡介,概念部分 概念部分,建議之前沒有任何大資料相關知識的朋友閱讀 ## 大資料概論 ### 什麼是大資料 大資料(Big Data)是指**無法在一定時間範圍**內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的**海量、高增長

大數據學習資料Hadoop技術的優缺點

自動 大數據培訓 開發人員 信息流 系統 語言 保存 副本 資料 現在,Hadoop應運而生,龐大的信息流有了新的處理平臺。今天給大家分享的大數據培訓課程是:Hadoop技術的優缺點。 1、Hadoop的優點 (1)Hadoop具有按位存儲和處理數據能力的高可靠性。 (2)

資料基礎(1)zookeeper原始碼解析

五 原始碼解析   public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING;}zookeeper伺服器狀態:剛啟動LOOKING,follower是FOLLOWING,leader是LEADING,observer是

雲端計算資料人工智慧三者有何關係?【轉】

轉自:【http://cloud.idcquan.com/yjs/115806.shtml】原文:來源:今日頭條/領先網路 2017-05-02 17:17 雲端計算,大資料,和人工智慧,最近火的不行不行的詞彙,似乎不相同,但又似乎相互關聯,到底是什麼樣的關係呢?其實他們本沒有什麼關係,各自活在不