大資料基礎Hadoop 2.x入門

阿新 • • 發佈：2018-12-02

hadoop概述

儲存和分析網路資料
三大元件
- MapReduce
  - 對海量資料的處理
  - 思想：
    - 分而治之
    - 每個資料集進行邏輯業務處理map
    - 合併統計資料結果reduce
- HDFS
  - 儲存海量資料
  - 分散式儲存
  - 安全性高
    - 副本資料
- YARN
  - 分散式資源管理框架
    - 管理整個叢集的資源（記憶體、CPU核數）
    - 分配排程叢集資源
- Common
  - 工具

hadoop生態圈

Hive（蜜蜂）通過使用sql語句來執行hadoop任務
HBase 儲存結構化資料的分散式資料庫
- HBase放棄了事務特性，追求更高的擴充套件
- 和HDFS不同的，HBase提供資料的隨機讀寫和實時訪問，實現對錶資料的讀寫功能
zookeeper 維護節點狀態

Hadoop安裝

使用docker安裝

docker run -i -t -p 50070:50070 -p 9000:9000 -p 8088:8088 -p 8040:8040 -p 8042:8042  -p 49707:49707  -p 50010:50010  -p 50075:50075  -p 50090:50090 sequenceiq/hadoop-docker:2.6.0 /etc/bootstrap.sh -bash

HDFS基本概念

塊（Block）
- HDFS的檔案被分成塊進行儲存
- HDFS塊的預設大小64M
- 塊是檔案儲存處理的邏輯單元
NameNode
- NameNode是管理節點，存放檔案元資料
- 檔案與資料塊的對映表
- 資料塊與資料節點的對映表
DataNode
- 是HDFS的工作節點，存放資料塊

HDFS中資料管理與容錯

資料塊副本
心跳檢測
二級NameNode

HDFS中檔案讀寫的流程

HDFS寫入檔案的流程

HDFS的特點

資料冗餘，硬體容錯

流式的資料訪問
適合儲存大檔案
適合資料批量讀寫，吞吐量高
不適合互動式應用，低延遲很難滿足
適合一次寫入多次讀取，順序讀寫
不支援多使用者併發寫相同檔案

HDFS命令列操作

hadoop fs -ls /
hadoop namenode -format 格式化操作
hadoop fs -ls /user
hadoop fs -put hadoop-env.sh /user/root 把檔案放入hadoop
hadoop fs -rm input
hadoop fs -rm hadoop-env.sh
hadoop fs -mkdir input
hadoop fs -cat input/hadoop-env.sh
hadoop fs -get input/hadoop-env.sh hadoop-env2.sh
hadoop dfsadmin -report

MapReduce原理

分而治之，一個大人物分成多個小的子任務（map），並行執行後，合併結果（reduce）
比如：100GB的網站訪問日誌檔案，找出訪問次數最多的IP地址
- 根據日期切分，比如按周，每週一份進行統計
- 再合併到某幾個機器進行分析合併

MapReduce執行流程

基本概念
- Job & Task 一個job就例如上面的例子，task可以分為map task和reduce task
- JobTracker
  - 作業排程
  - 分配任務、監控任務執行進度
  - 監控TaskTracker的狀態
- TaskTracker
  - 執行任務
  - 彙報任務狀態
MapReduce作業執行過程

MapReduce的容錯機制

重複執行
- 重複4次仍舊失敗放棄
推測執行
- 假設有個TaskTracker執行特別慢，它會啟動另一個TaskTracker執行相同的任務，兩個誰先執行完，就放棄另一個

MapReduce應用

WordCount單詞計數

由於我是docker安裝，具體例子可以參考如下

https://blog.csdn.net/qq_16563637/article/details/81702633
docker安裝的容器裡，自帶了例子，位置是/usr/local/hadoop-2.6.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar

參考 https://www.imooc.com/video/7777

大資料基礎Hadoop 2.x入門

hadoop概述儲存和分析網路資料三大元件 MapReduce 對海量資料的處理思想：分而治之每個資料集進行邏輯業務處理map 合併統計資料結果reduce

學習大資料基礎筆記01——Linux入門與基礎

終於等到大三開學了，新學期昨晚才得到朝思暮想的課表，課表裡的有一門行業前沿技術（心想：前沿技術是個啥技術..）其實是大資料... 好了，我要開始學東西了...（窘迫）備註：其實操作步驟是看老師來的，哈哈哈..大資料小白 &nb

企業級Hadoop 2.x入門系列之十二入門視訊分享

網上流傳非常好的《Hadoop 2.x入門學習視訊》，在此將網盤下載地址分享給大家課程相關【軟體與工具】：連結：http://pan.baidu.com/s/1hqEGFQk 密碼：b4sh 第一次課程：連結：http://pan.baidu.com/

大資料學習初級入門教程（一） —— Hadoop 2.x 的安裝、啟動和測試

大資料最基礎的就是資料的儲存和計算，而 Hadoop 就是為儲存和計算而生，是最基礎的大資料處理工具。這篇簡單寫寫 Hadoop 2.x 的安裝，啟動和測試。一、準備環境大資料環境的部署，一般都是叢集，機器數量為奇數，這裡以 5 臺機器為例，作業系統為 CentOS 6.9_x64；

【備忘】小象視訊教程 Hadoop 2.X大資料平臺V3

第1講：hadoop生態系統以及版本演化第2講：HDFS 2.0應用場景、原理、基本架構及使用方法第3講：Yarn應用場景、基本架構與資源排程第4講： MapReduce 2.0基本原理與架構第5講：MapReduce 2.0程式設計實踐（涉及多語言程式設計）第6講：Hbase應用場

大資料學習——hadoop叢集搭建2.X

1.準備Linux環境 1.0先將虛擬機器的網路模式選為NAT 1.1修改主機名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ### 1.2修改IP 兩種方式：第一種：通過Linux圖形介面進行修改（強烈推薦）進入Linux圖形

大資料基礎（五）從零開始安裝配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04

raw to spark 0 install ubuntu 14.04.01 desktop x64 1 system基礎配置《以下都是root模式》 1.3 root password sudo passwd root 1.5 root登入選項 a.在terminal下

從零開始搭建大資料平臺系列之（2.1）—— Apache Hadoop 2.x 偽分散式環境搭建

JDK 版本：jdk 1.7.0_67 Apache Hadoop 版本：Hadoop 2.5.0 1、安裝目錄準備 ~]$ cd /opt/ opt]$ sudo mkdir /opt/modules opt]$ sudo chown beifeng:b

hadoop 大資料實戰（2）mongodb安裝

mongodb-win32-x86_64-2008plus-ssl-4.0.3.zip 1、下載地址： https://www.mongodb.com/download-center 2、配置 1.建立路徑，C:\mongodb 2.在C:\mongodb下減壓下載的zip檔案，然後在C

學習Hadoop大資料基礎框架

什麼是大資料？進入本世紀以來，尤其是2010年之後，隨著網際網路特別是移動網際網路的發展，資料的增長呈爆炸趨勢，已經很難估計全世界的電子裝置中儲存的資料到底有多少，描述資料系統的資料量的計量單位從MB（1MB大約等於一百萬位元組）、GB（1024MB）、TB（1024GB），一直向上攀升，目

大資料之（2）修改Hadoop叢集日誌目錄，資料存放目錄

Hadoop有時會有unhealthy Node不健康的非Active節點存產生，具體錯誤內容如下。一、錯誤內容 -== log-dirs usable space is below configured utilization percentage/no more usabl

spark-使用總結-大資料基礎入門

1、partition數目 spark的輸入可能以多個檔案的形式儲存在HDFS上，每個File都包含了很多塊，稱為Block。當Spark讀取這些檔案作為輸入時，會根據具體資料格式對應的InputFormat進行解析，一般是將若干個Block合併成一個輸入分片，稱為In

大資料學習Hadoop快速入門

1、Hadoop生態概況 Hadoop是一個由Apache基金會所開發的分散式系統整合架構，使用者可以在不瞭解分散式底層細節情況下，開發分散式程式，充分利用叢集的威力來進行高速運算與儲存，具有可靠、高效、可伸縮的特點。大資料學習群119599574 Hadoop的核心是Y

Hadoop大資料基礎框架學習

什麼是大資料？進入本世紀以來，尤其是2010年之後，隨著網際網路特別是移動網際網路的發展，資料的增長呈爆炸趨勢，已經很難估計全世界的電子裝置中儲存的資料到底有多少，描述資料系統的資料量的計量單位從MB（1MB大約等於一百萬位元組）、GB（1024MB）、TB（1024GB），一直向上攀升，目前，PB

大資料：Hadoop新手入門

大資料：Hadoop入門一：什麼是大資料什麼是大資料：（1.）大資料是指在一定時間內無法用常規軟體對其內容進行抓取，管理和處理的資料集合，簡而言之就是資料量非常大，大到無法用常規工具進行處理，如關係型資料庫，資料倉庫等。這裡“大”是一個什麼量級呢？如在阿里巴巴每天處理資

Hadoop 2.X管理與開發（二、資料壓縮與優化）

#Hadoop資料壓縮資料壓縮 1）MR操作過程中進行大量資料傳輸，就需要對資料進行壓縮 2）壓縮技術能夠有效減少底層儲存（HDFS）讀寫位元組數，提高的網路頻寬和磁碟空間的效率 3）資料壓縮能夠有效節省資源 4）壓縮事MR程式的優化策略 5）通過壓縮編碼對

大資料JAVAEE+Hadoop （14.9-15.2高清完整版）電商巴巴運動網專案

電商專案,新巴巴運動網:新巴巴運動網是專業的運動類網上購物商城，屬於大型網際網路電子商務專案，它包含商品管理、訂單管理、類目管理、品牌管理、客戶管理、合作商管理、客服管理、購物平臺、內容管理等。系統前臺是面向網站訪問使用者的，即給訪問網站的使用者所展示的頁面，使用者

大資料學習-Hadoop生態章---HDFS完全分散式(1.X版本)搭建及eclipse外掛整合

完全分散式搭建(1.x版) 一.環境的準備（詳情參考Linux章） Linux 環境 JDK 準備至少3臺機器（通過克隆虛擬機器；配置好網路JDK 時間 hosts，保證節點間能互ping通）時間同步 (ntpdate time.nist.gov)

2. 大資料基礎

前言幾個故事大資料都是騙人的，一頭豬悲催的豬資料不全不是大資料，不可信過去->將來啤酒尿布這個案例僅是一碗資料分析的“心靈雞湯”——聽起來很爽，但信不得！ GFT 預測 H1N1 搜尋詞和H1N1敏感性

什麼是Hadoop（大資料基礎系列二）

MapReduce 是適合海量資料處理的程式設計模型。Hadoop是能夠執行在使用各種語言編寫的MapReduce程式： Java, Ruby, Python, and C++. MapReduce程式是平行性的，因此可使用多臺機器叢集執行大規模的資料分析非常有用的。Ma

大資料基礎Hadoop 2.x入門

hadoop概述

hadoop生態圈

Hadoop安裝

HDFS基本概念

HDFS中資料管理與容錯

HDFS中檔案讀寫的流程

HDFS寫入檔案的流程

HDFS的特點

HDFS命令列操作

MapReduce原理

MapReduce執行流程

MapReduce的容錯機制

MapReduce應用

WordCount單詞計數

相關推薦