hadoop教學視訊總結（1）

阿新 • • 發佈：2018-12-10

1、hadoop3（聽說比spark快10倍），基於jdk1.8以上，至少3臺機器

更加支援spark，

增加classpath isolation 防止一些不同的jar包版本

支援hdfs的擦除編碼

DataNode 儲存資料新增負載均衡

MapReduce優化

2、hadoop --- hdfs架構

NameNode DataNode secondaryNameNode 主要三種節點，不建議NN 和SNN在一臺機器上，防止磁碟IO

（1）NameNode（NN）節點

上傳下載檔案都需要請求這個節點（提供客戶端的上傳下載功能）

存放元資料（metadata除了檔名，內容以外的所有東西都是元資料，比如大小，檔案格式等等），在叢集中只能有一個在工作

（2）DataNode （DN）節點

儲存內容的節點

怎麼存？切成資料塊（block），均勻存放在DataNode上

每個塊都有三個副本（防止資料丟失），不允許一臺機器出現block 的ID,所以三個副本在三個機器

（3）SecondaryNameNode（SNN）節點

元資料存放在記憶體中的（並不穩定，關機即丟失），所以一段時間持久化一次，將資料寫入磁碟中（fsimage（磁碟檔名）,edit（操作日誌增刪改的操作）---實時持久化），

不存放資料，SNN是合併元資料的作用，使記憶體中的資料儲存穩定

根據edit來更新fsimage（3600s(1小時) 間隔）

叢集啟動時候，首先更新一次fsimage，執行時一小時更新一次

3、啟動條件

啟動一個節點，訪問另外一個節點，配置主機名，vim /etc/sysconfig/network

配置hosts對映檔案 vim /etc/hosts

以一臺機器為中心，設定到其他機器免密碼ssh

（1）建立祕鑰

ssh -keygen

cd .ssh/

id_rsa私鑰 id_rsa.pub公鑰

將公鑰copy到其他機器中 ssh-copy-id -i ./id_rsa.pub [email protected]

tar -xvf hadoop....

（3）在/etc/hadoop下配置hadoop-env.sh檔案

（4）NameNode配置，在core-site.xml中新增

（5）SecondaryDataNode配置，在hdfs-site.xml中新增

（6）DataNode配置，在worker.xml中配置，直接寫域名即可

（7）將hadoop copy上其他機器中

4、啟動hdfs

（1）格式化（第一次安裝的時候）

（2）啟動

檢視程序

hadoop教學視訊總結（1）

1、hadoop3（聽說比spark快10倍），基於jdk1.8以上，至少3臺機器更加支援spark，增加classpath isolation 防止一些不同的jar包版本支援hdfs的擦除編碼 DataNode 儲存資料新增負載均衡 MapRedu

資料庫視訊總結（1）

第一章 SQL 是一個典型的關係型資料系統資料庫優點：較小的冗餘性，較高的資料獨立性和易擴充套件性三種常見的模型（指資料庫管理系統中資料的儲存結構）：層次模型、網狀模型、關係模型鍵碼：標識行的一列或者多列主關鍵字：作為錶行的唯

Hadoop架構的初略總結（1）

安全 use 請求參考內存文件系統 href 獲得監控 Hadoop架構的初略總結（1） Hadoop是一個開源的分布式系統基礎架構，此架構可以幫助用戶可以在不了解分布式底層細節的情況下開發分布式程序。首先我們要理清楚幾個問題。 1.我們為什麽需要Hadoop

ajax技術整理總結（1）

col () stat sta pre resp tel html func 1.創建ajax對象 var xhr=new XMLHttpRequest(); 4.監聽狀態信息 xhr.onreadystatechange=function(){ //4接收完畢

log4net 使用總結- （1）在ASP.NET MVC 中使用

站點 href 還需配置文件 str nag org src stat 1. 去官網下載log4net.dll，增加引用到站點下（你也可以通過nuget 安裝） http://logging.apache.org/log4net/download_log4net.cgi

MEF學習總結（1）---總體架構

attr 總結技術分享 dir target get gre round 管理用了很久的MEF框架來做依賴註入，最近想把它的原理和機構總結一下，主要包括如下幾個方面： 1. 總體架構 2. .Net Composition Primitive 3. Attribu

總結（1）--- 數據庫

優點分層數據結構存儲引擎 nsis tree 備份可擴展根節點一、mysql 數據庫存儲的原理存儲過程中是一個可編程的函數，它在數據庫中創建並保存。它可以有SQL語句和一些特殊的控制結構組成。當希望在不同的應用程序或平臺上執行相同的函數，或者封裝特定功能

八大排序算法總結（1）

n-1 冒泡排序 int 排序算法 length != 位置倒數選擇冒泡排序：第一輪：從下標0到n-1(n 是數組長度)，如果前一個元素比後一個元素大，那麽，相鄰的兩兩交換，最後數組中最大的元素放在最後一個位置上。第二輪：從標0到n-2,重復上過程，這樣第二大的元

Linux查看日誌方法總結（1）

關鍵字 http grep 定時 abd cab 我們做的 ext 註：日誌文件為：test.log 1.tail -f test.log 查看當前打印的日誌（平時就知道這方法！打印出的長度有限制。）以下為網上搜集的： 2.先必須了解兩個最基本的命令: tai

Python筆記總結（1）

Language 界面關系運算符 unp expect ber integer file back 一、變量在python中不需要為變量制定數據類型。可以單行定義多個變量。>>> a, b = 2, 3.4 >>> a 2 >&g

golong基礎知識總結（1）

import 調用一個需要文件中一個數 col 遍歷 print go語言結構　　go語言的基礎組成：包聲明，引入包，函數，變量，語句和表達式，註釋　　包聲明：一個文件夾下只能聲明一個包，否則就會報錯（即同一個文件夾下，可以有多個go文件，但這些文件聲明的包的名

leetcode刷題總結（1）

solution 遍歷 AC 復雜度刷題 may example AR 記錄 1、Two Sum Given an array of integers, return indices of the two numbers such that they add up to

Spring-Batch學習總結（1）——重要概念，環境搭建，名詞解釋，第一個項目及異常處理

img truct 設定 uil sna sta col key services Spring-batch框架學習總結（1）一．初識Spring-batch框架：1.核心名詞解釋：Job：是Spring-batch框架的核心概念，它包含了批處理的所有操作Step:每一個J

phthon學習總結（1）

pytho 保留字大小寫特殊字符 int 開頭字母數操作定義 1、print("hello word") 2、變量、常量：　　變量是存儲信息、方便調用、修改操作　　常量固定不變的量，python用字母大寫區分。無常量。命名規則： 1)字母數字下劃線組成。 2

Redis學習總結（1）——Redis記憶體資料庫詳細教程

1.Redis是什麼 2.redis的作者何許人也 3.誰在使用redis 4.學會安裝redis 5.學會啟動redis 6.使用redis客戶端 7.redis資料結構 – 簡介 8.redis資料結構 – strings 9.redis資料結構 – lists 10.redis

設計模式總結（1）

設計模式總結（1）單例模式單例模式是java設計模式中較為簡單但使用廣泛的一種建立型模式。使用這種設計模式的類不需要例項化，可以直接使用並且只能有一個自己建立的例項。這樣的優點是在一個類如果需要被頻繁使用的場景下可以減少記憶體開銷。單例模式有多種實現方法：餓漢式

spark知識點總結（1）

1.RDD彈性分散式資料集：是抽象出來的概念，元素的集合。是一批節點上一批資料的集合。分散式：每個rdd會把資料分成多個parttioner放在多個節點上。eg:90萬條資料放在9個節點上面，每個節點9萬條資料。彈性：eg：每個節點上面個的記憶體中只能存放5萬條資料，那麼

c語言程式設計常見問題總結（1）

總結1：將全域性變數放在會被多次呼叫的標頭檔案中，編譯會報錯：該變數被多次定義，所以是最好把全域性變數放在.c檔案中。總結2： Getche()函式，輸入後立即從控制檯取字元，不以回車為結束(帶回顯)； Getch()是一個不回顯函式，當用戶按下某個字元時，函式自動讀

事務學習總結（1）——事務的基本概念

一：什麼是事務？對資料庫讀寫一系列操作的合集。具有"ACID"的特性，即原子性、一致性、隔離性、永續性。核心點是鎖與併發。二：主要用在哪些場景？解決了什麼問題？

資料庫視訊總結（九）——自動化

這是資料庫視訊第十三章所述——自動化，自動化為sql帶來很大的便利，更能給程式設計師帶來很大的便捷，首先就讓我們來了解一下自動化吧： SQL自動化概述功能：很多管理任務都可以設定成自動化來實現，主要包括以下方面： 1、Tsql語句 2、作業系統命令 3、指令碼語言

hadoop教學視訊總結（1）

相關推薦