1. 程式人生 > >hadoop自學記錄(一)

hadoop自學記錄(一)

【此篇純屬自己的筆記記錄,無實際幫助價值】
強烈建議參考官方文件http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html 來安裝hadoop。搜尋引擎搜出來的很多內容,都是找不到內容的,比如hadoop解壓後的目錄下根本沒有conf檔案夾了。
剛開始接觸hadoop不久,又在另外一臺電腦上搭建一次hadoop環境。
按照http://www.cnblogs.com/kinglau/p/3794433.html來處理(下面這幾個步驟參考這個網頁的)
1.建立hadoop使用者和組sudo addgroup hadoop


2.建立hadoop使用者 sudo adduser -ingroup hadoop hadoop
3.為hadoop使用者新增許可權sudo vim /etc/sudoers

# User privilege specification
root    ALL=(ALL:ALL) ALL
hadoop  ALL=(ALL:ALL) ALL

4.安裝ssh sudo apt-get install ssh
安裝pdsh sudo apt-get install pdsh
5.檢視服務是否啟動 ps -e | grep ssh
6.設定免密碼登入,生成私鑰和公鑰ssh-keygen -t rsa -P ""


7.將公鑰追加到authorized_keys中,它使用者儲存所有允許以當前使用者身份登入到ssh客戶端使用者的公鑰內容。cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
8.到了後面,發現是使用hadoop重新登入系統,然後再次安裝jdk等環境。由於我目前的使用者不是root,已經安裝了jdk等環境,就不想按照其步驟繼續。
直接將解壓之後的hadoop資料夾移動到/usr/lib/目錄下,然後修改~/.bashrc檔案內容。最後使用WordCount示例。

HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-
2.8.0$ sudo mv ~/Downloads/hadoop-2.8.0/ /usr/lib/ HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ chmod 775 /usr/lib/hadoop-2.8.0/ HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ vim ~/.bashrc HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ source ~/.bashrc HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.8.0-sources.jar org.apache.hadoop.examples.WordCount ~/Documents/feature/negative/negative_Special_DR_Tag_result.txt output HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ cat output/*

這裡寫圖片描述

~/.bashrc內容

export JAVA_HOME=/usr/lib/jvm/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

export SCALA_HOME=/usr/lib/scala-2.12.1
export PATH=$PATH:${SCALA_HOME}/bin

export SPARK_HOME=/usr/lib/spark-2.1.0-bin-hadoop2.7
export PATH=$PATH:${SPARK_HOME}/bin

export MAVEN_HOME=/usr/lib/apache-maven-3.3.9
export PATH=$PATH:${MAVEN_HOME}/bin

#set weka enviroment
export WEKA_HOME=/usr/weka
export CLASSPATH=$CLASSPATH:$WEKA_HOME/weka.jar

#set hadoop enviroment
export HADOOP_HOME=/usr/lib/hadoop-2.8.0
export path=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin

vim /usr/lib/hadoop-2.8.0/etc/hadoop/hadoop-env.sh

# set to the root of your Java installation
export JAVA_HOME=/usr/lib/jvm/java

注意修改這個JAVA_HOME路徑,否則在後面使用時候,會報錯

HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ sbin/start-dfs.sh
Starting namenodes on [localhost]
localhost: Error: JAVA_HOME is not set and could not be found.
localhost: Error: JAVA_HOME is not set and could not be found.
Starting secondary namenodes [0.0.0.0]
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
ECDSA key fingerprint is 7f:77:9e:35:fe:21:22:6f:dd:4c:20:27:16:d1:43:37.
Are you sure you want to continue connecting (yes/no)?

相關推薦

hadoop自學記錄

【此篇純屬自己的筆記記錄,無實際幫助價值】 強烈建議參考官方文件http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html 來安裝hado

Hadoop自學筆記常見Hadoop相關項目一覽

-a https class Lucene 百萬 data fcm you 轉換 本自學筆記來自於Yutube上的視頻Hadoop系列。網址: https://www.youtube.com/watch?v=-TaAVaAwZTs(當中一個) 以後不再贅述 自學筆

Hadoop學習記錄Hadoop叢集的搭建

參考:http://www.zuidemo.com/filePreview/pdfFilePreview/11202並進行補充 1.新建七個centos7系統的虛擬機器,分別命名為cluster1,cluster2等。關閉防火牆。 2.七臺主機都修改host檔案 vi /etc/host

【ABAP自學系列

發的 img api .cn ima code pat 查看 屏幕 一、查看補丁包級別 然後看Patch Level即可。 常用T-code: SE38(寫程序) SE80(屏幕開發) Smartform(開發smartform打印) SE37(可以查看function

Linux 環境部署記錄

sql tables 查看 ont 系統時間 earch arch borde 路徑 時間設置 查看系統當前日期/時間: date -R 查看系統硬件時鐘: hwclock --show 設置硬件時間: hwclock --set --date="07/18/

android的入門記錄

下載到本地 可能 安裝 subst 數據 工具包 一次 以及 由於 ---恢復內容開始--- 首先,這是我人生中的第一篇博客,也許嚴格意義上它並不算是一篇博客,但也代表著一些東西。 前言 我們往往在開始學習一門新的語言或者課程時會遇見各式各樣的問題,比

linux學習記錄

設備 ima 權限 logs spf style www. 塊設備 alt 1、各種顏色文件的含義 黃色表示設備文件 灰色表示其它文件 白色表示普通文件 綠色表示可執行文件; 紅色表示壓縮文件; 淺藍色表示鏈接文件; 灰色表示其它文件; 紅色閃爍表示鏈接的文件有問題了;

vue學習記錄—— vue開發調試神器vue-devtools安裝

shell gist 項目 擴展工具 code blog manifest false .net 網上有些貼子少了至關重要的一步導致我一直沒裝上, 切記!!install後還需build,且install和build都在vue-devtools文件夾內執行 github下載

hadoop核心組件

poi 不可 組件 為我 med 批處理 數據庫 true 讀取   hadoop的核心組件:hdfs(分布式文件系統)、mapreduce(分布式計算框架)、Hive(基於hadoop的數據倉庫)、HBase(分布式列存數據庫)、Zookeeper(分布式協作服務)、S

WPF自學入門WPF-XAML基本知識

yml 定位 def 負責 pen namespace for 這就是 page 一、基本概念 1、XAML是派生自XML的可擴展應用程序標記語言(Extensible Application Markup Language)由微軟創造應用在WPF,Silverlight等

C語言程序編寫中犯的錯誤的記錄

C 程序編寫 錯誤 今天學習用到了《C程序設計(第四版)》的求兩個數的最大值的程序devcpp程序:#include <stdio.h>int main(){int max(int x,int y);int a,b,c;scanf("%d,%d",&a,&a

在CentOS上安裝Hadoop集群-- Centos系統配置

修改 AD vi命令 分享圖片 命令 wall eth0 host log 在CentOS上安裝Hadoop集群(一) 1、 Centos的系統配置 1.1打開終端方式: 方式1:在桌面單擊右鍵,>>Open in terminal 方式2:Appl

hadoop學習筆記

存儲 實時 管理層 核心 架構圖 數據服務 pre oop nod 一、hadoop的概念 二、hadoop的發展歷史 三、hadoop1.x的生態系統 HBase:實時分布式數據庫   相當於關系型數據庫,數據放在文件中,文件就放在HDFS中。因此HBase是

初識ExtJS 6----自學筆記

6.2 漂亮 VM 部分 判斷 .cn onf 版本 template 一、使用環境 這一點寫在前面,是為了方便大家在找資料的時候可以直接定位環境版本。 ExtJS版本 6.2 中文官方網站提供版本,網站地址http://extjs.org

測試平臺開發記錄

文檔 直接 重新整理 繼續 框架 運行 自動化 一點 開發 最近幾個月最主要的工作就是測試平臺開發,由於內容比較多,我計劃分幾期來討論。 提到“測試平臺”測試會覺得比較高大上,其實就是“xx測試管理系統”,既然是一個管理系統,又是主要服務於測試的,所以,主要功能就是:管理接

微信小程序學習記錄

地址 n) taf forest 對象復制 strong display exp 價格 如何定義一個全局變量: 1,在根目錄下app.js中添加 App({ globalData: { g_isPlayingMusic : false, g_curre

SpringBoot學習記錄

not website snap 對象 mpi method oid pom pid 1. Spring的Java配置方式 Java配置是Spring4.x推薦的配置方式,可以完全替代xml配置。 1.1. @Configuration 和 @Bean Spring的Jav

python+selenium+unittest+pageobject學習記錄

exceptio 單元測試框架 回憶 stc ui自動化 import list 測試的 add 學習selenium已經一個月了,簡單概括一下學習的步驟,方便以後回憶。 一. 自動化測試的一些概念   1.分層的自動化測試:unit-->service-->U

Spark源碼研讀-散篇記錄:SparkConf

wstring unless prop acl point view prior exce same 0 關於散篇記錄 散篇記錄就是,我自己覺得有需要記錄一下以方便後來查找的內容,就記錄下來。 1 Spark版本 Spark 2.1.0。 2 說明 源碼過程中所涉及的許多S

webpack踩坑記錄

有著 安裝webpack package 頁面 如圖所示 ins 部分 二次 令行 博客還是要簡單記錄一下的,美劇看完了,於是決定學習,想起來webpack還沒學啊,大物就先放一放,然後就開始找教程,慕課上某免費視頻。 那webpack是啥呢? 如圖所示: 是不