在Hadoop上執行Python指令碼

阿新 • • 發佈：2019-02-09

之前已經配置好了Hadoop以及Yarn，可那只是第一步。下面還要在上面執行各種程式，這才是最重要的。

Ubuntu安裝時預設已經安裝了Python, 可以通過Python –version 查詢其版本。
這裡寫圖片描述
因此我們可以直接執行python的指令碼了。

Python MapReduce Code

這裡我們要用到 Hadoop Streaming API，通過STIDN（Standard input）和 STDOUT(Standard output)來向Map程式碼、Reduce程式碼傳遞資料。
Python有sys.stdin可以直接讀取資料，sys.stdout來輸出資料。

1 . 首先建立mapper.py.

用VIM建立mapper.py, 將檔案存在/home/hadoop路徑下, 程式碼如下：

#!/usr/bin/env python

import sys

# input comes from STDIN (standard input)
for line in sys.stdin:
    # remove leading and trailing whitespace
    line = line.strip()
    # split the line into words
    words = line.split()
    # increase counters 

    for word in words:
        # write the results to STDOUT (standard output);
        # what we output here will be the input for the
        # Reduce step, i.e. the input for reducer.py
        #
        # tab-delimited; the trivial word count is 1
        print '%s\t%s' % (word, 1)

注意，儲存時存為unix編碼的，可以參考另一篇文章：

編碼問題

檔案儲存後，請注意將其許可權作出相應修改：

chmod a+x /home/hadoop/mapper.py

2 . 建立reduce.py
用VIM建立reduce.py, 將檔案存在/home/hadoop路徑下, 程式碼如下：

#!/usr/bin/env python

from operator import itemgetter
import sys

current_word = None
current_count = 0
word = None

# input comes from STDIN
for line in sys.stdin:
    # remove leading and trailing whitespace
    line = line.strip()

    # parse the input we got from mapper.py
    word, count = line.split('\t', 1)

    # convert count (currently a string) to int
    try:
        count = int(count)
    except ValueError:
        # count was not a number, so silently
        # ignore/discard this line
        continue

    # this IF-switch only works because Hadoop sorts map output
    # by key (here: word) before it is passed to the reducer
    if current_word == word:
        current_count += count
    else:
        if current_word:
            # write result to STDOUT
            print '%s\t%s' % (current_word, current_count)
        current_count = count
        current_word = word

# do not forget to output the last word if needed!
if current_word == word:
    print '%s\t%s' % (current_word, current_count)

檔案儲存後，請注意將其許可權作出相應修改：

chmod a+x /home/hadoop/reduce.py

首先可以在本機上測試以上程式碼，這樣如果有問題可以及時發現：

~$ echo "foo foo quux labs foo bar quux" | /home/hduser/mapper.py

執行結果如下：
這裡寫圖片描述

再執行以下包含reducer.py的程式碼：

~$ echo "foo foo quux labs foo bar quux" | /home/hduser/mapper.py | sort -k1,1 | /home/hduser/reducer.py

結果如下：
這裡寫圖片描述

在Hadoop上執行Python程式碼

準備工作：
下載文字檔案：

~$ mkdir tmp/guteberg
cd tmp/guteberg
 wget http://www.gutenberg.org/files/5000/5000-8.txt
 wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt

然後把這二本書上傳到hdfs檔案系統上：

$ hdfs dfs -mkdir /user/input # 在hdfs上的該使用者目錄下建立一個輸入檔案的資料夾
$ hdfs dfs -put /home/hadoop/tmp/gutenberg/*.txt /user/input # 上傳文件到hdfs上的輸入資料夾中

尋找你的streaming的jar檔案存放地址，注意2.6的版本放到share目錄下了，可以進入hadoop安裝目錄尋找該檔案：

$ cd $HADOOP_HOME
$ find ./ -name "*streaming*.jar"

然後就會找到我們的share資料夾中的hadoop-straming*.jar檔案:
這裡寫圖片描述

由於這個檔案的路徑比較長，因此我們可以將它寫入到環境變數：

vi ~/.bashrc  # 開啟環境變數配置檔案
# 在裡面寫入streaming路徑
export STREAM=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar

由於通過streaming介面執行的指令碼太長了，因此直接建立一個shell名稱為run.sh來執行：

hadoop jar $STREAM  \
-files /home/hadoop/mapper.py, /home/hadoop/reducer.py \
-mapper  /home/hadoop/mapper.py \
-reducer  /home/hadoop/reducer.py \
-input /user/input/*.txt \
 -output /user/output

然後”source run.sh”來執行mapreduce。結果就響噹噹的出來啦。
這裡寫圖片描述

這裡寫圖片描述

用cat來看一下輸出結果如下：
這裡寫圖片描述

在Hadoop上執行Python指令碼

之前已經配置好了Hadoop以及Yarn，可那只是第一步。下面還要在上面執行各種程式，這才是最重要的。 Ubuntu安裝時預設已經安裝了Python, 可以通過Python –version 查詢其版本。因此我們可以直接執行python的指令碼了。

hadoop執行python指令碼出錯：subprocess failed with code 127

一開始在ubuntu上，用vim寫了兩個.py檔案：mapper.py 和 reducer.py ，並通過 # hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6

mac上使用 crontab 定時執行python指令碼

網路是給力的，居然還真有，頓時感覺學海無涯哇。 1. crontab -e 來編輯自定義自己的任務【每天的 14點55分執行 python 指令碼】 55 14 * * * python /Users/hanjing/Desktop/pythonworkspace/yangcheapp/sendmai

Linux上如何測試、執行python指令碼

有兩種方式：1、直接使用python xxxx.py執行。其中python可以寫成python的絕對路徑。使用which python進行查詢。2、在檔案的頭部（第一行）寫上#!/usr/bin/python2.7，這個地方使用python的絕對路徑，就是上面用which

在Windows上讓Python指令碼像程式一樣可以雙擊執行

前提：Python環境無問題，指令碼無問題 1、把Python指令碼儲存為.py的檔案型別，你可隨意的把該檔案放置到任何位置，包括桌面。 2、開啟1中Python檔案，在首行加入如下程式碼：#!E:\software\python2.7 （其中E:\software\pyt

在windows上執行python的指令碼時錯誤解決

在windows的cmd中進入python模式後，執行一個已經寫完的python指令碼時，出現如下錯誤 >>> python test.py File "<stdin>", line 1 python test.py

在Hadoop上用Python實現WordCount

tdi fff tool 目錄獲取 style 要求 ren pan 在hadoop上用Python實現WordCount 一、簡單說明　　本例中我們用Python寫一個簡單的運行在Hadoop上的MapReduce程序，即WordCount（讀取文本文件並統計單詞的詞

Windows下執行python指令碼報錯“ImportError： No Module named ...”的解決方法

之前遇到一個問題，在Pycharm或IPython之類的IDE上執行指令碼正常，但是直接執行或cmd命令列執行的時候報了模組未能找到的誤——ImportError: No Module named ...。這是啥情況？ Python在啟動直譯器（Interpreter）的時候

jenkins執行python指令碼

最新在研究使用jenkins做升級釋出功能，大概的操作是選擇產品、模組、環境等引數後，執行一個python指令碼，指令碼獲取使用者選擇引數，然後執行釋出動作。 jenkins執行python指令碼，需要使用python plugin 具體使用方法： 1、安裝python plugin外掛

在 ubuntu 上執行 php 指令碼

在 ubuntu 上執行 php 指令碼一、配置執行環境 1.要在 ubuntu 上執行 php 指令碼，需要安裝 Apache2 和 PHP 具體步驟，請參考：Ubuntu 搭建Web伺服器(MySQL+PHP+Apache)詳細教程 2.已經安裝完，或者之前安裝過，開啟瀏覽器測試：訪問：http

記一次使用crontab計劃任務執行python指令碼所遇問題及處理的過程

今天把一個python指令碼遷移到Centos7，用crontab執行，期間遇到很多錯誤，最終把所遇問題一一處理，感覺有必要把處理過程記錄下來 1、問題環境 Centos7 x64 python2.7 和python 3.5 有安裝virtualenvwrappe

安裝Termux的手機上執行Python

1. Termux 終端 Android是一個單使用者圖形化系統，功能主要以應用的形式呈現給使用者，因此在系統上我們無法直接獲取終端，更是無法直接呼叫系統自帶的豐富指令。使用ADB是一個曲線救國的方法，開啟USB除錯後開發者可以在桌面系統的終端中觸發Android系統自帶指令，使用方法大概如下：

qpython3：安卓上執行Python

簡介 QPython3是一個在Android上執行Python3指令碼引擎，它整合了Python3直譯器、Console、編輯器和SL4A庫。可以讓你在Android裝置上執行Python語言開發的程式。它就是Android上的Python！此外，它提供了開發工具能讓你在Androi

linux下執行python指令碼的兩種方式

1、直接使用python xxxx.py執行。其中python可以寫成python的絕對路徑。使用which python進行查詢。 2、在檔案的頭部（第一行）寫上#!/usr/bin/python2.7，這個地方使用python的絕對路徑，就是上面用which python查詢來的結果

JAVA使用Runtime.getRuntime()執行python指令碼檔案

java呼叫python（含anaconda）注意： 1、python指令碼必須都用的是絕對路徑（可以拼接） 2、python指令碼呼叫自定義的模組時要將模組路徑新增到環境中。如果用sys.append(模組絕對路徑)，要每一個指令碼都要新增專案所在的路徑。 cmd命令列執行：&n

伺服器上執行Python專案

直接在筆記本里跑Python專案實在是太慢了，師兄給了實驗室伺服器一個節點，安排上了！首先下載了師兄給的bitvise安裝包，其實我之前用的是Xshell5，我也不造有什麼區別，就又安裝了一個。對比之後我發現bit

inotify+rsync實現實時同步(附解決crontab中無法執行python指令碼的問題）

1.準備環境 # 系統支援的話,下面的目錄就會存在 ls /proc/sys/fs/inotify/ rpm -qa inotify-tools yum -y install inotify-tools 2.inotifywait監控目錄狀態變化 /usr/bin/inotif

win cmd執行Python指令碼提示找不到模組問題

Windows關於命令列執行Python指令碼，提示找不到模組的問題，我本人也是在pycharm上執行沒毛病的，後來在本地搞了個Jenkins做定時任務，誰知道就提示找不到模組也百度了很多，都是說什麼新增環境變數的，把專案移動到Python目錄的，我都嘗試了沒有成功，後來才想起來，把檔案裡的所有匯入

新手mac上執行shell指令碼常見問題

最近打算在mac使用shell來實現unity的自動打包功能，寫完指令碼信心滿滿結果剛一執行就報錯，通過參考網上的解決方案最終順利執行指令碼，以下總結和記錄第一次在mac機上執行shell檔案最可能遇到的兩個問題。 1.許可權問題在終端執行sh檔案時報 -

命令列執行Python指令碼時傳入引數的三種方式

三種常用的方式如果在執行python指令碼時需要傳入一些引數，例如gpus與batch_size，可以使用如下三種方式。 python script.py 0,1,2 10 python script.py -gpus=0,1,2 --batch-size=10 p

在Hadoop上執行Python指令碼

Python MapReduce Code

在Hadoop上執行Python程式碼

相關推薦