以hdfs上檔案或者本地檔案作為輸入在Pycharm中執行spark程式程式碼示例

阿新 • • 發佈：2019-01-05

以hdfs上檔案或者本地檔案作為輸入在Pycharm中執行spark程式，並將計算結果儲存到hdfs上的python程式碼示例

（1）準備輸入資料檔案：

準備輸入資料檔案2017-11-01.txt和2017-11-10.txt，每行每個欄位以"\t"分割，行之間用換行符分割，並上傳到hdfs上/input目錄下。內容如下：

localhost:experiment_data a6$ more 2017-11-01.txt
AA      10001   2017-10-06
BB      10002   2017-10-07
CC      10003   2017-10-08
AA      10004   2017-10-09
DD      10003   2017-10-20
localhost:experiment_data a6$ more 2017-11-10.txt
AA      10009   2017-11-06
BB      10002   2017-11-07
CC      10004   2017-11-08
AA      10006   2017-11-09
DD      10003   2017-11-20

（2）python spark程式碼如下

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
# File Name:    filter_and_retain_lastest_hbsid_state.py
#
# Function:
#
#
# Author: yz
#
# Create Time:    2016-11-07 16:31:54
#
######################################################
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from pyspark import SparkContext, SparkConf

def get_data(line):
    # line =  '\t'.join([str(hbsid), str(user_id),str(Global_date)])
    line = line.strip()
    ary= line.split('\t')
    if len(ary) != 3:
        return line
    hbsid,user_id,curr_date=ary
    #print (hbsid, (user_id,curr_date))
    return (hbsid, (user_id,curr_date))

def form_max_hbsid_userid(data_in):
    key, values = data_in
    #print key,values
    #return '\t'.join([key, values[0],values[1]])
    return '\t'.join([key, str(values[0])+";"+str(values[1])])

def main():
    conf = SparkConf().setAppName("merge_hbsid_userid")
    sc = SparkContext(conf=conf)
    '''# hdfs目錄'''
    #input_data_path = "hdfs://localhost:9002/input/2017-11-01*"
    '''# 本地目錄'''
    input_data_path="file:///Users/a6/Downloads/PycharmProjects/speiyou_di_my/userid_hbsid_map_1107_final/input_local/2017-11-01*"
    #print input_data_path
    result = sc.textFile(input_data_path)
    result = result.map(get_data)
    #print result
    #print "result.collect()", result.collect()
    result = result.filter(lambda x: isinstance(x, tuple) is True)
    result = result.map(form_max_hbsid_userid)
    result.saveAsTextFile("hdfs://localhost:9002/output/2017-11.res")
main()

'''
hadoop fs  -cat hdfs://localhost:9002/output/2017-11-01.res/*
hadoop fs  -rmr hdfs://localhost:9002/output/2017-11-01.res
'''

（3）配置執行引數

或者def main()函式裡邊新增spark的安裝目錄，即可。

    os.environ["SPARK_HOME"] = "/Users/a6/Applications/spark-2.1.0-bin-hadoop2.6"

具體例子如下：

# -*- coding:utf-8 -*-
from pyspark import SparkConf
from pyspark import SparkContext
import os
if __name__ == '__main__':
    os.environ["SPARK_HOME"] = "/Users/a6/Applications/spark-2.1.0-bin-hadoop2.6"
    conf = SparkConf().setMaster('local').setAppName('group')
    sc = SparkContext(conf=conf)
    data = [('tom',90),('jerry',97),('luck',92),('tom',78),('luck',64),('jerry',50)]
    rdd = sc.parallelize(data)
    print rdd.groupByKey().map(lambda x: (x[0],list(x[1]))).collect()

# 輸出：
[('tom', [90, 78]), ('jerry', [97, 50]), ('luck', [92, 64])]

（4）執行程式，輸出提示，及執行結果如下：

1）輸出提示如下：

/System/Library/Frameworks/Python.framework/Versions/2.7/bin/python2.7 /Users/a6/Downloads/PycharmProjects/userid_hbsid_map_final/filter_and_retain_lastest_hbsid_state.py
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
17/11/07 19:50:48 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/11/07 19:50:48 WARN Utils: Your hostname, localhost resolves to a loopback address: 127.0.0.1; using 10.2.32.209 instead (on interface en0)
17/11/07 19:50:48 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
                                                                                
Process finished with exit code 0

2）執行結果如下：

localhost:input_local a6$ hadoop fs  -cat hdfs://localhost:9002/output/2017-11.res/*
17/11/07 19:57:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
AA	10001;2017-10-06
BB	10002;2017-10-07
CC	10003;2017-10-08
AA	10004;2017-10-09
DD	10003;2017-10-20
AA	10009;2017-11-06
BB	10002;2017-11-07
CC	10004;2017-11-08
AA	10006;2017-11-09
DD	10003;2017-11-20
localhost:input_local a6$

注意哈，兩者目錄的書寫格式：

'''# hdfs目錄'''
input_data_path = "hdfs://localhost:9002/input/2017-11-01*"
'''# 本地目錄'''
input_data_path="file:///Users/a6/Downloads/PycharmProjects/speiyou_di_my/userid_hbsid_map_1107_final/input_local/2017-11-01*"

以hdfs上檔案或者本地檔案作為輸入在Pycharm中執行spark程式程式碼示例

以hdfs上檔案或者本地檔案作為輸入在Pycharm中執行spark程式，並將計算結果儲存到hdfs上的python程式碼示例（1）準備輸入資料檔案：準備輸入資料檔案2017-11-01.txt和201

pdf 轉化image(網路下載的檔案或者本地檔案)

需要jar包 pdfbox-2.0.12.jar, fontbox-2.0.12.jar package cn.zgjzd.app.util.zjl; import java.awt.image.BufferedImage; import java.io.Buffered

將本地文字檔案上傳到HDFS上，然後匯入hive/impala對應表中

1.本地文字檔案上傳前的準備將文字儲存為"uft-8"格式，並用"|"進行欄位間的分割（個人習慣，可以選用其它符號，但要避免和程式語言產生衝突，Hive預設的欄位分隔符為ascii碼的控制符\001）。 2.將文字檔案通過Xshell上傳到HDFS上（1）首先要新建（A

linux—上傳,下載本地檔案到伺服器

　　　　本地—最基本命令方式：　　　　　　　　　　　上傳到當前目錄：rz 　　　　　　　　　　　下載到path: sz /path 　　　跳板機—通過scp方式：　　　　　　　　　　　下載檔案： &

Hadoop學習——hdfs上傳讀取刪除檔案的過程

Hadoop學習——hdfs上傳讀取刪除檔案的過程 namnode，名位元組點，最主要管理HDFS的元資料資訊。 datanode，資料節點，儲存檔案塊 replication，檔案塊的副本，目的是確保資料儲存的可靠性 rack 機器 Clien

通過FTP軟體樹莓派（Raspberry Pi 3）可以和電腦上傳或者下載檔案

打開了SSH協議之後的樹莓派就形成了一個支援SFTP協議的伺服器，我們可以電腦中使用FTP軟體就可以與樹莓派進行檔案互動。（注意：至於怎麼開啟SSH，我在《樹莓派(Raspberry Pi)3 Mo

解決Flume採集資料時在HDFS上產生大量小檔案的問題

問題：flume指定HDFS型別的Sink時，採集資料至HDFS指定目錄，會產生大量小檔案。問題重現：1、建立flume配置檔案flume-env.sh，：flume配置檔案如下（根據自身需要修改）：因為flume可以配置多種採集方式，每種採集方式對應一個agent配

Linux怎麼上傳下載本地檔案

只需要安裝下面這個包即可，執行下面的安裝命令 yum install -y lrzsz1 上傳在 Linux 命令列下輸入 rz， rz1 輸入 rz 命令後，會彈出對話方塊，選擇你要上傳的檔案，選擇開啟就上傳到 Linux 主機。上傳的檔案在當前命

flink讀取hdfs上多路徑的檔案

flink上多路徑的檔案支援似乎不太友好，目前沒有找到更好的辦法。在spark下可以使用的讀取hdfs多路徑的方式為： /root/data/20170101/ /root/data/20170102/ /root/data/20170103/ … /root/data/2017020

Hadoop Hive Spark hive建表語句對錶在hdfs上儲存的file或block數量、以及後續spark讀檔案跑模型的影響

問題描述：前段時間使用hive語句建了兩張較為相似的資料表，後來在spark上用這兩張表跑相同的模型，發現兩張表的模型訓練時間不同，其中一張表跑起來非常慢。而兩張表的欄位數量和資料量並沒有太大的差別，頗為奇怪。解決方法：先說結論：以上問題是兩

scrapy配置以及下載到資料庫或者csv檔案或者json檔案：

普通 srcapy檔案： scrapy startproject 專案名稱 srcapy gensiplder 檔名域名 #如：srcapy gensiplder baidu baidu.com #會生成一個baidu.py檔案 scrapy crawl 名字 #執行檔案另一種

lsof 檢視程序開啟那些檔案或者檢視檔案給那個程序使用

lsof命令是什麼？可以列出被程序所開啟的檔案的資訊。被開啟的檔案可以是 1.普通的檔案，2.目錄 3.網路檔案系統的檔案，4.字元裝置檔案 5.(函式)共享庫 6.管道，命名管道 7.符號連結 8.底層的socket字流，網路socket，unix域名so

asp.net 刪除資料夾內的所有檔案或者單個檔案程式碼

protected void Button1_Click(object sender, EventArgs e) { System.IO.DirectoryInfo path = new System.IO.DirectoryInfo(Ser

Java web 專案讀取src或者tomcat下class目錄下的xml檔案或者properties檔案

//生成一個檔案物件： File file = new File(getClass().getClassLoader().getResource("test.xml").getPath());

CMD命令：不是內部或者外部命令也不是可執行的程式或批處理檔案

https://blog.csdn.net/l_mloveforever/article/details/79513681 前言：相信有很多小夥伴都比較喜歡使用Command命令來快速的開啟或執行程式，但是有些時候命令提示符會和我

使用idea時候遇到的一些輸出檔案或者讀取檔案路徑問題

Java里加載Properties檔案都是通過Java.util包裡的Properties類的load()方法來載入一個Properties配置檔案，load()方法需要接收一個檔案輸入流，而InputStream的構建需要Java.io.File物件，即new FileInputStream(new Fil

linux命令 — lsof 檢視程序開啟哪些檔案或者檢視檔案給哪個程序使用-zt

可以使用ps -fe|grep filename，也可以使用fuser filename檢視只檢視該程序：ps -ef | grep 11345檢視該程序開啟的檔案：lsof -p 11345檢視記憶體分配：lcat /proc/11345/maps檢視堆疊：pstack

XML檔案轉換成Word檔案或者Excel檔案

將XML檔案轉換為HTML檔案，方便使用者對資料進行瀏覽，這個是開發者經常做的，只需要使用Xslt進行轉換就可以了。但是某種時候，需要將XML檔案轉換為word檔案，或者是excel檔案，該如何做呢？拿Word2003版

idea、eclipse 啟動maven專案異常-缺少xml檔案或者properties檔案

原因因為啟動maven專案時，專案編譯釋出的時候預設不會將src/main目錄中的xml檔案打包進包裡，一般我們都把資原始檔放在resource目錄下。解決方法修改pom.xml檔案新增build resources的方式釋出src/main下面的資

用javascript呼叫聲音檔案或者視訊檔案

在主頁中編制音訊播放器　　雖然NetscapeNavigator3.0和InternetExplorer都支援音訊檔案的播放，但在製作過程中還是遇到了這樣一個問題: 如果用隱藏方式播放則沒有音效卡的使用者要出錯，而且因為是後臺播放使用者無法控制其暫停、播放和停止；如果不隱藏，因為播放器是黑色背景無論放在

以hdfs上檔案或者本地檔案作為輸入在Pycharm中執行spark程式程式碼示例

相關推薦