Spark把RDD資料儲存到一個單個檔案中

阿新 • • 發佈：2019-01-30

Spark是當前最流行的分散式資料處理框架之一，相比於Hadoop，Spark在資料的處理方面更加靈活方便。然而在最近的使用中遇到了一點小麻煩：Spark儲存檔案的的函式（如saveAsTextFile）在儲存資料時都需要新建一個目錄，然後在這個目錄下分塊儲存檔案。如果我們想在原有的目錄下增加一個檔案（而不是增加一個目錄），Spark就無能為力了。

有網友給出建議，用

rddx.repartition(1).saveAsTextFile("test/test.txt")
rddx.coalesce(1).saveAsTextFile("test/test.txt")

把資料合併到一個分割槽中，然而得到的結果是這樣的：

$ ./bin/hadoop fs -du -h test/test.txt
0        test/test.txt/_SUCCESS
499.9 M  test/test.txt/part-00000

Spark仍然是新建了一個目錄test.txt，然後在這個目錄下把資料都儲存在了part-00000檔案中。

Spark的儲存模式的設定註定了在儲存資料的時候只能新建目錄，如果想把資料增加到原有的目錄中，單獨作為一個檔案，就只能藉助於Hadoop的HDFS操作。下面的例子演示如何用Hadoop的FileSystem實現在已有目錄下用一個檔案儲存Spark資料：

import org.apache.hadoop.conf.Configuration;
import 
 org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hdfs.web.resources.ExceptionHandler;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.*;
import java.net.URI;
/**
 * 使用Hadoop的FileSystem把資料寫入到HDFS
 */
public class HdfsOperate implements 
 Serializable{

    private static Logger logger = LoggerFactory.getLogger(HdfsOperate.class);
    private static Configuration conf = new Configuration();
    private static BufferedWriter writer = null;

    //在hdfs的目標位置新建一個檔案，得到一個輸出流
    public static void openHdfsFile(String path) throws Exception {
        FileSystem fs = FileSystem.get(URI.create(path),conf);
        writer = new BufferedWriter(new OutputStreamWriter(fs.create(new Path(path))));
        if(null!=writer){
            logger.info("[HdfsOperate]>> initialize writer succeed!");
        }
    }

    //往hdfs檔案中寫入資料
    public static void writeString(String line) {
        try {
            writer.write(line + "\n");
        }catch(Exception e){
            logger.error("[HdfsOperate]>> writer a line error:"  ,  e);
        }
    }

    //關閉hdfs輸出流
    public static void closeHdfsFile() {
        try {
            if (null != writer) {
                writer.close();
                logger.info("[HdfsOperate]>> closeHdfsFile close writer succeed!");
            }
            else{
                logger.error("[HdfsOperate]>> closeHdfsFile writer is null");
            }
        }catch(Exception e){
            logger.error("[HdfsOperate]>> closeHdfsFile close hdfs error:" + e);
        }
    }

}

在Spark中處理並儲存資料：

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import hdfsoperate.HdfsOperate;
import org.apache.spark.Partition;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import util.NlpModuleWrapper;

import java.io.Serializable;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Iterator;
import java.util.List;

/**
 * 呼叫HdfsOperate類的方法把RDD資料儲存到Hdfs上
 */
public class FeatureExtractor implements Serializable {
    private static Logger logger = LoggerFactory.getLogger(FeatureExtractor.class);

    public void extractFeature(JavaSparkContext sc, int repartitionNum) throws Exception {
        String hdfsPath = "test/corpus/2016-09-02"; //存放原始資料的檔案
        //Spark可以讀取單獨的一個檔案或整個目錄
        JavaRDD<String> rddx = sc.textFile(hdfsPath).repartition(repartitionNum); 
        rddx = rddx.map(new ExtractFeatureMap());

        //寫入hdfs檔案位置
        String destinationPath = "test/result/2016-09-02" ;
        //建立Hdfs檔案，開啟Hdfs輸出流
        HdfsOperate.openHdfsFile(destinationPath);

        //分塊讀取RDD資料並儲存到hdfs
        //如果直接用collect()函式獲取List<String>，可能因資料量過大超過記憶體空間而失敗
        for (int i = 0; i < repartitionNum; i++) {
            int[] index = new int[1];
            index[0] = i;
            List<String>[] featureList = rddx.collectPartitions(index);
            if (featureList.length != 1) {
                logger.error("[FeatureExtractor]>> featureList.length is not 1!");
            }
            for (String str : featureList[0]) {
                //寫一行到Hdfs檔案
                HdfsOperate.writeString(str);
            }
        }
        //關閉Hdfs輸出流
        HdfsOperate.closeHdfsFile();

    }



    class ExtractFeatureMap implements Function<String, String> {
        @Override
        public String call(String line) throws Exception {
            try {
                //TODO:你自己的操作，返回String型別
            } catch (Exception e) {
                logger.error("[FeatureExtractor]>>GetTokenAndKeywordFeature error:", e);
            }
            return null;
        }
    }

}

（PS：目前還沒有看到過單用Spark介面能實現該功能，有知道的大神歡迎指點）

Spark把RDD資料儲存到一個單個檔案中

Spark是當前最流行的分散式資料處理框架之一，相比於Hadoop，Spark在資料的處理方面更加靈活方便。然而在最近的使用中遇到了一點小麻煩：Spark儲存檔案的的函式（如saveAsTextFile）在儲存資料時都需要新建一個目錄，然後在這個目錄下分塊

Java 讀取excel指定行列資料以及將資料儲存到txt檔案中

在使用的軟體中經常要用到一些資料的匯入匯出，以及準確的定位資料，這些經常會涉及excle表格，因此把今天學習到的關於如何利用Java準確獲取到excle中的某一列資料，同時將此列資料輸出到txt檔案格式中。使用的jar包：jxl.jar 相關的API：http://jx

c++中將資料儲存到.csv檔案中（類似於xsl表格）

ofstream ofile; ofile.open("result.csv",ios::out | ios::trunc); //判斷.csv檔案是否存在，不存在則建立 ofile<<"序號，第一列，第二列，第三列，第四列，第五列"<<

java使用poi把從資料庫中取出的資料寫入到excel檔案中並儲存到指定檔案路徑

　　有時候我們要把從資料庫中取出的資料匯入到excel中，使取到的資料看起來更加的直觀和方便，在java中如何實現取到的資料匯入到excel中呢？以下就是使用poi工具吧資料寫入excel檔案中的解決方法： Excel表格副檔名有.xlsx和.xls兩種格式 &n

python 怎樣把一個數組型別資料儲存為csv檔案

有時候做完一個案例的分析，模型做好了，最後想把預測的結果儲存為CSV檔案。這個預測的結果一般是n行1列的一個數列，我們最後就是想把預測結果儲存下來。submission = clf.predict(credit_test)#submission是我的預測結果，是一個5000*

陣列和字典的writeToFile方法——在專案開發中處理網路資料的時候，可以把請求獲得的網路資料儲存為plist檔案，這樣更方便開發

在專案開發中處理網路資料的時候，可以把請求獲得的網路資料儲存為plist檔案，這樣更方便開發，下面是程式碼 //路徑（可以隨便找個資料夾

如何用java讀取csv檔案指定行列的資料，並將csv中資料元素隨機置零後儲存到另一個csv檔案中

這個流程可以大致分為兩步驟：1.讀取csv檔案中的資料2.生成隨機數，將csv的資料隨機置零，將新生成的檔案儲存到新的csv中一、首先我們進行第一步：讀取csv中的檔案:讀取函式格式為public static double readin(int row,int col)

爬蟲資料儲存為csv檔案時，表格中間隔有空行問題

問題描述：將爬取的資料儲存的csv檔案，遇到幾個問題，原始碼如下： with open('F:\\Pythontest1\\douban.csv','w') as f: writer = csv.writer(f,dialect='excel') writer.writero

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是逗號或製表符。不過所有記錄都有

安卓開發筆記（五）——資料儲存SharedPreference以及Android中常見的檔案操作方法

中山大學資料科學與計算機學院本科生實驗報告（2018年秋季學期）一、實驗題目個人專案3 資料儲存（一）應用開發二、實現內容第九周任務實驗目的學習SharedPreference的基本使用。學習Android中

Android五種資料儲存方式之檔案儲存內部儲存外部儲存檔案讀取儲存操作封裝

檔案儲存前言檔案儲存記憶體內部儲存外部儲存內部儲存操作 API 讀寫操作外部儲存操作公共目錄私有目錄

分割流：例如，將一個圖片（53k）以10k為單位（單位的大小可隨著檔案的大小進行調整）進行分割,並將分割資訊以鍵值對的形式儲存到.properties檔案中。最後還可以將分割的檔案能夠完整的合併在一起

將一個53k的圖片以10k為單位進行分割，最後再將分割的檔案合併到一起。首先進行檔案的分割，這裡使用了兩種方法：（1）其中splitFile(file)方法只是簡單地將圖片進行了分割。（2）splitFile_2(file)方法除了將檔案進行分割，還將一些配置資訊進行了儲存

獲取指定目錄下，指定副檔名的檔案（包含子目錄中的），把這些檔案的絕對路徑寫入到一個文字檔案中。

題目：獲取指定目錄下，指定副檔名的檔案（包含子目錄中的），把這些檔案的絕對路徑寫入到一個文字檔案中。思路： 1.必須深度遍歷 2.要在遍歷的過程中進行過濾，將符合條件的內容儲存到容器中 3.對容器中的內容進行遍歷並將絕對路徑寫入到檔案中程式碼： import java.io

【Python3 爬蟲學習筆記】資料儲存 3 -- CSV檔案儲存 1

CSV，全稱為Comma-Separated Values，中文可以叫作逗號分隔符或字元分隔值，其檔案以純文字形式儲存表格資料。該檔案時一個字元序列，可以由任意數目的記錄組成，記錄間以某種換行符分隔。每條記錄由欄位組成，欄位間的分隔符是其他字元或字串，最常見的是

Word VBA 把一個Word檔案中的內容通過字串操作複製到另一個Word檔案內（要求不允許出現空行）

Sub 巨集1() ' ' 巨集1 巨集 ' Documents.Open FileName:="D:\VBA\被插入文字的檔案.docx", ConfirmConversions:=False, ReadOnly _ :=False, AddToRe

linux下將一個目錄下的所有檔案拷貝到另一個大檔案中，並把大檔案拆分成原來的小檔案，大小，內容，名字不變

經過四五天的編寫與除錯，初步完成了檔案操作工具的內容，以下是程式碼說明：首先，我測試用的檔案在/home/xudong/mywork下，我的最終生成檔案是在這個路徑下，/home/xudong/work/resultfile.txt，分開後生成的小檔案在/home/xud

python 在一個py檔案中呼叫另一個資料夾下py檔案模組

假設現在的資料夾結構如下： -- src |-- dir1 | -- file1.py |-- dir2 |

pillow將字串IO資料儲存成圖片檔案

前幾天碰到這麼個問題，讀取的圖片資料是通過請求傳遞過來的 image_data = request.files['xxxx'].stream.read() 這麼一來image_data型別是str型別。直接用PIL.Image.save()就會出錯。後來問了下頭兒才知道可以這麼

大資料儲存之分散式檔案系統（一）

1.Google檔案系統（GFS）使用一堆廉價的商用計算機支撐大規模資料處理。 GFSClient：應用程式的訪問介面 Master（主控伺服器）：管理節點，在邏輯上只有一個（還有一臺“影子伺服器“，在主控伺服器失效時提供元資料，但並不是完整的熱備伺服器），儲

C#將資料儲存為CSV檔案格式

/// 將資料以CSV格式儲存 /// ",表示移動到同一行的下一格" /// "\r\n"表示移動到下一列 /// </summary> /// <param name="sender"></pa

Spark把RDD資料儲存到一個單個檔案中

相關推薦