spark讀寫csv檔案

阿新 • • 發佈：2019-01-04

如果是spark1.6.0請新增maven：

        <dependency>
            <groupId>com.databricks</groupId>
            <artifactId>spark-csv_2.10</artifactId>
            <version>1.4.0</version>
            <scope>compile</scope>
        </dependency>

如果是spark2.0+就不用新增maven了，因為spark2.0內部集成了讀寫csv檔案。

package com.egridcloud.spark
import org.apache.spark.sql.{DataFrame, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}
/**
  * Created by LHX on 2018/3/20 13:26.
  */
object SparkReadFile {
  def main(args: Array[String]): Unit = {
    val localpath="D:\\input\\word.csv"
    val outpath="D:\\output\\word2"
    val conf = new SparkConf()
    conf.setAppName("SparkReadFile")
    conf.setMaster("local")
    val sparkContext = new SparkContext(conf)
    val sqlContext = new SQLContext(sparkContext)
    //讀csv檔案
    val data: DataFrame = sqlContext.read.format("com.databricks.spark.csv")
      .option("header", "false") //在csv第一行有屬性"true"，沒有就是"false"
      .option("inferSchema", true.toString) //這是自動推斷屬性列的資料型別
      .load(localpath)
//    data.show()
    // 寫csv檔案
    data.repartition(1).write.format("com.databricks.spark.csv")
      .option("header", "false")//在csv第一行有屬性"true"，沒有就是"false"
      .option("delimiter",",")//預設以","分割
      .save(outpath)
    sparkContext.stop()
  }
}

spark讀寫csv檔案

如果是spark1.6.0請新增maven： <dependency> <groupId>com.databricks</groupId> <artifactId>s

Spark 之讀寫 csv檔案

轉自：https://www.iteblog.com/archives/1380.html CSV格式的檔案也稱為逗號分隔值（Comma-Separated Values，CSV，有時也稱為字元分隔值，因為分隔字元也可以不是逗號。在本文中的CSV格式的資料就

STL 使用ofstream + ifstream 讀寫csv檔案

csv檔案，每行的資料是用逗號分隔的，讀寫csv檔案的示例程式碼如下： #include "stdafx.h" #include <iostream> #include <string> #include <vector> #include <fst

python讀寫csv檔案方法總結

python提供了大量的庫，可以非常方便的進行各種操作，現在把python中實現讀寫csv檔案的方法使用程式的方式呈現出來。 1、使用csv讀寫csv檔案方法總結 reader()函式是一個閱讀器把閱讀的CSV檔案每一行以一個列表表示出來以至於你可以用for迴圈來遍歷他讀檔案的時候，開啟檔

Python讀寫.csv檔案

# encoding: UTF-8 import csv # 讀取csv檔案 stocks_list = [] #方式一 # file = open(u'../Output.csv', u"r") # data = csv.reader(file) # 返回的是迭代型別 #方式二 with

支援各種特殊字元的 CSV 解析類 (.net 實現)(C#讀寫CSV檔案)

CSV是一種十分簡潔的資料結構，在DOTNET平臺實際使用中發現微軟官方並沒有提供預設的方法，而網上好多例子發現實現並不嚴謹甚至一些含有明顯錯誤，所以後面自己實現了一個讀寫工具類，這裡發出來希望方便後面朋友（難免還是會有考慮不到的地方，可隨時郵件聯絡）使用該工具可對csv檔案進行讀寫（甚至不用去了解CSV的

python按鈕讀寫csv檔案

from Tkinter import * import cv2 import matplotlib.pyplot as plt import matplotlib.image as mpimg import os import shutil import csv file

（java筆記）java讀寫CSV檔案的方法

CSV檔案逗號分隔值（Comma-Separated Values，CSV，有時也稱為字元分隔值，因為分隔字元也可以不是逗號），其檔案以純文字形式儲存表格資料（數字和文字）。純文字意味著該檔案是一個字元序列，不含必須像二進位制數字那樣被解讀的資料。CSV檔案由任意數目的記錄組成，記

【C++】讀寫CSV檔案

新建CSV檔案：建txt——另存（UTF-8）——字尾.csv CSVparser.hpp #ifndef _CSVPARSER_HPP_ # define _CSVPARSER_HPP_ # include <stdexcept>

pySpark讀寫CSV檔案、查重並寫入CSV檔案中

前段時間在研究 pySpark 資料處理，深刻地感受到spark的極大魅力。自己是一個初學者，這篇部落格也只是簡單的完成了幾個簡單的工作任務，哈哈@@不說了上程式碼：from pyspark import SparkConf,SparkContext import csv

java讀寫CSV檔案的兩種方法

BufferedWriter writer =new BufferedWriter(new OutputStreamWriter(new FileOutputStream(outFile), "GBK")) ;// 附加上述程式碼片段作用: 轉碼逗號分隔值（Com

python資料儲存系列教程——python（pandas）讀寫csv檔案

全棧工程師開發手冊（作者：欒鵬） CSV檔案的規範 1、使用回車換行（兩個字元）作為行分隔符，最後一行資料可以沒有這兩個字元。 2、標題行是否需要，要雙方顯示約定 3、每行記錄的欄位數要相同，使用逗號分隔。逗號是預設使用的值

python 讀寫csv檔案

1. 將DataFrame資料寫入csv (1)用 csv包一行一行的寫入 import csv #python2可以用file替代open with open("test.csv","w") as csvfile: writer =

openCSV讀寫CSV檔案

openCSV是一款簡單的用於解析CSV檔案的java類庫，它封裝了CSV格式檔案的讀寫操作，可將檔案與java物件進行自動對映，自定義分隔符，使用轉義符等。在使用時有幾點需要注意下： 1、生成的csv檔案用EXCEL開啟時，

Python讀寫csv檔案的幾種方法及 pandas.read_csv引數全解

''' Python讀寫csv檔案逗號分隔值（Comma-Separated Values，CSV，有時也稱為字元分隔值，因為分隔字元也可以不是逗號），其檔案以純文字形式儲存表格資料（數字和文字）。純文字意味著該檔案是一個字元序列，不含必須像二進位制數字那樣被解讀的資

讀寫csv檔案可選擇部分列進行操作按列來統計並形成字典

用pandas讀取部分列，可以參考第一部分程式碼。 #!/usr/bin/env python # -*- coding: UTF-8 -*- ''' 此程式將原始資料中無關的列給去掉了，只保留時間、ID、等列，另外pandas還在第一列添加了索引列 ''' import

「Python」python讀寫csv檔案並增加行列

# -*- coding: utf-8 -*- """ Created on Thu Aug 17 11:28:17 2017 @author: Shawn Yuen """ import csv

使用 Python 讀寫 csv 檔案

非關係型資料庫中，以文件型的資料庫 MongoDB 最為著名。還有一個很好的全文檢索引擎 Elasticsearch，基本上也可以當做一個文件型的資料庫來使用。建立 csv 檔案： import csv with open("./csv_tutot

Python3讀寫csv檔案

新手做機器學習，很多東西都得一點一點積累，第一步從讀寫csv資料檔案開始，檔案中包含列名。 1、讀入csv檔案 import csv with open("filename.csv","r",encoding="utf-8") as csvfile:

pandas學習之concat合併及讀寫CSV檔案

讀取CSV檔案讀取中文的CSV檔案中有中文，用“UTF-8”會出現亂碼問題，解決： import pandas as pd import numpy as np data=pd.read_csv('C:/Users/elenawang/Desktop/

spark讀寫csv檔案

相關推薦