spark讀取日誌檔案，把RDD轉化成DataFrame

阿新 • • 發佈：2018-12-18

一、先開啟Hadoop和spark

略

二、啟動spark-shell

spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar

1.讀取spark目錄下面的logs日誌作為測試：

val alllog=sc.textFile("file:///usr/local/src/spark-1.6.1-bin-hadoop2.6/logs/*out*")

alllog.count 看看一共有347記錄

2.轉為為DataFrame

現在讀取進來的是RDD格式，用map函式把每條記錄轉成一行

import org.apache.spark.sql.Row

val alllogRDD=alllog.map(x =>Row(x))

import org.apache.spark.sql.types._

val schemaString="line"

val schema=StructType(schemaString.split(" ").map(fieldName =>StructField(fieldName,StringType,true)))

val alllogDataFrame = sqlContext.createDataFrame(alllogRDD, schema)

alllogDataFrame.printSchema  #列印schema
alllogDataFrame.show(false) #這裡的false表示不省略，否則跟下午一樣，會三點省略

到此為止，已經把RDD轉化為DataFrame了。

三、把DataFrame轉為為表用SQL查詢

alllogDataFrame.registerTempTable("log")

sqlContext.sql("SELECT * FROM log").show()

到此就可以使用SQL了。

spark讀取日誌檔案，把RDD轉化成DataFrame

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc

spark1.6使用：讀取本地外部資料，把RDD轉化成DataFrame，儲存為parquet格式,讀取csv格式

一、先開啟Hadoop和spark 略二、啟動spark-shell spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.j

SparkSQL把rdd轉化為DataFrame時，想要把整個陣列的值都放到Row中則麼辦?

在使用sparkSQL，有時想要把rdd中的資料轉換成DataFrame，RDD中的的資料可能時Array型別，或者是想要把陣列型別中的所有元素放到Row中，當陣列中的元素特別多時，可能就會變得更加麻煩，其實Row的Object中為我們提供了一個很好的方法，就是merge方法，話不多說，直接

Spark讀取HDFS檔案，任務本地化(NODE_LOCAL)

Spark也有資料本地化的概念（Data Locality），這和MapReduce的Local Task差不多，如果讀取HDFS檔案，Spark則會根據資料的儲存位置，分配離資料儲存最近的Executor去執行任務。這麼理解沒錯，我搭建的Spark叢集情況是這樣：15臺Da

=讀取日誌檔案，正則表示式匹配出有用資訊，並且儲存到csv檔案。

//版本1 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileReader; import java.io.

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

前期：已安裝好hadoop叢集和spark叢集，hadoop2.6.5，spark2.3.1，jdk1.8. scala2.1.0 第一步：在idea編寫scala程式，並且要打包（pom檔案的build標籤中配置好maven打包程式碼，可以定義主類也可以在提交的時候再定義）{補充：可以在s

IO流讀取資料檔案，將資料寫入資料庫，並記錄資料匯入日誌

流程分析：資料型別： ROUTE_ID,LXBM,ROAD_NAME,SRC_LON,SRC_LAT,DEST_LON,DEST_LAT 10000,G50,滬渝高速,115.8605349,30.08934467,115.5437817,30.08898601 10001,G

java讀取excel 檔案，並把讀取到的資料轉換成javabean物件

javaBean物件public class AcademicaChievements { private Integer aid; private String number; private String sname; private String award_

matlab：讀取mp4檔案，並把逐幀儲存成圖片檔案，檔名的編號隨幀數變化

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %=====ABSTRACT===== % translate MP4 file to images. cause the appearance of block arti

讀取.sql檔案，轉化為javabean

.sql檔案裡面的資料眾多，如何找出表名和欄位名，然後生成具有get和set屬性的javabean呢？其實很簡單，利用輸入和輸出流就可以完成。 1.實驗描述： 2.需要讀取的.sql檔案： /* MySQL Data Transfer

spark讀取lzo檔案並指定日誌記錄起始識別符號

1、讀取檔案是LzoTextInputFormat.class2、設定JavaSparkContext jsc = new JavaSparkContext(conf);Configuration hconf = jsc.hadoopConfiguration();hconf

什麼是BOM？php讀取文字檔案會把bom讀入陣列

###File()函式讀取utf8 的文字檔案會把bom讀入陣列。導致mysql搜尋不到內容可以對讀取後的字元 $result = trim($result, "\xEF\xBB\xBF"); 1.什麼是BOM？ BOM是用來判斷文字檔案是哪一種Unic

java selenium 讀取配置檔案，報錯中文亂碼

參考引自：https://blog.csdn.net/qq_27093465/article/details/70765870 根據自己問題解決： package com.property; import java.io.BufferedInputStream; import java.i

spark1.6.1讀取csv檔案，轉為為DataFrame和使用SQL

一、讀取csv spark2.0才開始原始碼支援CSV，所以1.6版本需要藉助第三方包來實現讀取CSV檔案，有好幾種方法， 1.如果有maven的，到https://spark-packages.org/package/databricks/spark-csv下載對應scala版本的第三方j

golang 實時讀取日誌檔案,windows版本的tail

package main import ( "flag" "fmt" "io" "os" "runtime" ) import ( "github.com/axgle/mahonia" ) type ReadFile struct { file *os.File gb

讀取txt檔案，生成csv檔案

最近做了個小程式，要求在同文件夾下的txt檔案，處理內容之後，生成csv檔案。 1 import java.io.*; 2 import java.util.ArrayList; 3 import java.util.List; 4 5 public class Simplify

java爬蟲之入門基礎 java讀取txt檔案，對字串進行操作後匯出txt檔案

相比於C#，java爬蟲，python爬蟲更為方便簡要，首先呢，python的urllib2包提供了較為完整的訪問網頁文件的API，再者呢對於摘下來的文章，python的beautifulsoap提供了簡潔的文件處理功能，這就成就了他爬蟲的優勢。作為一名滿腦子要成為一名大牛的程式設計師小白來講，倒不是非要

讀取bin檔案，並且按結構體賦值列印

目標：讀取一個bin檔案，並且將bin檔案中的資料，按位元組對齊賦值給結構體，並且打印出結構體的內容目前思路是簡單的先將bin檔案資料一次性讀到一個數組中，再將陣列強制轉換為結構體 char buff[256] FILE *fp; fp = NULL; fp = f

PHP列印log日誌檔案，儲存資料到指定檔案中

在專案開發中，作為一個後端開發人員肯定是要經常觀察日誌等記錄來查詢開發或上線的各種bug 分享一個列印日誌記錄的方法 /** * [errorLog 列印錯誤日誌記錄] * @param [type] $message [列印日誌記錄] * @param [type] $file

讀取csv檔案，1min k線輸出到csv檔案中，計算5s，10s，20s移動平均值

參考： C字串轉換為int，float https://blog.csdn.net/li6727975/article/details/42875641 結構體 http://www.runoob.com/cprogramming/c-structures.htm

spark讀取日誌檔案，把RDD轉化成DataFrame

相關推薦