Spark SQL將資料寫入Mysql表的一些坑

阿新 • • 發佈：2018-12-14

轉自:https://blog.csdn.net/dai451954706/article/details/52840011/

最近，在使用Spark SQL分析一些資料，要求將分析之後的結果資料存入到相應的MySQL表中。

但是將資料處理完了之後，存入Mysql時，報錯了：

程式碼的基本形式為:

val r1: Dataset[Row] = data.groupBy(***)...
r1.write.jdbc(url,"iptimecount",prop)

根據圖片中的報錯，搜尋資料，得知是由於Spark SQL 中的Save Mode導致的，Spark SQL的官方文件中對Savemode進行了說明：

預設情況下，使用SaveMode.ErrorIfExists，也就是說，當從Spark中插入到MySQL表中的時候，如果表已經存在，則直接報錯，想想真覺得這預設值有點坑。

於是修改Savemode，將程式碼改成:

r1.write.mode(SaveMode.Append).jdbc(url,"iptimecount",prop)

再次執行，本以為應該會順利存入到資料庫中了，沒想到還是報錯：

看到這個錯誤，我有點茫然，不清楚是哪裡的問題。

後來，在一次測試中，將MySQL中將原來的表格刪除後，再次提交任務，能順利將資料存入到MySQL中，但是，使用desc查看錶的結構，發現在Spark SQL中列型別為String型別的，在MySQL中對應為Text型別，於是我猜測應該是我之前建立的表格中，將列的型別定義為char和varchar導致的。

於是，我刪除表格，重新建立表格，將char和varchar型別改為Text，再次執行，順利的將資料從Spark SQL中存入到了Mysql.

另附一些注意事項：

資料存入Mysql注意事項

A. 儘量先設定好儲存模式

預設為SaveMode.ErrorIfExists模式，該模式下，如果資料庫中已經存在該表，則會直接報異常，導致資料不能存入資料庫.另外三種模式如下：

SaveMode.Append 如果表已經存在，則追加在該表中；若該表不存在，則會先建立表，再插入資料；

SaveMode.Overwrite 重寫模式，其實質是先將已有的表及其資料全都刪除，再重新建立該表，最後插入新的資料；

SaveMode.Ignore 若表不存在，則建立表，並存入資料；在表存在的情況下，直接跳過資料的儲存，不會報錯。

B. 設定儲存模式的步驟為:

org.apache.spark.sql.SaveMode

......

df.write.mode(SaveMode.Append)

C. 若提前在資料庫中手動建立表，需要注意列名稱和資料型別，

下面的原始碼說明了，需要保證Spark SQL中schema中的field name與Mysql中的列名稱一致！

若提前手動建立Mysql表，需要注意Spark SQL 中Schema中的資料型別與Mysql中的資料型別的對應關係，如下圖所示：

特別注意: Scala中的String型別，在MySQL中對應的是Text型別（經過親自測試所知）

上面是本人在Spark SQL 讀取與寫入Mysql方面的遇到的一些坑，特在此備忘。

Spark SQL將資料寫入Mysql表的一些坑

轉自:https://blog.csdn.net/dai451954706/article/details/52840011/ 最近，在使用Spark SQL分析一些資料，要求將分析之後的結果資料存入到相應的MySQL表中。但是將資料處理完了之後，存

Spark用法：關於寫入Mysql表Append Mode資料被清空的解決辦法

前提：小編自己的環境是（CDH）Spark2.2.0 Scala2.11.8 起因：當使用Append追加寫入mysql型別的資料庫，spark預設是把之前存在的資料清空，然後再寫入資料；這讓我們很無語，明明是Append，你卻給我overwrite 解決：修改原始碼，

oracle pl/sql 將資料寫入Csv檔案且以附件的形式傳送郵件

內容介紹這篇文章將介紹，oracle 中如何將資料庫中查找出來的資料寫入csv 檔案，且將這個csv 檔案，用郵件以附件的形式傳送出去。如果你也想實現這個功能，請參考以下程式碼。如果想用sqlplus 方式實現，請參考我的另外一篇文章：sqlplus spool 生成csv檔案，且用

如何使用Spark快速將資料寫入Elasticsearch

如何使用Spark快速將資料寫入Elasticsearch 說到資料寫入Elasticsearch，最先想到的肯定是Logstash。Logstash因為其簡單上手、可擴充套件、可伸縮等優點被廣大使用者接受。但是尺有所短，寸有所長，Logstash肯定也有它無法適用的應用場景，比如：

Python將資料寫入MySQL

import MySQLdb # connect MySQL conn = MySQLdb.connect( host= , user= , passwd= , db= , port= , charset='utf8') cursor

spark sql 將資料匯入到redis 裡面

#coding=utf-8 from __future__ import print_function from pyspark.sql import SparkSession from pyspark.sql import Row import sys from decim

java後臺將資料寫入CSV檔案的坑

java後臺將資料寫入CSV檔案時踩過的坑：寫入一些資料（例如我碰到過的：訂單日期、聯行行號、（收款）銀行賬號、金額）時候，由於數字比較多會導致顯示成縮略形式或者科學計數法，例如下圖：解決方

Spark中ip對映資料應用庫，二分查詢省份，將結果寫入mysql

def main(args: Array[String]): Unit = { val conf = new SparkConf() .setMaster("local") .setAppName(IpLocation3.getClass.getName) val sc =

Spark:將DataFrame寫入Mysql

normal avi sqlt getc height serve saveas ecif access Spark將DataFrame進行一些列處理後，需要將之寫入mysql，下面是實現過程 1.mysql的信息 mysql的信息我保存在了外部的配置文件，這樣方便後續的配

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

利用sqoop指定列指定條件的方式將資料從mysql中增量匯入hive表中

========1、sqoop增量（指定列指定條件的方式增量匯入hive表中）匯入hive指令碼======= #!/bin/bash #Set the RDBMS connection params rdbms_ip=$1 rdbms_connect="jdbc:mysq

pvuv的程式碼開發及提交spark程式jar包執行讀取資料來源並將結果寫入MySQL中

目錄 PvUvToMysql類 ConnectionUtils類 jdbc.properties檔案在IDEA中打jar包的兩種方式 IDEA打jar包 IDEA中maven方式打jar包提交spark程式ja

Spark SQL大資料處理並寫入Elasticsearch

1 # coding: utf-8 2 import sys 3 import os 4 5 pre_current_dir = os.path.dirname(os.getcwd()) 6 sys.path.append(pre_current_dir) 7 from pyspark.sq

使用spark將資料寫入Hbase

--------------組裝xml並捕獲異常------------------- package wondersgroup_0628.com import java.io.{IOException, PrintWriter, StringReader, StringWriter} imp

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

版本： spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4 一原始資料及Hive表 MongoDB資

Spark SQL將rdd轉換為資料集-以程式設計方式指定模式（Programmatically Specifying the Schema）

一：解釋官網：https://spark.apache.org/docs/latest/sql-getting-started.html 這種場景是生活中的常態 When case classes cannot be defined ahead of time (for example

Flume-將資料寫入動態分割槽表

一、場景描述實時監控檔案目錄，將目錄中的實時產生的資料檔案（檔案內容非動態）寫入動態分割槽，分割槽為3級（裝置ID/檔案產生日期/檔案產生的時間（h））.檔名格式如下（日期+時間+產品ID.txt）二、主要存在的難點由於flume只支援傳入一些簡單的引數變數（時

python3學習筆記之五——將json資料寫入excel表

#student4.json[ { "student_no": 1001, "name": "James", "score": 10, "class": "A-1", "rank": 1 },

spark將資料寫入ES（ElasticSearch）終極總結

簡介 spark接入ES可以使用多種方式，常見型別如下。將Map物件寫入ElasticSearch 將case class 類物件寫入ElasticSearch 將Json的字串寫入ElasticSearch 本文主要介紹將case class 類物件寫入El

kettle 從資料庫表將資料寫入 hadoop hdfs

kettle 作為一個 java 的開源 ETL 工具，支援的接入源與輸出源很豐富，下面測試簡單的資料庫 table -> table -> hdfs 檔案的寫入。簡介：kettle 主目錄分為作業和轉換轉換：用來配置ETL 鏈路資訊，及工作方

Spark SQL將資料寫入Mysql表的一些坑

相關推薦