Sqoop-簡介及安裝

阿新 • • 發佈：2019-01-05

1、Sqoop 簡介

Apache Sqoop(TM)是一種旨在有效地在Apache Hadoop和諸如關係資料庫等結構化資料儲存之間傳輸大量資料的工具。

Sqoop於2012年3月孵化出來，現在是一個頂級的Apache專案。最新的穩定版本是1.4.6。Sqoop2的最新版本是1.99.7。

Sqoop(SQL-to-Hadoop)是一個在結構化資料和Hadoop之間進行批量資料遷移的工具，結構化資料可以是Mysql、Oracle等RDBMS。Sqoop底層用MapReduce程式實現抽取、轉換、載入，MapReduce天生的特性保證了並行化和高容錯率，而且相比Kettle等傳統ETL工具，任務跑在Hadoop叢集上，減少了ETL伺服器資源的使用情況。在特定場景下，抽取過程會有很大的效能提升。

如果要用Sqoop，必須正確安裝並配置Hadoop，因依賴於本地的hadoop環境啟動MR程式；mysql、oracle等資料庫的JDBC驅動也要放到Sqoop的lib目錄下。

2、Sqoop 原理

將匯入或匯出命令翻譯成 mapreduce 程式來實現。

在翻譯出的 mapreduce 中主要是對 inputformat 和 outputformat 進行定製。

3、Sqoop 安裝

安裝 Sqoop 的前提是已經具備 Java 和 Hadoop 的環境。

3.1、下載並解壓

1) 最新版下載地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/

2) 上傳安裝包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 到虛擬機器中，如我的上傳目錄是： /opt/software

3) 解壓 sqoop 安裝包到指定目錄，如：

3.2、修改配置檔案

Sqoop 的配置檔案與大多數大資料框架類似，在 sqoop 根目錄下的 conf 目錄中。

1) 重新命名配置檔案

2) 修改配置檔案 sqoop-env.sh

3)修改/etc/profile

注:sqoop-1.4.6.bin__此處2個下劃線.

source /etc/profile使生效.

3.3、拷貝JDBC驅動

拷貝 jdbc 驅動到 sqoop 的 lib 目錄下，如：

3.4、驗證Sqoop

我們可以通過某一個 command 來驗證 sqoop 配置是否正確：bin/sqoop help

問題：在命令列執行sqoop，提示：
Error: Could not find or load main class org.apache.sqoop.Sqoop

解決辦法：

將sqoop解壓後根目錄下的sqoop-1.4.6.jar拷貝到~/hadoop-2.7.2/share/hadoop/hdfs/lib下即可。

出現一些 Warning 警告（警告資訊已省略），並伴隨著幫助命令的輸出：

3.5、測試 Sqoop 是否能夠成功連線資料庫

同樣需要將mysql驅動包拷貝到~/hadoop-2.7.2/share/hadoop/hdfs/lib下。

4、Sqoop 的簡單使用案例

4.1、匯入資料

在 Sqoop 中，“匯入”概念指：從非大資料叢集（RDBMS）向大資料叢集（HDFS，HIVE， HBASE）中傳輸資料，叫做：匯入，即使用 import 關鍵字。

4.1.1、RDBMS 到 HDFS

1）、在 Mysql 中新建一張表並插入一些資料

2）匯入資料

（1）全部匯入：

注：--前面都有空格, \為換行。

（2）查詢匯入：

注：must contain '$CONDITIONS' in WHERE clause。

如果 query 後使用的是雙引號，則$CONDITIONS 前必須加轉移符，防止 shell 識別為自己的變數。

--query 選項，不能同時與--table 選項使用。

（3）匯入指定列：

注：columns 中如果涉及到多列，用逗號分隔，分隔時不要新增空格

（4）使用 sqoop 關鍵字篩選查詢匯入資料：

注：在 Sqoop 中可以使用 sqoop import -D property.name=property.value 這樣的方式加入執行任務的引數，多個引數用空格隔開。

4.1.2、RDBMS 到 Hive

注：該過程分為兩步，第一步將資料匯入到 HDFS，第二步將匯入到 HDFS 的資料遷移到 Hive 倉庫。

第一步預設的臨時目錄是/user/root/表名。

執行過程可以看到如下：第二步是遷移到hive倉庫。

4.2、匯出資料

在 Sqoop 中，“匯出”概念指：從大資料叢集（HDFS，HIVE，HBASE）向非大資料叢集（RDBMS）中傳輸資料，叫做：匯出，即使用 export 關鍵字。

4.2.1、HIVE/HDFS 到 RDBMS

4.3、指令碼打包

使用 opt 格式的檔案打包 sqoop 命令，然後執行

1) 建立一個.opt 檔案:

$ mkdir opt

$ touch opt/job_HDFS2RDBMS.opt

2) 編寫 sqoop 指令碼:

$ vi opt/job_HDFS2RDBMS.opt

3) 執行該指令碼:

$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

Sqoop簡介及安裝部署

cdh5 ive not 簡介 ins one generate and lin 簡介： Apache Sqoop是專為Apache Hadoop和結構化數據存儲如關系數據庫之間的數據轉換工具的有效工具。你可以使用Sqoop從外部結構化數據存儲的數據導入到Hadoop分布

Sqoop-簡介及安裝

1、Sqoop 簡介 Apache Sqoop(TM)是一種旨在有效地在Apache Hadoop和諸如關係資料庫等結構化資料儲存之間傳輸大量資料的工具。 Sqoop於2012年3月孵化出來，現在是一個頂級的Apache專案。最新的穩定版本是1.4.6。Sqoop2的最新版本是1.99

maven 之maven簡介及安裝

分享運行項目信息 ava 信息專家 not 編碼 bin 1. maven:行內，專家。基於java的項目構建功能，依賴管理，項目信息管理，Maven是一個項目構建工具。 2.構建：指日常開發中經常完成的除了編碼外的一些動作。如：清理，編譯，測試，運行，報告，部署等動

【轉】Nodejs學習筆記（一）--- 簡介及安裝Node.js開發環境

ack 目錄 javascrip 難度時間網站開發 clas jetbrains 常用目錄學習資料簡介安裝Node.js npm簡介開發工具 Sublime Node.js開發環境配置擴展：安裝多版本管理器學習資料　　1.深入淺出Node.j

linux簡介及安裝

linux1.簡介誕生於1991年10月5日 linux是類Unix操作系統，基於POSIX和UNIX的多用戶、多任務、支持多線程和多CPU的操作系統。支持32位和64位硬件，繼承了Unix以網絡為核心的設計思想。創始人：林納斯·托瓦茲（Linus Benedict Torvalds）特點：

Libcap的簡介及安裝

pca apt-get 以太網當前 upd 監控提示文件 wall Libpcap 簡介 libpcap 是unix/linux 平臺下的網絡數據包捕獲函數包，　　大多數網絡監控軟件都以它為基礎。　　Libpcap 可以在絕大多數類unix 平臺下工作. 　　Li

國際版Azure搭建Windows多種類型VPN_一.簡介及安裝服務

azure vpn 很多時候我們需要一個穩定安全而且多種類型的VPN，以下是本次實驗的拓撲圖，實現SSTP和L2TP VPN。SSTP需要證書SSL來實現，而L2TP則是通過密鑰共享來實現（此連接方法適合與移動設備，不過安全性不夠SSTP好）。一.Azure 創建虛擬機登錄國際版Azure：htt

大數據筆記（二十七）——Spark Core簡介及安裝配置

sin cli sca follow com clu 同時 graphx 信息 1、Spark Core：類似MapReduce 核心：RDD 2、Spark SQL：類似Hive，支持SQL 3、Spark Streaming：類似

Apache Flume簡介及安裝部署

display 根據 buffers type hello headers agent tran 結構圖概述 Flume 是 Cloudera 提供的一個高可用的，高可靠的，分布式的海量日誌采集、聚合和傳輸的軟件。 Flume 的核心是把數據從數據源(source)收集

python簡介及安裝

結構特色 ofo $path .py 訪問查看二進制程序開發 Python 是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。Python 的設計具有很強的可讀性，相比其他語言經常使用英文關鍵字，其他語言的一些標點符號，它具有比其他語言更有特色語法結構

zookeeper簡介及安裝

get image html 官網進一步 ima enc 成員 nco 1. Zookeeper簡介 1.1 概念zookeeper是一個維護配置信息、命名、提供分布式同步的集中式服務（也就是說主要用於分布式應用程序中）。它是一個分布式的協調服務。集群中節點個數最少是

nginx高性能WEB服務器系列之一簡介及安裝

簡單的使用 line 都是 hash 設置 figure request cor 註：原創作品，允許轉載，轉載時請務必以超鏈接形式標明文章原始出處、作者信息和本聲明。否則將追究法律責任。 nginx的強大之處不必要我細說，當初第一次接觸nginx的時候就發現了它的強

資料實時監控平臺（二）：Telegraf簡介及安裝

接著上一篇部落格：InfluxDB簡介及安裝，這篇部落格介紹下Linux環境下Telegraf安裝以及其功能特點。。。官網地址：influxdata 官方文件：telegraf文件環境：CentOS7.4 64位 Telegraf版本：0.11.1-1 一、Tel

數據實時監控平臺（二）：Telegraf簡介及安裝

完成成功 show user 官方文檔 targe 相關 erp tps 設計接著上一篇博客：InfluxDB簡介及安裝，這篇博客介紹下Linux環境下Telegraf安裝以及其功能特點。。。官網地址：influxdata 官方文檔：telegraf文檔環境：C

視覺化工具Grafana：簡介及安裝

隨著業務的越發複雜，對軟體系統的要求越來越高，這意味著我們需要隨時掌控系統的執行情況。因此，對系統的實時監控以及視覺化展示，就成了基礎架構的必須能力。這篇部落格，介紹下開源的視覺化套件grafana的安裝及其功能特點。。。官網地址：Grafana 官方文件：Grafana文件環境

效能測試監控平臺：InfluxDB+Grafana+Jmeter linux環境執行jmeter並生成報告時序資料庫InfluxDB：簡介及安裝視覺化工具Grafana：簡介及安裝

前面的部落格介紹了InfluxDB、Telegraf、Grafana的安裝和使用方法，這篇部落格，介紹下如何利用這些開源工具搭建效能測試監控平臺。。。前言效能測試工具jmeter自帶的監視器對效能測試結果的實時展示，在Windows系統下的GUI模式執行，渲染和效果不是太好，在linu

Fiddler簡介及安裝和HTTPS的解決

Fiddler簡介：一個很強大的抓包工具，類似Charles 1.安裝： Filddler官網：點選開啟連結我安裝的是filddler4：點選開啟連結直接下載檔案，然後一路下一步就可以了 1.下載檔案： 2.安裝檔案一路下一步即可 3.安裝完成後開啟

第1講 ElasticSearch簡介及安裝

ElasticSearch是一個基於Lucene的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎，基於RESTful web介面。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放原始碼釋出，是當前流行的企業級搜尋引擎。設計用於雲端計算中，能夠達到實時搜尋，穩

Mycat的簡介及安裝

Mycat簡介： 1.1Mycat含義簡單的說，MyCAT就是：一個徹底開源的，面向企業應用開發的“大資料庫叢集” 支援事務、ACID、可以替代Mysql的加強版資料庫一個可以視為“Mysql”叢集的企業級資料庫，用來替代昂貴的Oracle叢集一個融合記憶體快

linux的簡介及安裝centos-64位具體步驟

1.linux的簡介 Linux是基於Unix的開源免費的作業系統，由於系統的穩定性和安全性幾乎成為程式程式碼執行的最佳系統環境，linux系統的應用非常廣泛，不僅可以長時間的執行我們編寫的程式程式碼，還可以安裝在各種計算機硬體裝置中，比如手

Sqoop-簡介及安裝

相關推薦