1. 程式人生 > >將本地文字檔案上傳到HDFS上,然後匯入hive/impala對應表中

將本地文字檔案上傳到HDFS上,然後匯入hive/impala對應表中

1.本地文字檔案上傳前的準備

將文字儲存為"uft-8"格式,並用"|"進行欄位間的分割(個人習慣,可以選用其它符號,但要避免和程式語言產生衝突,Hive預設的欄位分隔符為ascii碼的控制符\001)。

2.將文字檔案通過Xshell上傳到HDFS上

(1)首先要新建(Alt+N)一個連線,主要填寫主機IP,其他根據自己的需要填寫。確定之後,開啟(Alt+O)剛剛建立的連線,輸入使用者名稱和密碼,這樣就連上了你的伺服器了。

(2)新建檔案傳輸(Ctrl+Alt+F),將你的本地文字檔案複製到相應的資料夾中,比如我將tbl_adrs_code.txt放在了/home/sjz/dataclean/data下。

(3)輸入HDFS命令並執行:

hdfs dfs -put /home/sjz/dataclean/data/tbl_adrs_code.txt /data_clean
(/home/sjz/dataclean/data/tbl_adrs_code.txt是輸入檔案的路徑,data_clean是dhs上的目標資料夾,資料夾需要建好哦,在目標資料夾前要"/",不然會出錯:put:'data_clean':No such file or directory)此時你的檔案已經複製到dfs上了。

3.在hive/impala上建立對應的表

CREATE TABLE tbl_adrs_code(adrs_id STRING, adrs STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'

4.將HDFS的資料匯入相應的表中

LOAD DATA INPATH '/data_clean/tbl_adrs_code.txt' INTO TABLE tbl_code_province

(data_clean/tbl_code_province.txt是檔案在HDFS上的路徑)

問題:通過以上方式建表,檔案的第一行的第一個欄位可能會出現特殊符號‘·’,具體原因一直沒有鬧清楚。所以,可以在檔案第一列作為序號類使用,或用相關語句修改

INSERT OVERWRITE TABLE tbl_adrs_code SELECT CASE WHEN adrs_is = ' ·11' THEN '11' ELSE arse_id END AS adrs_id, adrs FROM tbl_adrs_code
吐舌頭處女作,大家多指點



相關推薦

本地文字檔案HDFS然後匯入hive/impala對應

1.本地文字檔案上傳前的準備 將文字儲存為"uft-8"格式,並用"|"進行欄位間的分割(個人習慣,可以選用其它符號,但要避免和程式語言產生衝突,Hive預設的欄位分隔符為ascii碼的控制符\001)。 2.將文字檔案通過Xshell上傳到HDFS上 (1)首先要新建(A

spark 本地檔案hdfs

關於spark的部署要明白 我們經常操作的是spark中的client那臺,也就是所謂的本地伺服器,和spark叢集進行互動。 如何上傳本地到hdfs呢? 例子:本地檔案first.txt      

如何本地專案檔案至github

我選擇了Linux環境,在Linux系統指定的專案檔案上傳到github上。 一、準備工作          首先準備,一臺裝有Ubuntu Linux的電腦。我們所有的操作是在這臺電腦上進行的。接下來開始開啟終端(Crt+alt+T)。這裡我是在Windows系統上使用P

Android Studio本地計算機檔案到模擬器scard檔案

本人在學習Android開發中遇到這樣一個問題,將本地計算機中一個視訊上傳到模擬器的scard檔案中視訊的名字是1.MP4![這裡寫圖片描述](https://img-blog.csdn.net/201

用Nginx採集日誌通過flume日誌檔案儲存到HDFS

安裝Tomcat 到官網下載apache-tomcat-7.0.69 開啟eclipse->window->preferences->server->runtime environments 編寫專案 Nginx

用java程式把本地的一個檔案拷貝到hdfs並顯示進度

把程式打成jar包放到Linux上 轉到目錄下執行命令 hadoop jar mapreducer.jar /home/clq/export/java/count.jar  hdfs://ubuntu:9000/out06/count/ 上面一個是本地檔案,一個是上傳hdf

使用PowerShell比較本地文字檔案與Web文字檔案是否相同

使用PowerShell比較本地文字檔案是否相同通常有兩種方式:1.通過Get-FileHash這個命令,比較兩個檔案的雜湊是否相同;2.通過Compare-Object這個命令,逐行比較兩個檔案的內容是否相同。 比較本地文字檔案與Web上的文字檔案也是同樣的2種思路,只不過要首先處理好web上的檔案。處理

HDFS設計思路HDFS使用查看集群狀態HDFSHDFS文件HDFS下載文件yarn web管理界面信息查看運行一個mapreduce程序mapreduce的demo

b2c 數據系統 set 打包 value map mode format drive 26 集群使用初步 HDFS的設計思路 l 設計思想 分而治之:將大文件、大批量文件,分布式存放在大量服務器上,以便於采取分而治之的方式對海量數據進行運算分析; l 在大數據系

檔案下載時在form設定屬性enctype=“multipart/form-data”的情況下如何獲取單提交的值?

一、問題描述 檔案上傳下載時,在form表單中設定屬性enctype=“multipart/form-data”的情況下,如何獲取表單提交的有關使用者資訊的值?(比如:textfield、radio等屬性中的值) 二、解決方法 1、情況一:沒有對user物件進行封裝 方法:

django FileField檔案重新命名ModelForm驗證儲存

models.py class TeleplayTable(models.Model): tid = models.CharField(max_length=50, primary_key=True, verbose_name='ID') name = models.Ch

php解析文字檔案呈現在表格

name.txt如下 1 | 朱芳 | 18 | [email protected] | http://XEP.VC 2 | 康麗 | 22 | [email protected] | http://WSURR.PH 3 | 沈平 | 34 | [email p

JavaScript的FormData+Ajax實現檔案+圖片

 JavaScript的FormData+Ajax實現檔案上傳+圖片上傳 在很多網頁開發中會存在檔案上傳,圖片上傳的操作,有的使用form表單預設功能提交檔案,有的採用Ajax提交 如果採用form表單的提交方式,恰恰又需要新增額外的引數或者需要設定特定的請求頭資訊,那麼這種方式就

tp3.2+layui ajax檔案(直接程式碼)

三步走 第一步:html程式碼 <div class="col-lg-6 uploadID"> 圖片xxx <div> <input type="file" name="sfz_img" id="ulFont" required&

本地的Vue專案放到伺服器

一,將本地的Vue專案打包 1.1 進入Vue專案裡面 1.2 執行 npm run build 二,將打包得到dist資料夾進行壓縮,壓縮包上傳到伺服器上 2.1 將打包得到的dist資料夾進行壓縮 當你執行完npm run build之後

專案到gitlab建立組拉成員

  1、點選“New group“建立專案組   2、填寫基本資訊,點選”Create group“完成建立組。 給組新增人員: 1、點選”Members” 2、新增人員 專案管理 建立專案 1、點選”New project“   2、填寫基礎資

項目到gitlab創建組拉成員

nbsp creat 成員 創建項目 分享 new reat inf ber 1、點擊“New group“創建項目組 2、填寫基本信息,點擊”Create group“完成創建組。 給組添加人員: 1、點擊”Members” 2、添加人員 項目管理 創建項目

java jsch實現sftp檔案,並且控制的速度同時監控進度

工作中,有些環境頻寬有限,比如說專線,通常頻寬比較小,又不便宜,當業務量大的時間,如果在專線上還要傳輸檔案的話,往往在檔案傳輸的時間會導致頻寬佔慢,就有可能導致時實交易進不來,有可能影響交易,今天貼一下 jsch實現sftp檔案上傳,並且控制上傳的速度,同時監控上傳進度,供大家參考。

Android 獲取的檔案顯示在ListView

使用軟體: Android studio 夜深模擬器 程式碼: ArrayList<String> list_music = new ArrayList<String>(); File file = new File("/mnt/shared/Other/");

input 檔案 --- 只指定檔案

最近專案要做一個檔案上傳功能, 只上傳 Excel 表 統計資料,這裡只需在form表單中 input 標籤中,新增一個屬性即可 <%--存放上傳檔案的表單域,名稱可以隨便指定--%> <input type="file" id="upl

檔案~Uploadify控制元件

namespace EntityFrameworks.Application.Core.FileUpload { /// <summary> /// 影象上傳功能的實現 /// </summary> public class UploadImp