Spark 採坑系列（一）叢集環境讀取本地檔案的坑

阿新 • • 發佈：2018-12-06

Spark 採坑系列

今天在網上看了一個例子，Spark啟動後讀取檔案並計算的例子，自己在按照網上方法使用的時候意外菜了坑。

首先，我將3臺虛擬機器的Spark叢集以及Hadoop叢集啟動。

然後我在其中一個伺服器上編輯了一個文字，命名sparkFirst，內容如下：

hello spark

hello world

hello spark!

儲存後，存在了其中一臺伺服器上，然後我開始試驗：

首先，執行spark的控制檯命令spark-shell

然後，讀取文字，並執行計算行數的命令，結果報錯：

scala> val lines=sc.textFile("/opt/soft/hadoop/sparkFirst")

lines: org.apache.spark.rdd.RDD[String] = /opt/soft/hadoop/sparkFirst MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()

報錯如圖

然後開始上網找原因，網上說如果Spark採用叢集模式讀取本地檔案，必須保證每個叢集下都有相同的問題件，否則就會報找不到檔案的錯誤：

WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.194.130, executor 1):

java.io.FileNotFoundException: File file:/opt/soft/hadoop/sparkFirst does not exist

並且，很多人建議採用hdfs的方式載入檔案，這樣就不會出現剛才的問題了，好用並且高大上。既然這樣，我們就來試一試，把剛才的檔案上傳到hdfs中：

我們將sparkFirst 檔案上傳到了hdfs的根目錄（注意最後的 .），然後我們將載入檔案的路徑改為hdfs路徑並再次嘗試。

最後成功！

Spark 採坑系列（一）叢集環境讀取本地檔案的坑

Spark 採坑系列今天在網上看了一個例子，Spark啟動後讀取檔案並計算的例子，自己在按照網上方法使用的時候意外菜了坑。首先，我將3臺虛擬機器的Spark叢集以及Hadoop叢集啟動。然後我在其中一個伺服器上編輯了一個文字，命名sparkFirst，內容如下： hello s

Openstack填坑系列（一）flat網絡不通

openstack 網絡不通根據openstack手冊部署openstack，部署全部完成，並且沒有任何報錯信息。部署環境為VMware esxi 主機創建VM後。vm卡在bios界面始終無法啟動，vm cpu占用100% （坑一）這種情況需要將計算節點的（如果無此現象可以不做下面的修改，經測試有的版本的e

移動端輸入框填坑系列（一）

輸入在移動端是一個很常用的功能，那麼輸入框必然是一個很重要的部分。然而，移動端輸入框總會遇到各種各樣的問題，無論是樣式還是ios和android兩端體驗不一致都是很讓我們頭疼的問題，那麼如何使移動web的輸入框體驗更貼近原生也成了一個需要我們多多思考和研究的問題。一、文字輸入

深入淺出Redis系列（一）windows環境下Redis的安裝

windows下Redis的安裝：一：【下載】：去官網找了很久，發現原來在官網上可以下載的windows版本的，現在官網以及沒有下載地址，只能在github上下載，官網只提供linux版本的下載； &nb

以太坊系列（一）搭建環境，部署第一合約

安裝geth sudo apt-get install software-properties-common sudo add-apt-repository -y ppa:ethereum/ethereum sudo apt-get update sudo apt-

匯出為PDF系列（一）__java後臺傳PDF檔案

寫在之前：匯出PDF系列會有三篇，方法思路都是查了大量資料，參考了很多部落格文章，連結全部貼上來有點不現實，如果有冒犯之處還請指出，馬上改正。如果有疑問，歡迎留言評論，必定竭盡全力答覆，接下來就開始吧。用PDF將模板寫死，內容動態填充這裡以匯出以下頁面為例（1）新建一個wor

shp系列（一）——利用C++進行shp檔案的讀（開啟）與寫（建立）開言

部落格背景和目的最近在用C++寫一個底層的東西，需要讀取和建立shp檔案。雖然接觸shp檔案已經幾年了，但是對於shp檔案內到底包含什麼東西一直是一知半解。以前使用shp檔案都是利用軟體（如ArcGIS）直接開啟，儲存；建立檔案則需要專門利用ArcToolBox等建立圖形。網

MongoDB深入學習系列（一）---開發環境配置及工具介紹

現在隨著網際網路應用的不斷髮展，傳統的關係型強事務型資料庫在某些要求不高的環境，高強度訪問情況下並不佔優，所以今天我們來研究一下記憶體資料庫中的Mongodb，MongoDB是文件型資料庫，他屬於記憶體資料庫，但是他也可以持久化到磁碟，所以根

React-Native 之Android應用開發踩坑紀（一）————windows環境下配置

歡迎轉載，轉載註明出處：我不只是看客自從在公司中被老大安利了移動開發的未來 React-Native之後開始關注相關，想嘗試相關app開發。正好畢業準備畢設，腦子一熱就選擇了RN來開發一款app……題目上交就不能改了，現在好後悔。。。但硬著頭皮上吧，廢

hadoop學習之路（一）---叢集環境搭建（2.7.3版本）

三：下載解壓 hadoop 到某個目錄(例如 /usr/loacl/hadoop) 四：賬號建立：即為hadoop叢集專門設定一個使用者組及使用者，這部分比較簡單，參考示例如下： groupadd hadoop //設定h

Hadoop入門系列（一）Window環境下搭建hadoop和hdfs的基本操作

1.去官網下載hadoop。1>選擇映象網站，選清華的映象的網站。2>找個自己喜歡版本的hadoop，下載好將壓縮包解壓。 2.找對應版本的winutil。因為hadoop主要基於linux編寫，這個winutil.exe主要用於模擬linux下的目錄環境。因此h

Spark採坑系列（三）Spark操作Hive的坑

跟著教學試著用Idea程式設計，實現Spark查詢Hive中的表。結果上來就涼了。搗鼓好久都不行，在網上查有說將hive-site.xml放到resource目錄就行，還有什麼hadoop針對windows使用者的許可權問題，結果都是扯淡。其實問題還是處在程式碼上，直接附上程式碼了

Spark採坑系列（二）使用Scala編寫的工程Maven打包沒有Scala檔案

新增下面的maven Scala編譯支援 <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-

Fragment全解析系列（一）：那些年踩過的坑

本篇主要介紹一些最常見的Fragment的坑以及官方Fragment庫的那些自身的BUG，並給出解決方案；這些BUG在你深度使用時會遇到，比如Fragment巢狀時或者單Activity＋多Fragment架構時遇到的坑。 Fragment是可以讓你的app縱享絲滑的設計，如果你的app想在

Java程式設計中的坑——字串系列（一）

在實際程式設計中，經常會用到將字串中的某個字串替換成另一個字串的場景。最常用的替換字串的方法是replace()，replaceFirest()，replaceAll()這三種方法。你知道這三種方法的具體區別嘛？你知道怎麼替換字串中的特殊字元嘛？下面先看如下例子，心中預先想好

【ABAP自學系列（一）】

發的 img api .cn ima code pat 查看屏幕一、查看補丁包級別然後看Patch Level即可。常用T-code： SE38（寫程序） SE80（屏幕開發） Smartform（開發smartform打印） SE37（可以查看function

Linux基礎學習系列（一）

內核版本比較其中問題測試版工具含義語言復制　　Linux是一種類似於UNIX的操作系統，由Linus Torvalds於1991年在minix操作系統的基礎創建。Linux憑借其優良特性已經成為目前發展潛力最大的操作系統。　　Linux的版本有內核版本和

spring boot學習系列（一）

web服務器應用程序 spring 控制器做什麽 spring boot開發第一個應用程序1、spring boot是什麽？2、spring boot容易上手嗎？寫這篇文章技術文章，主要是記錄日常的學習以及理解。我們重新認識一下spring假設你受命使用spring開發一個簡單的hel

asp.net core入門教程系列（一）

home padding 方式 title sys 活性 elf tro ash Asp.Net Core簡介 ASP.NET Core 是一個全新的開源、跨平臺框架，可以用它來構建基於網絡連接的現代雲應用程序，比如：Web 應用，IoT（Internet Of Thin

Spark 採坑系列（一） 叢集環境讀取本地檔案的坑

相關推薦

Spark 採坑系列（一）叢集環境讀取本地檔案的坑