大資料之簡單統計單詞的案例在本地eclipse執行
這是利用eclipse的執行緒代替linuxe的程序去執行
第一步:首先要將已經下載解壓後的hadoop配置好相應的環境變數
第二步:
//建立配置檔案物件
Configuration conf=new Configuration(true);
也就是下面的兩行程式碼複製到建立配置檔案物件的下面
//設定在本地執行的檔案物件
conf.set("mapreduce.framework.name", "local");
// conf.set("fs.defaultFS", "hdfs://node01:9000");
conf.set("fs.defaultFS", "file:///");
第三步:
//指定joB的原始的輸入輸出路徑,通過引數傳入
FileInputFormat.setInputPaths(job, new Path("D://code//mr//wc//input//"));
FileOutputFormat.setOutputPath(job, new Path("D://code//mr//wc//output//"));
當然這裡也可以利用主方法的run configurations來傳入引數:下面給出一個驗證的小案例
本案的設定如下:
得到結果:
表名成功在本地的eclipse執行
相關推薦
大資料之簡單統計單詞的案例在本地eclipse執行
這是利用eclipse的執行緒代替linuxe的程序去執行 第一步:首先要將已經下載解壓後的hadoop配置好相應的環境變數 第二步: //建立配置檔案物件 Configuration conf=new Configuration
大資料之storm(一) --- storm簡介,核心元件,工作流程,安裝和部署,電話通訊案例分析,叢集執行,單詞統計案例分析,調整併發度
一、storm簡介 --------------------------------------------------------- 1.開源,分散式,實時計算 2.實時可靠的處理無限資料流,可以使用任何語言開發 3.適用於實時分析,線上機器學習
大資料之scala(二) --- 對映,元組,簡單類,內部類,物件Object,Idea中安裝scala外掛,trait特質[介面],包和包的匯入
一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map
大資料之scala(一) --- 安裝scala,簡單語法介紹,條件表示式,輸入和輸出,迴圈,函式,過程,lazy ,異常,陣列
一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行,進入scala命
大資料之電話日誌分析callLog案例(四)
一、修改kafka資料在主題中的貯存時間,預設是7天 ------------------------------------------------- [kafka/conf/server.properties] log.retention.hours=1 二、使用hive進行聚
大資料之電話日誌分析callLog案例(三)
一、查詢使用者最近的通話資訊 -------------------------------------------- 1.實現分析 使用ssm可視介面提供查詢串 -- controller連線 hiveserver2 -- 將命令轉化成hsql語句 -- hive繫結hba
大資料之電話日誌分析callLog案例(二)
一、前端實現 -- 按照時間段查詢通話記錄 ----------------------------------------- 1.完善calllog的dao類calllog.class ----------------------------------------------
大資料之Spark(七)--- Spark機器學習,樸素貝葉斯,酒水評估和分類案例學習,垃圾郵件過濾學習案例,電商商品推薦,電影推薦學習案例
一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集,產生一個推斷函式
大資料之使用hadoop對海量資料進行統計並排序
不得不說,Hadoop確實是處理海量離線資料的利器,當然,凡是一個東西有優點必定也有缺點,hadoop的缺點也很多,比如對流式計 算,實時計算,DAG具有依賴關係的計算,支援都不友好,所以,由此誕生了很多新的分散式計算框 架,Storm,Spark,Tez,impala,
大資料之Spark(五)--- Spark的SQL模組,Spark的JDBC實現,SparkSQL整合MySQL,SparkSQL整合Hive和Beeline
一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl
大資料之Spark(四)--- Dependency依賴,啟動模式,shuffle,RDD持久化,變數傳遞,共享變數,分散式計算PI的值
一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |
大資料之Spark(三)--- Spark核心API,Spark術語,Spark三級排程流程原始碼分析
一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop
大資料之Spark(二)--- RDD,RDD變換,RDD的Action,解決spark的資料傾斜問題,spark整合hadoop的HA
一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式
大資料之Spark(一)--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析
一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java
大資料之scala(四) --- 模式匹配,變數宣告模式,樣例類,偏函式,泛型,型變,逆變,隱式轉換,隱式引數
一、模式匹配:當滿足case條件,就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case
大資料之scala(三) --- 類的檢查、轉換、繼承,檔案,特質trait,操作符,apply,update,unapply,高階函式,柯里化,控制抽象,集合
一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {
2018大資料之共享單車實戰視訊課程
課程目錄 共享單車專案-1-專案簡介微信小程式 共享單車專案-2-Mongodb統計  
大資料之路_1
大資料的特點: 1.資料來源廣 資料格式多樣化(結構化資料、非結構化資料、Excel檔案、文字檔案) 資料量大(最少是TB級別的,甚至可能是PB級別的)、資料增長速度快等 採集彙總:Sqoop、Cammel、DataX工具 儲存:GFS、HDFS、TFS等分散式檔案儲存 批處理運算:MapReduce 。分
大資料之路_2
1.大資料框架與平臺 工作:處理資料 磁碟檔案中的資料 網路中的資料流或資料包 資料庫中的結構化資料 1.大資料工作 處理資料 資料結構: 磁碟檔案中的資料 網路中的資料流或資料包 資料庫中的結構化資料 2.資料規模 TB PB 3.分散式環境中處理大資料 (1)分散式環境,多臺
大資料之效能調優方面(資料傾斜、shuffle、JVM等方面)
一、對於資料傾斜的發生一般都是一個key對應的資料過大,而導致Task執行過慢,或者記憶體溢位(OOM),一般是發生在shuffle的時候,比如reduceByKey,groupByKey,sortByKey等,容易產生資料傾斜。 那麼針對資料傾斜我們如何解決呢?我們可以首先觀看log日誌,以為log日誌報