大數據模塊開發之數據預處理

阿新 • • 發佈：2018-09-26

exce ews map 詳細 clas cas stream type repr

1．主要目的
過濾“不合規”數據，清洗無意義的數據
格式轉換和規整
根據後續的統計需求，過濾分離出各種不同主題(不同欄目path)的基礎數據。
2．實現方式
開發一個mr程序WeblogPreProcess(內容太長，見工程代碼)

public class WeblogPreProcess {

static class WeblogPreProcessMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

Text k = new Text();

NullWritable v = NullWritable.get();

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

String line = value.toString();

WebLogBean webLogBean = WebLogParser.parser(line);

//        WebLogBean productWebLog = WebLogParser.parser2(line);

//        WebLogBean bbsWebLog = WebLogParser.parser3(line);

//        WebLogBean cuxiaoBean = WebLogParser.parser4(line);

if (!webLogBean.isValid())

return;

k.set(webLogBean.toString());

context.write(k, v);

//        k.set(productWebLog);

//        context.write(k, v);

}

}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

job.setJarByClass(WeblogPreProcess.class);

job.setMapperClass(WeblogPreProcessMapper.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(NullWritable.class);

FileInputFormat.setInputPaths(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

job.waitForCompletion(true);

}

}

l 運行mr對數據進行預處理

hadoop jar weblog.jar cn.itcast.bigdata.hive.mr.WeblogPreProcess /weblog/input /weblog/preout
3．點擊流模型數據梳理
由於大量的指標統計從點擊流模型中更容易得出，所以在預處理階段，可以使用mr程序來生成點擊流模型的數據。
3.1．點擊流模型pageviews表
Pageviews表模型數據生成, 詳細見：ClickStreamPageView.java
技術分享圖片
此時程序的輸入數據源就是上一步驟我們預處理完的數據。經過此不處理完成之後的數據格式為：

3.2．點擊流模型visit信息表
註：“一次訪問”=“N次連續請求”

直接從原始數據中用hql語法得出每個人的“次”訪問信息比較困難，可先用mapreduce程序分析原始數據得出“次”信息數據，然後再用hql進行更多維度統計
用MR程序從pageviews數據中，梳理出每一次visit的起止時間、頁面信息
詳細代碼見工程：ClickStreamVisit.java
技術分享圖片

大數據模塊開發之數據預處理

大數據模塊開發之數據預處理

大數據模塊開發之數據采集

大數據模塊開發之數據預處理

大數據模塊開發之數據倉庫設計

大數據模塊開發之結果導出

02.網站點擊流數據分析項目_模塊開發_數據采集

微信小程序開發之數據存儲參數傳遞數據緩存

1、變量,編碼,print,模塊調用,數據類型(數字/浮點數/字符串等),數據運算,if else,for,while,break,continue

織夢DedeCMS的二次開發之數據庫類操作

第6課：datetime模塊、操作數據庫、name、redis、mock接口

pymysql和sqlalchemy模塊操作mysql數據庫

Python學習——使用json模塊存儲數據

Anaconda 安裝redis-py模塊操作redis數據庫

Python全棧開發之數據類型

中控考勤機的二次開發之數據秒上傳至服務器功能

關系數據標準語言SQL之數據查詢

數據庫復習之數據庫系統概述

模塊開發之統計分析

微擎模塊開發之微信支付報錯get_brand_wcpay_request:fail解決方案

Python數據庫MySQL之數據備份、pymysql模塊

【unity系統模塊開發】UnityEditor工具--數據可視化

大數據模塊開發之數據預處理

相關推薦