大資料專案之電信客服一
1.專案需求
對通話運營商的通話記錄資料進行離線的分析處理,通話記錄資訊包含通話的手機號碼,通話時間,通話時長,是否為主叫等資訊
2.專案架構
這裡對整個專案架構進行簡單的說明
首先通話資料是自己寫程式碼生產出來的,然後使用Flume,實時採集資料,將採集到的資料寫入Kafka,將Kafaka中的資料消費到HBase,最後寫MapReduce程式對HBase中的資料進行離線分析,將最終結果寫入寫入到Mysql資料庫中,再展示到Web介面中
3.開發環境及工具
開發工具:IDEA旗艦版
JDK:1.8+
maven:3.3.9
linux:ubuntu
叢集環境:
三臺虛擬機器
Hadoop Flume Kafka HBase Zookeeper
相關推薦
大資料專案之電信客服一
1.專案需求 對通話運營商的通話記錄資料進行離線的分析處理,通話記錄資訊包含通話的手機號碼,通話時間,通話時長,是否為主叫等資訊 2.專案架構 這裡對整個專案架構進行簡單的說明 首先通話資料是自己寫程式碼生產出來的,然後使用Flume,實時採集資料,將採集到的資料寫入Kafka,將K
大資料專案之電信客服三
1.啟動Kafaka叢集 這裡的Kafka叢集搭建就不再說了,如果不會搭建可以看我之前的博文 首先啟動Zookeeper叢集,然後再啟動Kafka叢集 bin/zkServer.sh start bin/kafka-server-start.sh config/server.proper
大資料專案之電信客服二
1.資料生產 在實際生產中,這個環節並不會讓你來做,更不會來模擬生產資料,但是這裡是為了專案執行,也是為了讓你連線每個環節 2.專案建立 在IDEA中先建立一個Java專案ct,然後在該專案中建立各個Module模組進行編寫,這樣比較清晰,比如這裡的生產資料模組就可以建立一個ct_pro
大資料專案之電商數倉一(使用者行為採集)
一、資料倉庫概念 資料倉庫(Data Warehouse) 是為企業所有決策制定過程,提供所有系統資料支援的戰略集合。 二、專案需求及架構設計 2.1 專案需求分析 1、專案需求 1)使用者行為資料採集平臺搭建 2)業務資料採集平臺搭建 3)資料倉庫維度建模 &n
大資料開發實戰系列之電信客服(1)
大資料實戰開發系列,以實戰為主,輔以一些基礎知識,關於電信客服,在網上也有很多的資料,這裡我自然會去參考網上的資料,程式的整體設計是在今天開始的,老夫儘量在本週末錢結束這個電信客服的程式編寫。因為我也是一個學習者,所以在程式編寫過程中難免會存在問題,有問題還請大家指出,有則改之,無則加勉。大家共同進步。本教程
【每週一本書】《資料即未來——大資料王者之道》:一項資料科學專案
【資料猿導讀】學習資料科學不僅僅意味著掌握分析工具和技術,其真正的神奇之處在於你開始像資料科學家
大資料專案之通訊公司通話記錄改造
一、專案架構分析: 1、專案描述: 將通話記錄資料由原來的oracle系統改造成使用大資料架構解決方案。主要使用hbase做通話資料的儲存方案。需要將原有oracle資料匯入到hbase中,以及新生成資料通過flume收集到kafka,再通過消費者儲存到hbase資料庫。 2、專案的目標: hadoo
大資料專案之dmp使用者畫像
一、網際網路廣告精準投放介紹 (1)dsp的展示原理: ① 使用者瀏覽媒體網站,媒體網站通過新增的 SSP 程式碼向 AdExchange 發起廣告請求。② AdExchange 將這次請求的關鍵資訊(如域名 URL、IP、Cookie 等)同時傳送給多家 DSP,我們把這個請求稱為 Bid Reques
python下建立elasticsearch索引實現大資料搜尋——之環境搭建(一)
目錄 1.需求闡述 1)資料儲存在阿里雲內網的Mysql伺服器上,需要通過一臺伺服器SSH隧道穿透取得資料。 2)首先明確,一張設計圖需要多種素材來構成。資料量很大,需要操作的有兩個表,稱為stylepatternshow表,目前資料3w行(
大資料入門之Linux基礎(一)
Vmware、Linux 基礎1.VMware 虛擬網路1.1.虛擬網絡卡、虛擬交換機當使用VMware Workstation安裝一個虛擬機器時就會自動安裝一塊虛擬網絡卡,此外還可手動給虛擬機器新增多塊虛擬網絡卡。 交換機用於電(光)訊號的轉發。可以為接入交換機的任意兩個網
大資料專案實戰之十一:11.工廠模式講解以及DAOFactory開發
如果沒有工廠模式,可能會出現的問題: ITaskDAO介面和TaskDAOImpl實現類;實現類是可能會更換的;那麼,如果你就使用普通的方式來建立DAO,比如ITaskDAO taskDAO = new TaskDAOImpl(),那麼後續,如果你的TaskDAO的實現類變更了,那麼你就必須在你
大資料技術之Hive實戰——Youtube專案(一)
一、需求描述 統計 Youtube 視訊網站的常規指標,各種 TopN 指標: –統計視訊觀看數 Top10 –統計視訊類別熱度 Top10 –統計視訊觀看數 Top20 所屬類別包含這 Top20 視訊的個數 –統計視訊觀看數 Top50 所關聯視訊
大資料實戰-電信客服-重點記錄
# 寫在前面的話 最近不是一直在學習大資料框架和引用嘛(我是按照[尚矽谷](http://www.atguigu.com/)[B站](https://space.bilibili.com/302417610?spm_id_from=333.788.b_765f7570696e666f.1)視訊先學習過一遍路
一步步教您學會大資料採集之環球網新聞資料採集教程
本文介紹如何使用后羿採集器的智慧模式,免費採集環球網新聞的標題、內容、評論數、釋出時間等資訊。 採集工具簡介: 后羿採集器是一款基於人工智慧技術的網頁採集器,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux)的網路
一步步教您學會大資料採集之同花順圈子評論採集教程
本文主要介紹如何使用后羿採集器的智慧模式,免費採集同花順圈子首頁短評的釋出時間、釋出內容、作者及閱讀量等資訊。 採集工具簡介: 后羿採集器(www.houyicaiji.com)是一款基於人工智慧技術的網路爬蟲軟體,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三
一步步教您學會大資料採集之“什麼值得買”推薦商品資料採集教程
本文主要介紹如何使用后羿採集器的智慧模式,免費採集“什麼值得買”商品價格、圖片、標題及推薦人等資訊。 採集工具簡介: 后羿採集器是一款基於人工智慧技術的網路爬蟲工具,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux
一步步教您學會大資料採集之小說資料採集教程
本文介紹如何使用后羿採集器的智慧模式,免費採集樂文小說網上的小說資料。 採集工具簡介: 后羿採集器(www.houyicaiji.com)是一款基於人工智慧技術的網頁採集器,只需要輸入網址就能夠自動識別網頁資料,無需配置即可完成資料採集,是業內首家支援三種作業系統(包括Windows、Mac和Linux)
大資料專案實戰之 --- 使用者畫像專案分析
一、使用者畫像專案分析 ------------------------------------------------------- 1.概念 使用者畫像也叫使用者資訊標籤化、客戶資訊。 根據使用者的資訊和行為動作,用一些標籤把使用者描繪出來,描繪的標籤就是使用者畫像。
大資料專案實戰之 --- 某App管理平臺的手機app日誌分析系統(三)
一、建立hive分割槽表 ---------------------------------------------------- 1.建立資料庫 $hive> create database applogsdb; 2.建立分割槽表 編寫指令碼。
大資料專案實戰之十三:13.Spark上下文構建以及模擬資料生成
import com.ibeifeng.sparkproject.conf.ConfigurationManager; import com.ibeifeng.sparkproject.constant.Constants; import com.ibeifeng.sparkpro