1. 程式人生 > >大資料專案實戰30天搞定大資料爬蟲專案超清視訊教程

大資料專案實戰30天搞定大資料爬蟲專案超清視訊教程

大資料專案實戰30天搞定大資料爬蟲專案超清視訊教程

《大資料專案實戰30天搞定大資料爬蟲專案超清視訊教程》本專案採用JAVA語言實現,絕對基於真實的爬蟲專案進行改進和優化,希望進一步提升大家的大資料專案經驗。本專案基本涵蓋了爬蟲專案的整個流程,包括資料爬蟲、全文檢索、資料視覺化、爬蟲專案監控、爬蟲專案維護等等。解決了爬蟲專案中遇到的棘手問題,包括破解網站反爬策略、網站模板定期變更、網站頻繁訪問IP被封等等問題。

----------------------課程目錄------------------------------

Java視訊教程目錄:
一、專案背景
1、瞭解傳統廣電收視率專案背景
2、使用者資料有哪些價值點
3、哪些機構掌握這些資料
4、爬蟲目標:網際網路各大視訊網站

二、專案總體需求
1、多維度統計:總播放指數、每日播放增量、評論數、收藏數、贊、踩
2、資料視覺化:節目收視排行榜、多維度指標趨勢圖

三、難點分析
1、網站採取反爬策略
2、網站模板定期變動
3、網站URL抓取失敗
4、網站頻繁抓取IP被封

四、系統架構設計
1、總體架構解析
2、資料流向
3、功能模組劃分
4、各個模組詳細解讀

五、技術選型
1、資料採集層
2、資料儲存層
3、資料處理層
4、資料展示層

六、部署方案
1、爬蟲專案:分散式叢集
2、爬蟲定時專案:一臺伺服器
3、爬蟲專案監控:一臺伺服器
4、爬蟲視覺化:多臺伺服器
5、Hbase資料庫:分散式叢集
6、Redis資料庫:分散式叢集
7、Solr 全文檢索:分散式叢集
8、Zookeeper 監控:分散式叢集
9、Solr 建立索引:一臺伺服器
10、郵件提醒:一臺伺服器

七、爬蟲程式碼詳盡實現
1、下載、解析視訊網站詳情頁面url,提取關鍵欄位資料
2、抽取視訊網站解析規則模板,優化解析程式碼
3、打通資料爬蟲的下載、解析、儲存流程
4、採用Hbase儲存爬蟲資料,詳解Hbase寬表和窄表設計以及爬蟲專案表的詳細設計,包含rowKey設計、列簇設計、歷史版本
5、解析視訊網站所有分頁url並優化解析實現類
6、使用Queue佇列儲存視訊網站所有url,實現視訊網站url迴圈抓取
7、採用高、低優先順序佇列迴圈抓取視訊網站url
8、採用Redis資料庫實現url抓取優先順序,並支援分散式爬蟲
9、採用多執行緒爬蟲,加快爬蟲效率
10、定時啟動爬蟲專案
11、完善爬蟲專案、補充抓取關鍵欄位資料

八、全文檢索
1、Lucene、Solr、ElasticSearch簡介
2、全文檢索過程:索引建立和搜尋索引
3、解決全文檢索的核心問題
4、Solr+Hbase組合提升檢索效率
5、Solr 配置詳解
6、Solr 安裝部署
7、Solr 建立索引
8、Solr 檢索視訊網站資料

九、資料視覺化
1、採用SpringMVC框架編寫爬蟲Web專案
2、編寫Hbase工具類查詢Hbase資料
3、編寫Solr工具類檢索爬蟲資料
4、採用Freemarker或者jsp展示頁面
5、採用Highcharts外掛展示收視指數曲線圖
6、打通爬蟲整個專案流程,實時檢視收視排行榜以及收視指數曲線圖

十、專案優化一
1、設定合理的抓取時間間隔,模擬正常使用者訪問,降低IP被封概率
2、採用Redis 動態IP庫,隨機獲取IP,隨機抓取不同網站資料,降低同一IP對統一網站的訪問頻率
3、實現分散式爬蟲,提高爬蟲效率

十一、專案優化二
1、Ganglia、Zookeeper簡介
2、詳解Zookeeper特性監控爬蟲專案
3、完善爬蟲專案註冊Zookeeper叢集
4、編寫Watcher監視器監控爬蟲專案生命週期
5、叢集監控的整體聯調

十二、專案優化三
1、監控器監控爬蟲專案異常,異常資料插入資料庫
2、編寫郵件Mail專案掃描爬蟲專案異常資訊,通知運維人員
3、編寫定時器定時執行Mail專案

https://pan.baidu.com/s/1Y3o9xLXB0qr79iuE6P-f4w