1. 程式人生 > >(2018乾貨系列七)最新大資料學習路線整合

(2018乾貨系列七)最新大資料學習路線整合

怎麼學大資料

大資料指不用隨機分析法這樣捷徑,而採用所有資料進行分析處理的方法。網際網路時代每個企業每天都要產生龐大的資料,對資料進行儲存,對有效的資料進行挖掘分析並應用需要依賴於大資料開發。

Linux&&Hadoop生態體系

  • Linux大綱
    1) Linux的介紹,Linux的安裝:VMware Workstation虛擬軟體安裝過程、CentOS虛擬機器安裝過程2) 瞭解機架伺服器,採用真實機架伺服器部署linux3) Linux的常用命令:常用命令的介紹、常用命令的使用和練習4) Linux系統程序管理基本原理及相關管理工具如ps、pkill、top、htop等的使用;5) Linux啟動流程,執行級別詳解,chkconfig詳解6) VI、VIM編輯器:VI、VIM編輯器的介紹、VI、VIM扥使用和常用快捷鍵7) Linux使用者和組賬戶管理:使用者的管理、組管理8) Linux磁碟管理,lvm邏輯卷,nfs詳解9) Linux系統檔案許可權管理:檔案許可權介紹、檔案許可權的操作10) Linux的RPM軟體包管理:RPM包的介紹、RPM安裝、解除安裝等操作11) yum命令,yum源搭建12) Linux網路:Linux網路的介紹、Linux網路的配置和維護13) Shell程式設計:Shell的介紹、Shell指令碼的編寫14) Linux上常見軟體的安裝:安裝JDK、安裝Tomcat、安裝mysql,web專案部署
  • 大型網站高併發處理
    1) 第四層負載均衡a) Lvs負載均衡i. 負載演算法,NAT模式,直接路由模式(DR),隧道模式(TUN)b) F5負載均衡器介紹2) 第七層負載均衡a) Nginxb) Apache3) Tomcat、jvm優化提高併發量4) 快取優化a) Java快取框架i. Oscache,ehcacheb) 快取資料庫i. Redis,Memcached5) Lvs+nginx+tomcat+redis|memcache構建二層負載均衡千萬併發處理6) Haproxy7) Fastdfs小檔案獨立儲存管理8) Redis快取系統a) Redis基本使用b) Redis sentinel高可用c) Redis好友推薦演算法
  • Lucene課程
    1) Lucene介紹2) Lucene 倒排索引原理3) 建索引 IndexWriter4) 搜尋 IndexSearcher5) Query6) Sort和 過濾 (filter)7) 索引優化和高亮
  • Solr課程
    1) 什麼是solr2) 為什麼工程中要使用solr3) Solr的原理4) 如何在tomcat中執行solr5) 如何利用solr進行索引與搜尋6) solr的各種查詢7) solr的Filter8) solr的排序9) solr的高亮10) solr的某個域統計11) solr的範圍統計12) solrcloud叢集搭建
  • Hadoop離線計算大綱
    1) Hadoop生態環境介紹2) Hadoop雲端計算中的位置和關係3) 國內外Hadoop應用案例介紹4) Hadoop 概念、版本、歷史5) Hadoop 核心組成介紹及hdfs、mapreduce 體系結構6) Hadoop 的叢集結構7) Hadoop 偽分佈的詳細安裝步驟8) 通過命令列和瀏覽器觀察hadoop9) HDFS底層工作原理10) HDFS datanode,namenode詳解11) Hdfs shell12) Hdfs java api13) Mapreduce四個階段介紹14) Writable15) InputSplit和OutputSplit16) Maptask17) Shuffle:Sort,Partitioner,Group,Combiner18) Reducer19) 二次排序20) 倒排序索引21) 最優路徑22) 電信資料探勘之-----移動軌跡預測分析(中國稜鏡計劃)23) 社交好友推薦演算法24) 網際網路精準廣告推送 演算法25) 阿里巴巴天池大資料競賽 《天貓推薦演算法》案例26) Mapreduce實戰pagerank演算法27) Hadoop2.x叢集結構體系介紹28) Hadoop2.x叢集搭建29) NameNode的高可用性(HA)30) HDFS Federation31) ResourceManager 的高可用性(HA)32) Hadoop叢集常見問題和解決方法33) Hadoop叢集管理
  • 分散式資料庫Hbase
    1) HBase與RDBMS的對比2) 資料模型3) 系統架構4) HBase上的MapReduce5) 表的設計6) 叢集的搭建過程講解7) 叢集的監控8) 叢集的管理9) HBase Shell以及演示10) Hbase 樹形表設計11) Hbase 一對多 和 多對多 表設計12) Hbase 微博 案例13) Hbase 訂單案例14) Hbase表級優化15) Hbase 寫資料優化16) Hbase 讀資料優化
  • 資料倉庫Hive
    1) 資料倉庫基礎知識2) Hive定義3) Hive體系結構簡介4) Hive叢集5) 客戶端簡介6) HiveQL定義7) HiveQL與SQL的比較8) 資料型別9) 外部表和分割槽表10) ddl與CLI客戶端演示11) dml與CLI客戶端演示12) select與CLI客戶端演示13) Operators 和 functions與CLI客戶端演示14) Hive server2 與jdbc15) 使用者自定義函式(UDF 和 UDAF)的開發與演示16) Hive 優化
  • 資料遷移工具Sqoop
    1) 介紹 和 配置Sqoop2) Sqoop shell使用3) Sqoop-importa) DBMS-hdfsb) DBMS-hivec) DBMS-hbase4) Sqoop-export
  • Flume分散式日誌框架
    1) flume簡介-基礎知識2) flume安裝與測試3) flume部署方式4) flume source相關配置及測試5) flume sink相關配置及測試6) flume selector 相關配置與案例分析7) flume Sink Processors相關配置和案例分析8) flume Interceptors相關配置和案例分析9) flume AVRO Client開發10) flume 和kafka 的整合
  • Zookeeper開發
    1) Zookeeper java api開發2) Zookeeper rmi高可用分散式叢集開發3) Zookeeper redis高可用監控實現4) Netty 非同步io通訊框架5) Zookeeper實現netty分散式架構的高可用
  • 某一線公司的真實專案
    專案技術架構體系:a) Web專案和雲端計算專案的整合b) Flume通過avro實時收集web專案中的日誌c) 資料的ETLd) Hive 批量 sql執行e) Hive 自定義函式f) Hive和hbase整合。g) Hbase 資料支援 sql查詢分析h) Mapreduce資料探勘i) Hbase dao處理j) Sqoop 在專案中的使用。k) Mapreduce 定時呼叫和監控

大資料計算框架體系

  • Storm基礎
    • Storm是什麼
    • Storm架構分析
    • Storm程式設計模型、Tuple原始碼、併發度分析
    • Maven環境快速搭建
    • Storm WordCount案例及常用Api
    • Storm+Kafka+Redis業務指標計算
    • Storm叢集安裝部署
    • Storm原始碼下載編譯
  • Storm原理
    • Storm叢集啟動及原始碼分析
    • Storm任務提交及原始碼分析
    • Storm資料傳送流程分析
    • Strom通訊機制分析淺談
    • Storm訊息容錯機制及原始碼分析
    • Storm多stream專案分析
    • Storm Trident和感測器資料
    • 實時趨勢分析
    • Storm DRPC(分散式遠端呼叫)介紹
    • Storm DRPC實戰講解
    • 編寫自己的流式任務執行框架
  • 訊息佇列kafka
    • 訊息佇列是什麼
    • kafka核心元件
    • kafka叢集部署實戰及常用命令
    • kafka配置檔案梳理
    • kafka JavaApi學習
    • kafka檔案儲存機制分析
    • kafka的分佈與訂閱
    • kafka使用zookeeper進行協調管理
  • Redis
    • nosql介紹
    • redis介紹
    • redis安裝
    • 客戶端連線
    • redis的資料功能
    • redis持久化
    • redis應用案例
  • zookeper
    • Zookeeper簡介
    • Zookeeper叢集部署
    • zookeeper核心工作機制
    • Zookeeper命令列操作
    • Zookeeper客戶端API
    • Zookeeper應用案例
    • Zookeeper原理補充
  • 日誌告警系統專案實戰
    • 需求分析
    • 架構及功能設計
    • 資料採集功能開發及常見問題
    • 資料庫模型設計及開發
    • Storm程式設計及功能開發
    • 整合測試及執行
    • 優化升級及常見問題
  • 猜你喜歡推薦系統實戰
    • 推薦系統基礎知識
    • 推薦系統開發流程分析
    • mahout協同過濾Api使用
    • Java推薦引擎開發實戰
    • 推薦系統整合執行

雲端計算體系

  • Docker 課程
    • 基本介紹
    • vm docker 對比
    • docker基本架構介紹
    • unfs cgroup namespace
    • 程序虛擬化 輕量級虛擬化
    • docker 安裝
    • docker 映象製作
    • docker 常用命令
    • docker 映象遷移
    • docker pipework(i.openvswitch)
    • docker weave
  • ReactJS框架
    • 虛擬化介紹,虛擬化適用場景等等
    • Qemu Libvirt & KVM
    • 安裝KVM, Qemu, Libvirt
    • QEMU-KVM: 安裝第一個能上網的虛擬機器
    • Kvm虛擬機器 nat,網橋基本原理
    • kvm虛擬機器克隆
    • kvm虛擬機器vnc配置
    • kvm虛擬機器擴充套件磁碟空間
    • Kvm快照
    • Kvm 遷移
    • Java,python,c語言程式設計控制kvm
    • 構建自己的虛擬雲平臺
  • AngularJS框架
    • openstack介紹和模組基本原理分析
    • openstack多節點安裝部署(a.採用centos6.x系統)
    • Keystone基本原理
    • glance
    • Cinder
    • Swift
    • Neutron
    • Openstack api 二次開發

機器學習&&深度學習

  • R語言&&機器學習
    1) R語言介紹,基本函式,資料型別2) 線性迴歸3) 樸素貝葉斯聚類4) 決策樹分類5) k均值聚類a) 離群點檢測6) 關聯規則探索7) 神經網路
  • Mahout機器學習
    1) 介紹為什麼使用它,它的前景a) 簡單介紹Mahoutb) 簡單介紹機器學習c) 例項演示Mahout單機推薦程式2) 配置安裝(hadoop2.x版本的)編譯安裝步驟說明a) 命令列中測試執行協同過濾概念3) 推薦a) 講解基於使用者的協同過濾b) 講解基於物品的協同過濾4) 分類a) 分類概念b) 分類的應用及Mahout分類優勢c) 分類和聚類、推薦的區別d) 分類工作原理e) 分類中概念術語f) 分類專案工作流g) 如何定義預測變數h) 線性分類器的介紹,及貝葉斯分類器i) 決策樹分類器的介紹,及隨機森林分類器j) 如何使用貝葉斯分類器和隨機森林分類器的程式碼展示5) 聚類a) 聚類概念b) 聚類步驟流程c) 聚類中的距離測度d) 講解K-means聚類e) K-means聚類演算法展示f) 聚類其他演算法g) 介紹TF-IDFh) 歸一化i) 微博聚類案例
  • 專案實戰
    專案技術架構體系:a) 分散式平臺 Hadoop,MapReduceb) 資料採集 Flumec) 資料清洗 ETLd) 資料庫 Hbase,Redise) 機器學習 Mahout