java大資料學習路線

阿新 • • 發佈：2018-12-02

第一階段：大資料基礎Java語言基礎階段

1.1：Java開發介紹

1.1.1 Java的發展歷史

1.1.2 Java的應用領域

1.1.3 Java語言的特性

1.1.4 Java面向物件

1.1.5 Java效能分類

1.1.6 搭建Java環境

1.1.7 Java工作原理

1.2：熟悉Eclipse開發工具

1.2.1 Eclipse簡介與下載

1.2.2 安裝Eclipse的中文語言包

1.2.3 Eclipse的配置與啟動

1.2.4 Eclipse工作臺與檢視

1.2.5 “包資源管理器”檢視

1.2.6 使用Eclipse

1.2.7 使用編輯器編寫程式程式碼

1.3：Java語言基礎

1.3.1 Java主類結構

1.3.2 基本資料型別

1.3.3 變數與常量

1.3.4 Java運算子

1.3.5 資料型別轉換

1.3.6 程式碼註釋與編碼規範

1.3.7 Java幫助文件

1.4：Java流程控制

1.4.1 複合語句

1.4.2 條件語句

1.4.3 if條件語句

1.4.4 switch多分支語句

1.4.5 while迴圈語句

1.4.6 do…while迴圈語句

1.4.7 for迴圈語句

1.5：Java字串

1.5.1 String類

1.5.2 連線字串

1.5.3 獲取字串資訊

1.5.4 字串操作

1.5.5 格式化字串

1.5.6 使用正則表示式

1.5.7 字串生成器

1.6：Java陣列與類和物件

1.6.1 陣列概述

1.6.2 一維陣列的建立及使用

1.6.3 二維陣列的建立及使用

1.6.4 陣列的基本操作

1.6.5 陣列排序演算法

1.6.6 Java的類和構造方法

1.6.7 Java的物件、屬性和行為

1.7：數字處理類與核心技術

1.7.1 數字格式化與運算

1.7.2 隨機數與大資料運算

1.7.3 類的繼承與Object類

1.7.4 物件型別的轉換

1.7.5 使用instanceof操作符判斷物件型別

1.7.6 方法的過載與多型

1.7.7 抽象類與介面

1.8：I/O與反射、多執行緒

1.8.1 流概述與File類

1.8.2 檔案輸入/輸出流

1.8.3 快取輸入/輸出流

1.8.4 Class類與Java反射

1.8.5 Annotation功能型別資訊

1.8.6 列舉型別與泛型

1.8.7 建立、操作執行緒與執行緒安全

1.9：Swing程式與集合類

1.9.1 常用窗體

1.9.2 標籤元件與圖示

1.9.3 常用佈局管理器與面板

1.9.4 按鈕元件與列表元件

1.9.5 常用事件監聽器

1.9.6 集合類概述

1.9.7 Set集合與Map集合及介面

1.10：PC端網站佈局

1.10.1 HTML基礎，CSS基礎，CSS核心屬性

1.10.2 CSS樣式層疊，繼承，盒模型

1.10.3 容器，溢位及元素型別

1.10.4 瀏覽器相容與寬高自適應

1.10.5 定位，錨點與透明

1.10.6 圖片整合

1.10.7 表格，CSS屬性與濾鏡

1.10.8 CSS優化

1.11：HTML5+CSS3基礎

1.11.1 HTML5新增的元素與屬性

1.11.2 CSS3選擇器

1.11.3 文字字型相關樣式

1.11.4 CSS3位移與變形處理

1.11.5 CSS3 2D、3D轉換與動畫

1.11.6 彈性盒模型

1.11.7 媒體查詢

1.11.8 響應式設計

1.12：WebApp頁面佈局專案

1.12.1 移動端頁面設計規範

1.12.2 移動端切圖

1.12.3 文字流式/控制元件彈性/圖片等比例的佈局

1.12.4 等比縮放佈局

1.12.5 viewport/meta

1.12.6 rem/vw的使用

1.12.7 flexbox詳解

1.12.8 移動web特別樣式處理

1.13：原生JavaScript功能開發

1.13.1 什麼是JavaScript

1.13.2 JavaScript使用及運作原理

1.13.3 JavaScript基本語法

1.13.4 JavaScript內建物件

1.13.5 事件，事件原理

1.13.6 JavaScript基本特效製作

1.13.7 cookie儲存

1.13.8 正則表示式

1.14：Ajax非同步互動

1.14.1 Ajax概述與特徵

1.14.2 Ajax工作原理

1.14.3 XMLHttpRequest物件

1.14.4 同步與非同步

1.14.5 Ajax非同步互動

1.14.6 Ajax跨域問題

1.14.7 Ajax資料的處理

1.14.8 基於WebSocket和推送的實時互動

1.15：JQuery應用

1.15.1 各選擇器使用及應用優化

1.15.2 Dom節點的各種操作

1.15.3 事件處理、封裝、應用

1.15.4 jQuery中的各類動畫使用

1.15.5 可用性表單的開發

1.15.6 jQuery Ajax、函式、快取

1.15.7 jQuery編寫外掛、擴充套件、應用

1.15.8 理解模組式開發及應用

1.16：資料庫

1.16.1 Mysql資料庫

1.16.2 JDBC開發

1.16.3 連線池和DBUtils

1.16.4 Oracle介紹

1.16.5 MongoDB資料庫介紹

1.16.6 apache伺服器/Nginx伺服器

1.16.7 Memcached記憶體物件快取系統

1.17：JavaWeb開發核心

1.17.1 XML技術

1.17.2 HTTP協議

1.17.3 Servlet工作原理解析

1.17.4 深入理解Session與Cookie

1.17.5 Tomcat的系統架構與設計模式

1.17.6 JSP語法與內建物件

1.17.7 JDBC技術

1.17.8 大瀏覽量系統的靜態化架構設計

1.18：JavaWeb開發內幕

1.18.1 深入理解Web請求過程

1.18.2 Java I/O的工作機制

1.18.3 Java Web中文編碼

1.18.4 Javac編譯原理

1.18.5 class檔案結構

1.18.6 ClassLoader工作機制

1.18.7 JVM體系結構與工作方式

1.18.8 JVM記憶體管理

第二階段：Linux系統Hadoop生態體系

2.1：Linux體系(1)

2.1.1 VMware Workstation虛擬軟體安裝過程、CentOS虛擬機器安裝過程

2.1.2 瞭解機架伺服器，採用真實機架伺服器部署linux

2.1.3 Linux的常用命令：常用命令的介紹、常用命令的使用和練習

2.1.4 Linux系統程序管理基本原理及相關管理工具如ps、pkill、top、htop等的使用

2.1：Linux體系(2)

2.1.5 Linux啟動流程，執行級別詳解，chkconfig詳解

2.1.6 VI、VIM編輯器：VI、VIM編輯器的介紹、VI、VIM扥使用和常用快捷鍵

2.1.7 Linux使用者和組賬戶管理：使用者的管理、組管理

2.1.8 Linux磁碟管理，lvm邏輯卷，nfs詳解

2.1：Linux體系(3)

2.1.9 Linux系統檔案許可權管理：檔案許可權介紹、檔案許可權的操作

2.1.10 Linux的RPM軟體包管理：RPM包的介紹、RPM安裝、解除安裝等操作

2.1.11 yum命令，yum源搭建

2.1.12 Linux網路：Linux網路的介紹、Linux網路的配置和維護

2.1：Linux體系(4)

2.1.13 Shell程式設計：Shell的介紹、Shell指令碼的編寫

2.1.14 Linux上常見軟體的安裝：安裝JDK、安裝Tomcat、安裝mysql,web專案部署

2.2：Hadoop離線計算大綱(1)

2.2.1 Hadoop生態環境介紹

2.2.2 Hadoop雲端計算中的位置和關係

2.2.3 國內外Hadoop應用案例介紹

2.2.4 Hadoop 概念、版本、歷史

2.2.5 Hadoop 核心組成介紹及hdfs、mapreduce 體系結構

2.2.6 Hadoop 的叢集結構

2.2.7 Hadoop 偽分佈的詳細安裝步驟

2.2：Hadoop離線計算大綱(2)

2.2.8 通過命令列和瀏覽器觀察hadoop

2.2.9 HDFS底層&& datanode,namenode詳解&&shell&&Hdfs java api

2.2.10 Mapreduce四個階段介紹

2.2.11 Writable

2.2.12 InputSplit和OutputSplit

2.2.13 Maptask

2.2.14 Shuffle：Sort，Partitioner，Group,Combiner

2.2：Hadoop離線計算大綱(3)

2.2.15 Reducer

2.2.16 Mapreducer案例：1) 二次排序

2.2.17 倒排序索引

2.2.18 最優路徑

2.2.19 電信資料探勘之-----移動軌跡預測分析（中國稜鏡計劃）

2.2.20 社交好友推薦演算法

2.2.21 網際網路精準廣告推送演算法

2.2：Hadoop離線計算大綱(4)

2.2.22 阿里巴巴天池大資料競賽《天貓推薦演算法》

2.2.23 Mapreduce實戰pagerank演算法

2.2.24 Hadoop2.x叢集結構體系介紹

2.2.25 Hadoop2.x叢集搭建

2.2.26 NameNode的高可用性（HA）

2.2.27 HDFS Federation

2.2：Hadoop離線計算大綱(5)

2.2.28 ResourceManager 的高可用性（HA）

2.2.29 Hadoop叢集常見問題和解決方法

2.2.30 Hadoop叢集管理

2.3：分散式資料庫Hbase(1)

2.3.1 Hbase簡介

2.3.2 HBase與RDBMS的對比

2.3.3 資料模型

2.3.4 系統架構

2.3.5 HBase上的MapReduce

2.3.6 表的設計

2.3.7 叢集的搭建過程講解

2.3.8 叢集的監控

2.3：分散式資料庫Hbase(2)

2.3.9 叢集的管理

2.3.10 HBase Shell以及演示

2.3.11 Hbase 樹形表設計

2.3.12 Hbase 一對多和多對多表設計

2.3.13 Hbase 微博案例

2.3.14 Hbase 訂單案例

2.3.15 Hbase表級優化

2.3：分散式資料庫Hbase(3)

2.3.16 Hbase 寫資料優化

2.3.17 Hbase 讀資料優化

2.3.18 Hbase API操作

2.3.19 hbase mapdreduce 和hive 整合

2.4：資料倉庫Hive(1)

2.4.1 資料倉庫基礎知識

2.4.2 Hive定義

2.4.3Hive體系結構簡介

2.4.4 Hive叢集

2.4.5客戶端簡介

2.4.6 HiveQL定義

2.4.7 HiveQL與SQL的比較

2.4.8 資料型別

2.4：資料倉庫Hive(2)

2.4.9 外部表和分割槽表

2.4.10 ddl與CLI客戶端演示

2.4.11 dml與CLI客戶端演示

2.4.12 select與CLI客戶端演示

2.4.13 Operators 和 functions與CLI客戶端演示

2.4.14 Hive server2 與jdbc

2.4：資料倉庫Hive(3)

2.4.15 使用者自定義函式（UDF 和 UDAF）的開發與演示

2.4.16 Hive 優化

2.4.17 serde

2.5：資料遷移工具Sqoop

2.5.1 Sqoop簡介以及使用

2.5.2 Sqoop shell使用

2.5.3 Sqoop-import

2.5.4 DBMS-hdfs

2.5.5 DBMS-hive

2.5.6 DBMS-hbase

2.5.7 Sqoop-export

2.6：Flume分散式日誌框架(1)

2.6.1 flume簡介-基礎知識 2.6.2 flume安裝與測試

2.6.3 flume部署方式

2.6.4 flume source相關配置及測試

2.6.5 flume sink相關配置及測試

2.6.6 flume selector 相關配置與案例分析

2.6.7 flume Sink Processors相關配置和案例分析

2.6：Flume分散式日誌框架(2)

2.6.8 flume Interceptors相關配置和案例分析

2.6.9 flume AVRO Client開發

2.6.10 flume 和kafka 的整合

第三階段：分散式計算框架：Spark&Storm生態體系

3.1：Scala程式語言(1)

3.1.1 scala直譯器、變數、常用資料型別等

3.1.2 scala的條件表示式、輸入輸出、迴圈等控制結構

3.1.3 scala的函式、預設引數、變長引數等

3.1.4 scala的陣列、變長陣列、多維陣列等

3.1.5 scala的對映、元組等操作

3.1.6 scala的類，包括bean屬性、輔助構造器、主構造器等

3.1：Scala程式語言(2)

3.1.7 scala的物件、單例物件、伴生物件、擴充套件類、apply方法等

3.1.8 scala的包、引入、繼承等概念

3.1.9 scala的特質

3.1.10 scala的操作符

3.1.11 scala的高階函式

3.1.12 scala的集合

3.1.13 scala資料庫連線

3.2：Spark大資料處理(1)

3.2.1 Spark介紹

3.2.2 Spark應用場景

3.2.3 Spark和Hadoop MR、Storm的比較和優勢

3.2.4 RDD

3.2.5 Transformation

3.2.6 Action

3.2.7 Spark計算PageRank

3.2：Spark大資料處理(2)

3.2.8 Lineage

3.2.9 Spark模型簡介

3.2.10 Spark快取策略和容錯處理

3.2.11 寬依賴與窄依賴

3.2.12 Spark配置講解

3.2.13 Spark叢集搭建

3.2.15 叢集搭建常見問題解決

3.2.16 Spark原理核心元件和常用RDD

3.2：Spark大資料處理(3)

3.2.17 資料本地性

3.2.18 任務排程

3.2.19 DAGScheduler

3.2.20 TaskScheduler

3.2.21 Spark原始碼解讀

3.2.22 效能調優

3.2.23 Spark和Hadoop2.x整合：Spark on Yarn原理

3.3：Spark—Streaming大資料實時處理

3.3.1 Spark Streaming：資料來源和DStream

3.3.2 無狀態transformation與有狀態transformation

3.3.3 Streaming Window的操作

3.3.4 sparksql 程式設計實戰

3.3.5 spark的多語言操作

3.3.6 spark最新版本的新特性

3.4：Spark—Mlib機器學習(1)

3.4.1 Mlib簡介

3.4.2 Spark MLlib元件介紹

3.4.3 基本資料型別

3.4.4 迴歸演算法

3.4.5 廣義線性模型

3.4.6 邏輯迴歸

3.4.7 分類演算法

3.4.8 樸素貝葉斯

3.4：Spark—Mlib機器學習(2)

3.4.9 決策樹

3.4.10 隨機森林

3.4.11 推薦系統

3.4.12 聚類

a) Kmeans b) Sparse kmeans

c) Kmeans++ d) Kmeans II

e) Streaming kmeans

f) Gaussian Mixture Model

3.5：Spark—GraphX 圖計算

3.5.1 二分圖

3.5.2 概述

3.5.3 構造圖

3.5.4 屬性圖

3.5.5 PageRank

3.6：storm技術架構體系(1)

3.6.1 專案技術架構體系

3.6.2 Storm是什麼

3.6.3 Storm架構分析

3.6.4 Storm程式設計模型、Tuple原始碼、併發度分析

3.2.5 Transformation

3.6：storm技術架構體系(2)

3.6.6 Maven環境快速搭建

3.6.7 Storm WordCount案例及常用Api

3.6.8 Storm+Kafka+Redis業務指標計算

3.6.9 Storm叢集安裝部署

3.6.10 Storm原始碼下載編譯

3.7：Storm原理與基礎(1)

3.7.1 Storm叢集啟動及原始碼分析

3.7.2 Storm任務提交及原始碼分析

3.7.3 Storm資料傳送流程分析

3.7.4 Strom通訊機制分析淺談

3.7.5 Storm訊息容錯機制及原始碼分析

3.7.6 Storm多stream專案分析

3.7.7 Storm Trident和感測器資料

3.7：Storm原理與基礎(2)

3.7.8 實時趨勢分析

3.8.9 Storm DRPC(分散式遠端呼叫)介紹

3.7.10 Storm DRPC實戰講解

3.7.11 編寫自己的流式任務執行框架

3.8：訊息佇列kafka

3.8.1 訊息佇列是什麼

3.8.2 kafka核心元件

3.8.3 kafka叢集部署實戰及常用命令

3.8.4 kafka配置檔案梳理

3.8.5 kafka JavaApi學習

3.8.6 kafka檔案儲存機制分析

3.8.7 kafka的分佈與訂閱

3.8.8 kafka使用zookeeper進行協調管理

3.9：Redis工具

3.9.1 nosql介紹

3.9.2 redis介紹

3.9.3 redis安裝

3.9.4 客戶端連線

3.9.5 redis的資料功能

3.9.6 redis持久化

3.9.7 redis應用案例

3.10：zookeeper詳解

3.10.1 zookeeper簡介

3.10.2 zookeeper的叢集部署

3.10.3 zookeeper的核心工作機制

3.10.4 zookeeper的命令列操作

3.10.5 zookeeper的客戶端API

3.10.6 zookeeper的應用案例

3.10.7 zookeeper的原理補充

第四階段：大資料專案實戰

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(1)

4.1.1專案介紹(1)

淘寶網站的日誌分析和訂單管理在實戰中學習，技術點非常多，一個訪客（UV）點選進入後計算的一個流量，同時也有瀏覽量（PV）指的是一個訪客（UV）在店內所瀏覽的次數。一個UV最少產生一個PV，PV/UV就是俗稱的訪問深度，一個訪客

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(2)

4.1.1專案介紹(2)

（UV）在店內所瀏覽的次數。一個UV最少產生一個PV，PV/UV就是俗稱的訪問深度，一個訪客（UV）點選進入後計算的一個流量，同時也有瀏覽量（PV）指的是一個訪客（UV）在店內所瀏覽的次數。一個UV最少產生一個PV，PV/UV就是俗稱的訪問深度

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(3)

4.1.1專案介紹(3)

影響自然排名自然搜尋的叫權重，權重是決定一個產品是否排在前面獲得更多流量的決定性因素，權重的構成多達幾十種，通常影響權重的有銷量，好評，收藏，DSR，維護時間，下架時間這類。

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(4)

4.1.2專案特色

怎樣實際運用這些點是我們在自學過程中體驗不到的。Cookie日誌分析包括：pv、uv，跳出率，二跳率、廣告轉化率、搜尋引擎優化等，訂單模組有：產品推薦，商家排名，歷史訂單查詢，訂單報表統計等。

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(5)

4.1.3 專案架構

SDK（JavaaSDK、JSSDK）+

lvs+nginx叢集+flume+

hdfs2.x+hive+hbase+MR+MySQL

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(6)

4.1.4 專案流程(1)

a) 資料獲取：Web專案和雲端計算項目的整合

b) 資料處理：Flume通過avro實時收集web專案中的日誌

c) 資料的ETL

d) 資料展儲存：Hive 批量 sql執行 e) Hive 自定義函式

4.1：阿里巴巴的淘寶電商的大資料流量分析平臺(7)

4.1.4 專案流程(2)

f) Hive和hbase整合。

g) Hbase 資料支援 sql查詢分析

h) 資料分析：資料Mapreduce數據挖掘

i) Hbase dao處理

j) Sqoop 在專案中的使用。

k) 資料視覺化：Mapreduce定時呼叫和監控

4.2：實戰一：Sina微博基於Spark的推薦系統(1)

4.2.1 專案介紹(1)

個性化推薦是根據使用者的興趣特點和購買行為，向用戶推薦使用者感興趣的資訊和商品。隨著電子商務規模的不斷擴大，商品個數和種類快速增長，顧客需要花費大量的時間才能找到自己想買的商品。這種瀏覽大量無關的資訊和產品過程無疑會使淹沒在資訊過載

4.2：實戰一：Sina微博基於Spark的推薦系統(2)

4.2.1 專案介紹(2)

問題中的消費者不斷流失。為了解決這些問題，個性化推薦系統應運而生。個性化推薦系統是建立在海量資料探勘基礎上的一種高階商務智慧平臺，以幫助電子商務網站為其顧客購物提供完全個性化的決策支援和資訊服務

4.2：實戰一：Sina微博基於Spark的推薦系統(3)

4.2.2 專案特色(1)

推薦系統是個複雜的系統工程，依賴工程、架構、演算法的有機結合，是資料探勘技術、資訊檢索技術、計算統計學的智慧結晶，學員只有親手動手才能體會推薦系統的各個環節，才能對各種推薦演算法的優缺點有真實的感受。一方面可以很熟練的完成簡單的

4.2：實戰一：Sina微博基於Spark的推薦系統(4)

4.2.2 專案特色(2)

推薦演算法，如content-based、

item-based CF 等。另一方面

要掌握一些常見的推薦演算法庫，

如：SvdFeature、LibFM、

Mathout、Mlib等。

4.2：實戰一：Sina微博基於Spark的推薦系統(5)

4.2.3 專案技術架構體系(1)

a) 實時流處理 Kafka，Spark Streaming

b) 分散式運算 Hadoop，Spark

c) 資料庫 Hbase，Redis

d) 機器學習 Spark Mllib

e) 前臺web展示資料 Struts2， echart

4.2：實戰一：Sina微博基於Spark的推薦系統(6)

4.2.3 專案技術架構體系(2)

f) 分散式平臺 Hadoop，Spark

g) 資料清洗 Hive

h) 資料分析 R RStudio

i) 推薦服務 Dubbox

j) 規則過濾 Drools

k) 機器學習 MLlib

4.3：實戰二：Sina門戶的DSP廣告投放系統(1)

4.3.1 專案介紹

新浪網（www.sina.com.cn），

是知名的入口網站，該專案主要通

過收集新浪的Cookie每個產生的日

志，分析統計出該網站的流量相關

資訊和競價廣告位

4.3：實戰二：Sina門戶的DSP廣告投放系統(2)

4.3.2 專案特色

在網際網路江湖中，始終流傳著三大賺錢法寶：廣告、遊戲、電商，在移動網際網路興起之際，利用其得天獨厚的資料優勢，終於能夠回答困擾了廣告主幾百年的問題：我的廣告究竟被誰看到了？浪費的一半的錢到底去了哪裡？

4.3：實戰二：Sina門戶的DSP廣告投放系統(3)

4.3.3 專案技術架構體系(1)

a)通過flume把日誌資料匯入到 HDFS中，使用hive進行資料清洗 b)提供web檢視供使用者使用，輸入查詢任務引數，寫入MySQL c)使用spark根據使用者提交的任務引數，進行session分析，進行單挑率分析

4.3：實戰二：Sina門戶的DSP廣告投放系統(4)

4.3.3 專案技術架構體系(2)

d)使用spark sql進行各型別熱門廣告統計 e)使用 flume將廣告點選日誌傳入kafka，使用spark streaming 進行廣告點選率的統計 f)web頁面顯示MySQL中儲存的任務執行結果

4.4：實戰三：商務日誌告警系統專案(1)

4.4.1 專案介紹(1)

基於的日誌進行監控，監控需要一定規則，對觸發監控規則的日誌資訊進行告警，告警的方式，是簡訊和郵件，隨著公司業務發展，支撐公司業務的各種系統越來越多，為了保證公司的業務正常發展，急需要對這些線上系統的執行進

4.4：實戰三：商務日誌告警系統專案(2)

4.4.1 專案介紹(2)

行監控，做到問題的及時發現和處理，最大程度減少對業務的影響。

4.4.2 專案特色(1)

整體架構設計很完善, 主要架構為應用 a)應用程式使用log4j產生日誌

b)部署flume客戶

4.4：實戰三：商務日誌告警系統專案(3)

4.4.2 專案特色(2)

端監控應用程式產生的日誌資訊，併發送到kafka叢集中

c)storm spout拉去kafka的資料進行消費，逐條過濾每條日誌的進行規則判斷，對符合規則的日誌進行郵件告警。

4.4：實戰三：商務日誌告警系統專案(4)

4.4.2 專案特色(3)

d)最後將告警的資訊儲存到mysql數據庫中，用來進行管理。

4.4.3 專案技術架構體系

a）推薦系統基礎知識 b）推薦系統開發流程分析 c）mahout協同過濾Api使用 d）Java推薦引擎開發實戰 e）推薦系統整合執行

4.5：實戰四：網際網路猜你喜歡推薦系統實戰(1)

4.5.1 專案介紹(1)

到網上購物的人已經習慣了收到系統為他們做出的個性化推薦。Netflix 會推薦你可能會喜歡看的視訊。TiVo會自動把節目錄下來，如果你感興趣就可以看。 Pandora會通過預測我們想要聽什麼歌曲從而生成個性化的音樂流。所有這些

4.5：實戰四：網際網路猜你喜歡推薦系統實戰(2)

4.5.1 專案介紹(2)

推薦結果都來自於各式各樣的推薦系統。它們依靠計算機演算法執行，根據顧客的瀏覽、搜尋、下單和喜好，為顧客選擇他們可能會喜歡、有可能會購買的商品，從而為消費者服務。推薦系統的設計初衷是幫助線上零售商提高銷售額，現在這是一塊兒規模巨大且

4.5：實戰四：網際網路猜你喜歡推薦系統實戰(3)

4.5.1 專案介紹(3)

不斷增長的業務。與此同時，推薦系統的開發也已經從上世紀 90 年代中期只有幾十個人研究，發展到了今天擁有數百名研究人員，分別供職於各高校、大型線上零售商和數十家專注於這類系統的其他企業。

4.5：實戰四：網際網路猜你喜歡推薦系統實戰(4)

4.5.2 專案特色(1)

有沒有想過自己在亞馬遜眼中是什麼樣子?答案是：你是一個很大、很大的表格裡一串很長的數字。這串數字描述了你所看過的每一樣東西，你點擊的每一個連結以及你在亞馬遜網站上買的每一件商品;表格裡的其餘部

4.5：實戰四：網際網路猜你喜歡推薦系統實戰(5)

4.5.2 專案特色(2)

分則代表了其他數百萬到亞馬遜購物的人。你每次登陸網站，你的數字就會發生改變;在此期間，你在網站上每動一下，這個數字就會跟著改變。這個資訊又會反過來影響你在訪問的每個頁面上會看到什麼，還有你會從亞馬遜公司收到什麼郵件和優惠資訊。

4.5：實戰四：網際網路猜你喜歡推薦系統實戰(6)

4.5.3 專案技術架構體系

a）推薦系統基礎知識

b）推薦系統開發流程分析

c）mahout協同過濾Api使用

d）Java推薦引擎開發實戰

e）推薦系統整合執行

第五階段：大資料分析方向AI(人工智慧)

5.1 Python程式設計&&Data Analyze工作環境準備&資料分析基礎(1)

5.1.1介紹Python以及特點

5.1.2 Python的安裝

5.1.3 Python基本操作（註釋、邏輯、字串使用等）

5.1.4 Python資料結構（元組、列表、字典）

5.1 Python程式設計&&Data Analyze工作環境準備&資料分析基礎(2)

5.1.5 使用Python進行批量重新命名小例子

5.1.6 Python常見內建函式

5.1.7 更多Python函式及使用常見技巧

5.1.8 異常

5.1.9 Python函式的引數講解

5.1.10 Python模組的匯入

5.1 Python程式設計&&Data Analyze工作環境準備&資料分析基礎(3)

5.1.11 Python中的類與繼承

5.1.12 網路爬蟲案例

5.1.13 資料庫連線，以及pip安裝模組

5.1.14 Mongodb基礎入門

5.1.15 講解如何連線mongodb

5.1.16 Python的機器學習案例

5.1 Python程式設計&&Data Analyze工作環境準備&資料分析基礎(4)

5.1.17 AI&&機器學習&&深度學習概論

5.1.18 工作環境準備

5.1.19 資料分析中常用的Python技巧

5.1.20 Pandas進階及技巧

5.1.21 資料的統計分析

5.2：資料視覺化

5.2.1 資料視覺化的概念

5.2.2 圖表的繪製及視覺化

5.2.3 動畫及互動渲染

5.2.4 資料合併、分組

5.3：Python機器學習-1(1)

5.3.1 機器學習的基本概念

5.3.2 ML工作流程

5.3.3 Python機器學習庫scikit-learn

5.3.4 KNN模型

5.3.5 線性迴歸模型

5.3.6 邏輯迴歸模型

5.3.7 支援向量機模型

5.3：Python機器學習-1(2)

5.3.8 決策樹模型

5.3.9 超引數&&學習引數

5.4：Python機器學習-2

5.4.1 模型評價指標

5.4.2 交叉驗證

5.4.3 機器學習經典演算法

5.4.4 樸素貝葉斯

5.4.5 隨機森林

5.4.6 GBDT

5.5：影象識別&&神經網路

5.5.1 影象操作的工作流程

5.5.2 特徵工程

5.5.3 影象特徵描述

5.5.4 AI網路的描述

5.5.5 深度學習

5.5.6 TensorFlow框架學習

5.5.7 TensorFlow框架卷積神經網路（CNN）

5.6：自然語言處理&&社交網路處理

5.6.1 Python文字資料處理

5.6.2 自然語言處理及NLTK

5.6.3 主題模型

5.6.4 LDA

5.6.5 圖論簡介

5.6.6 網路的操作及資料視覺化

---------------------
作者：程式設計師日常
來源：CSDN
原文：https://blog.csdn.net/ygcxydzx/article/details/82781572
版權宣告：本文為博主原創文章，轉載請附上博文連結！

java大資料學習路線

入門到精通：資深程式設計師規劃JAVA大資料學習路線（附視訊教程）

java大資料學習路線

JAVA 大資料學習路線

阿里年薪50萬的JAVA工程師轉大資料學習路線！

大資料學習路線是什麼？學大資料需要什麼基礎？

大資料學習路線是什麼，小白如何學大資料？

大資料學習路線指導，告訴你如何學習大資料

大資料學習路線讓你精準掌握大資料技術學習

大資料學習路線總結

小白如何學習大資料開發，大資料學習路線是怎樣的？

大資料學習路線（轉載）

大資料學習路線：Zookeeper叢集管理與選舉

大資料學習路線，適合新手學的的，讓你成為年薪30萬的

如何學習大資料？首先你需要一條這樣的大資料學習路線

零基礎轉行大資料怎麼學習？大資料學習路線

適合零基礎學員的大資料學習路線

大資料學習路線指南（最全知識點總結）

Java大資料學習

小白大資料學習路線

大資料入門的知識體系，大資料學習路線

java大資料學習路線

相關推薦