1. 程式人生 > >學大資料開發必經之路

學大資料開發必經之路

大資料大資料,個個都在喊 但究竟什麼是大資料開發,如何成為一個大資料開發工程師?

大資料通用處理平臺

1. Spark

2. Flink

3. Hadoop

分散式儲存

HDFS

資源排程

Yarn

Mesos

機器學習工具

Mahout

1. Spark Mlib

2. TensorFlow (Google 系)

3. Amazon Machine Learning

4. DMTK (微軟分散式機器學習工具)

資料分析/資料倉庫(SQL類)

1. Pig

2. Hive

3. kylin

4. Spark SQL,

5. Spark DataFrame

6. Impala

7. Phoenix

8. ELK

8.1 ElasticSearch

8.2Logstash

8.3Kibana

訊息佇列

1. Kafka(純日誌類,大吞吐量)

2. RocketMQ

3. ZeroMQ

4. ActiveMQ

5. RabbitMQ

流式計算

1. Storm/JStorm

2. Spark Streaming

3. Flink

日誌收集

Scribe

Flume

程式語言

1. Java

2. Python

3. R

4. Ruby

5. Scala

資料分析挖掘

MATLAB

SPSS

SAS

我還是要推薦下我自己建立的大資料資料分享群142973723,這是大資料學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合零基礎學習大資料資料和入門教程。

資料視覺化

1. R

2. D3.js

3. ECharts

4. Excle

5. Python

機器學習

機器學習基礎

1. 聚類

2. 時間序列

3. 推薦系統

4. 迴歸分析

5. 文字挖掘

6. 決策樹

7. 支援向量機

8. 貝葉斯分類

9. 神經網路

機器學習工具

1. Mahout

2. Spark Mlib

3. TensorFlow (Google 系)

4. Amazon Machine Learning

5. DMTK (微軟分散式機器學習工具)

演算法

一致性

1. paxos

2. raft

3. gossip

資料結構

1. 棧,佇列,連結串列

2. 散列表

3. 二叉樹,紅黑樹,B樹

4. 圖

常用演算法

1.排序

插入排序

桶排序

堆排序

2.快速排序

3,最大子陣列

4.最長公共子序列

5.最小生成樹

最短路徑

6.矩陣的儲存和運算

雲端計算

雲服務

1. SaaS

2. PaaS

3. IaaS

4. Openstack

5. Docker