1. 程式人生 > >大資料都學什麼?(初學者)

大資料都學什麼?(初學者)

一、學習大資料需要的基礎

    java SE,EE(SSM)
        90%的大資料框架都是java寫的
    MySQL
        SQL on Hadoop
    Linux
        大資料的框架安裝在Linux作業系統上

二、需要學什麼

    第一方面:大資料離線分析

        一般處理T+1資料
            Hadoop 2.X:(common、HDFS、MapReduce、YARN)
                環境搭建,處理資料的思想
            Hive:
                大資料資料倉庫
                通過寫SQL對資料進行操作,類似於mysql資料庫中的sql
            HBase
                基於HDFS的NOSQL資料庫
                面向列的儲存
                
            協作框架:
                sqoop(橋樑:HDFS 《==》RDBMS)
                flume:收集日誌檔案中資訊
                
                排程框架anzkaban,瞭解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
            
            擴充套件前沿框架:
                kylin、impala、ElasticSearch(ES)

    注意:關於第一方面的內容我的另一篇部落格有詳細的總結(是我搜索大量網上資料所得,可以幫你省下不少時間)

    第二方面:大資料實時分析

            以spark框架為主
            Scala:OOP + FP
            sparkCore:類比MapReduce
            sparkSQL:類比hive
            sparkStreaming:實時資料處理
            kafka:訊息佇列
        前沿框架擴充套件:flink  
            阿里巴巴 blink
   

    第三方面:大資料機器學習(擴充套件)

            spark MLlib:機器學習庫
            pyspark程式設計:Python和spark的結合
            推薦系統
            python資料分析

            Python機器學習

大資料框架安裝功能來劃分

    海量資料儲存:

        HDFS、Hive(本質儲存資料還是hdfs)、HBASE、ES

    海量資料分析:

        MapReduce、Spark、SQL

最原始的Hadoop框架

    資料儲存:HDFS(Hadoop Distributed File System)
    資料分析:MapReduce

Hadoop的起源

    Google的三篇論文

    雖然Google沒有公佈這三個產品的原始碼,
    但是他釋出了這三個產品的詳細設計論文,
    奠定了風靡全球的大資料演算法的基礎!

        Google FS        HDFS
        MapReduce        MapReduce
        BigTable        HBase

    將任務分解然後在多臺處理能力較弱的計算節點中同時處理,然後將結果合併從而完成大資料處理。
    
    google:android,搜尋,大資料框架,人工智慧框架
    pagerank
    

Hadoop介紹

    大資料絕大多數框架,都屬於Apache頂級專案
    http://apache.org/
    hadoop官網:
    http://hadoop.apache.org/
    
分散式
    相對於【集中式】
    需要多臺機器,進行協助完成。
    
    元資料:記錄資料的資料
    架構:
        主節點Master    老大,管理者
            管理
        從節點Slave    從屬,奴隸,被管理者
            幹活

Hadoop也是分散式架構

    common

    HDFS:

        主節點:NameNode
            決定著資料儲存到那個DataNode上
        從節點:DataNode
            儲存資料
            

    MapReduce:

        分而治之思想
        將海量的資料劃分為多個部分,每部分資料進行單獨的處理,最後將所有結果進行合併
        map task
            單獨處理每一部分的資料、
            
        reduce task
            合併map task的輸出
        

    YARN:

        分散式叢集資源管理框架,管理者叢集的資源(Memory,cpu core)
        合理排程分配給各個程式(MapReduce)使用
        主節點:resourceManager
            掌管叢集中的資源
        從節點:nodeManager
            管理每臺叢集資源
        

    總結:Hadoop的安裝部署

        都屬於java程序,就是啟動了JVM程序,執行服務。
        HDFS:儲存資料,提供分析的資料
            NameNode/DataNode
        YARN:提供程式執行的資源

            ResourceManager/NodeManager

相關推薦

資料什麼?初學者

一、學習大資料需要的基礎    java SE,EE(SSM)        90%的大資料框架都是java寫的    MySQL        SQL on Hadoop    Linux        大資料的框架安裝在Linux作業系統上二、需要學什麼    第一方面:

資料重新定義未來,2018 中國資料技術大會BDTC豪華盛宴搶先看!

隨著資訊科技的迅猛發展,資料的重要性和價值已毋庸置疑,資料正在改變競爭格局,成為重要的生產因素,更被定義為“21世紀的新石油”。在資訊高速傳播的今天,資料已經滲透到每一個行業和業務職能領域,指數級的速度增長將我們帶入大資料時代。作為年度技術趨勢與行業應用的風向標,2018 中國大資料技術大會(BDT

資料之Spark--- Spark的SQL模組,Spark的JDBC實現,SparkSQL整合MySQL,SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

資料之Spark--- Dependency依賴,啟動模式,shuffle,RDD持久化,變數傳遞,共享變數,分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

資料之Spark--- Spark核心API,Spark術語,Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

資料之Spark--- RDD,RDD變換,RDD的Action,解決spark的資料傾斜問題,spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

資料之Spark--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

資料之scala --- 模式匹配,變數宣告模式,樣例類,偏函式,泛型,型變,逆變,隱式轉換,隱式引數

一、模式匹配:當滿足case條件,就終止 ---------------------------------------------------------- 1.更好的switch var x = '9'; x match{ case

資料之scala --- 類的檢查、轉換、繼承,檔案,特質trait,操作符,apply,update,unapply,高階函式,柯里化,控制抽象,集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

資料之scala --- 對映,元組,簡單類,內部類,物件Object,Idea中安裝scala外掛,trait特質[介面],包和包的匯入

一、對映<Map> ----------------------------------------------------- 1.建立一個不可變的對映Map<k,v> ==> Map(k -> v) scala> val map

資料之scala --- 安裝scala,簡單語法介紹,條件表示式,輸入和輸出,迴圈,函式,過程,lazy ,異常,陣列

一、安裝和執行Scala解釋程式 --------------------------------------------- 1.下載scala-2.11.7.msi 2.管理員執行--安裝 3.進入scala/bin,找到scala.bat,管理員執行,進入scala命

Java和資料結合學習2

抽象類 1.abstract宣告; 為什麼介面的物件可以指向例項化物件呢? 介面 1.介面不能例項化,但是介面的物件可以指向實現類的物件。 2.介面內的方法預設為public abstract,所以不能被例項化, 3.介面其實就是為了實現多繼承

資料學習路線轉載

學習路線文章 哎,都是淚!!! 一、大資料技術基礎 1、linux操作基礎 linux系統簡介與安裝 linux常用命令–檔案操作 linux常用命令–使用者管理與許可權 linux常用命令–系統管理 linux常用命令–免密登陸配置與網路管理 linux上常用軟體安裝 linux本地yum源配置及yum

資料之Spark--- Spark機器學習,樸素貝葉斯,酒水評估和分類案例學習,垃圾郵件過濾學習案例,電商商品推薦,電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集,產生一個推斷函式

資料之Spark--- Spark Streaming介紹,DStream,Receiver,Streamin整合Kafka,Windows,容錯的實現

一、Spark Streaming介紹 ----------------------------------------------------------- 1.介紹 是spark core的擴充套件,針對實時資料的實時流處理技術 具有可擴充套件、高吞吐量、

資料之Spark--- Spark閉包處理,部署模式和叢集模式,SparkOnYarn模式,高可用,Spark整合Hive訪問hbase類載入等異常解決,使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。 分割槽列表,function,dep Op

盛會再臨,2018 中國資料技術大會BDTC首曝日程及議題

滿目皆乾貨,俯仰盡拾珠。作為年度技術趨勢與行業應用的風向標,連續成功舉辦十一年的中國大資料技術大會(BDTC)攜主題“大資料新應用”再度強勢來襲,穩踏技術時代浪潮,勢將引爆今冬技術圈。 資料,讓一切有跡可循,讓一切有源可溯。2018 年12 月 6-8 日,由中國計算

八折進行中 | 2018 中國資料技術大會BDTC首輪講師陣容震撼來襲!

暌違一載,今又相約。作為年度技術趨勢與行業應用的風向標,2018 中國大資料技術大會(BDTC 2018)攜主題“大資料新應用”再度強勢來襲,穩踏技術時代浪潮,勢將引爆今冬技術圈。 2018 年12 月 6-8 日,由中國計算機學會主辦,CCF大資料專家委員會承辦,CS

流式資料計算實踐2----Hadoop叢集和Zookeeper

一、前言 1、上一文搭建好了Hadoop單機模式,這一文繼續搭建Hadoop叢集 二、搭建Hadoop叢集 1、根據上文的流程得到兩臺單機模式的機器,並保證兩臺單機模式正常啟動,記得第二臺機器core-site.xml內的fs.defaultFS引數值要改成本機的來啟動,啟動完畢後再改回來 2、清空資

流式資料計算實踐3----高可用的Hadoop叢集

流式大資料計算實踐(3)----高可用的Hadoop叢集 一、前言 1、上文中我們已經搭建好了Hadoop和Zookeeper的叢集,這一文來將Hadoop叢集變得高可用 2、由於Hadoop叢集是主從節點的模式,如果叢集中的namenode主節點掛掉,那麼叢集就會癱瘓,所以我們要改造成