1. 程式人生 > >給想進入大資料行業的朋友的建議(三)

給想進入大資料行業的朋友的建議(三)

我們在上一篇文章中給大家介紹了資料的收集需要學到的知識,想進入大資料行業需要學的知識還有很多。今天在這篇文章中我們給大家介紹資料的傳輸以及資料的儲存方面需要學的知識。

在資料的傳輸方面,我們需要知道資料的傳輸到底在什麼時候開始呢?在上一篇文章中我們給大家介紹了資料上報,在大資料模式下,通常上報過來的資料因為涉及到不同部分其效率不一樣,都不會馬上執行的,所以,資料的傳輸在大資料領域中有著不可替代的左右,會出現在各種系統耦合之間,一方面用作資料的傳輸,另一方面用作資料的緩衝。這句需要我們學習Hadoop的應用了。這是因為在hadoop生態中,kafka與flume的組合搭配是十分適合資料傳輸的,收集資料,並進行資料傳輸,此外還有不少類似的訊息佇列存在,在這裡,我們需要理解的就是,為什麼要引入這麼一層元件,只有知道了這些我們才能夠更好的做好資料的傳輸。

然後我們說收資料的儲存,資料的儲存在大資料方面是十分重要的,而在Hadoop生態中最核心的儲存元件莫過於HDFS了,這是支撐hadoop能夠做大批量資料處理的基礎支撐,便捷而強悍的橫向擴充套件能力。當然我們不能忽略的傳統型別的SQL儲存方式。不同的儲存方式應對於實際的應用場景是不同的,HDFS是最基礎的分散式檔案系統,Hive其更作用更多用於類傳統式的SQL查詢操作,其對於效應效率要求並不高,但對於資料規模的支撐性良好;而HBase則更偏向於即席查詢,要求有更高的響應效率,但對於查詢的複雜性支援上則相對較弱。 而ES、Solr都也勉強算是一種資料儲存的組織方式,其實也是有一定道理的,因為他們本身也支援這種分散式的資料儲存,只不過他們是為了應對於自己框架的檢索需求而設計的資料儲存組織。Redis也算是目前大資料生態中不可缺少的資料儲存方式之一,基於內容,應對於高效的資料儲存與讀取,在很多的實際應用場景中都用的到。這就需要我們根據不同的情況選擇出不同的方式進行資料的儲存。

以上的內容就是我們給大家介紹的有關資料傳輸方面以及資料的儲存方面的相關知識的學習了,希望這篇文章能夠給大家帶來幫助,我們在下一篇文章中給大家介紹更多的內容。