1. 程式人生 > >好程式設計師大資料高階班分享10個大資料專業術語

好程式設計師大資料高階班分享10個大資料專業術語

  好程式設計師大資料高階班分享10個大資料專業術語,大資料就業市場供小於求,人才高度緊缺,企業需求量大!IT行業圈子極大,工程師種類亦是繁多,為什麼大家偏偏還要選擇大資料呢?大資料時代波瀾正興,同學們站在時代前沿,又該如何爭先未來!好程式設計師今日盤點,大資料10大專業術語,小白快快看過來!

 

1.演算法。“演算法”與大資料有何淵源?事實上,演算法是一個通用的術語,正是大資料分析才使得它備受大家青睞併火速流行。

 

2.分析。年底大家最為期待的交易清單就可做此分析。來自各大信用卡公司郵寄來的全年的交易記錄和年終報表,都可以進一步分析大家一年的消費情況以及各種支出的佔比。當大家從資料中吸取經驗,便可對未來的消費支出做成充分決策。

 

3.描述性分析。顯而易見,我們可從一年信用卡的消費詳情上得出結論,食物上花費了25%、在服裝上花費了35%、娛樂活動上花費了20%、剩下的就是其他事項的消耗,這種便是描述性分析。

 

4.雲端計算。何為雲端計算,這裡我們不做多述。未雲端計算的本質是在遠端伺服器上執行

 

  的軟體和(/或)資料託管,並允許從網際網路上的任何地方進行訪問。

 

5.叢集計算。它是一種利用多臺伺服器的彙集資源的“叢集”來進行計算的奇特方式。在瞭解了更多技術之後,我們可能還會討論節點、叢集管理層、負載平衡和並行處理等。

 

6.黑暗資料。這一資料具有非常特別的性質,從本質上看,,黑暗資料是指那些被企業收集和處理但又不用於任何有意義用途的資料,因此描述它是“黑暗的”,它們可能永遠被埋沒。它們可能是社交網路資訊流、呼叫中心日誌、會議筆記,諸如此類。人們做出了諸多估計,在60-90%的所有企業資料都可能是“黑暗資料”,但無人真正知曉。

 

7.資料湖。資料湖是一個原始格式的企業級資料的大型儲存庫。在這裡,我們還需要討論下資料倉庫,因為資料湖和資料倉庫在概念上是極其相似的,都是企業級資料的儲存庫,但在清理和與其他資料來源整合之後的結構化格式上有所區別。

 

  資料倉庫常用於常規資料(但不完全)。據說資料湖能夠讓使用者輕鬆訪問企業級資料,使用者真正按需知道自己正在尋找的是什麼、如何處理並讓其智慧化使用。擁抱開源技術的前提——認識資料湖你知道資料湖泊(DATALAKE)嗎?

 

8.資料探勘。資料探勘是指利用複雜的模式識別技術從大量資料中找到有意義的模式、提取見解。這與我們前文討論的使用個人資料做分析的術語“分析”密切相關。為了提取出有意義的模式,資料探勘者使用統計學(是呀,好老的數學)、機器學習演算法和人工智慧。

 

9.分散式檔案系統。由於大資料太大而無法在單個系統上進行儲存,分散式檔案系統提供一種資料儲存系統,方便跨多個儲存裝置進行大量資料的存放,並有助於降低大量資料儲存的成本和複雜度。

 

10.ETL。ETL分別是extract,transform,load的首字母縮寫,代表提取、轉化和載入的過程。它具體是指“提取”原始資料,通過資料清洗/修飾的方式進行“轉化”以獲得“適合使用”的資料,進而“載入”到合適的儲存庫中供系統使用的整個過程。儘管ETL這一概念源於資料倉庫,但現在也適用於其它情景下的過程,例如在大資料系統中從外部資料來源