1. 程式人生 > >來看看這些大資料術語,現在你能看懂幾個?

來看看這些大資料術語,現在你能看懂幾個?

導讀:大資料與資料科學已成為大眾耳熟能詳的詞彙,各行各業正在積極運用且開發大資料的價值,這些巨量資料也帶來了巨大的商機。身處於“大資料時代”的我們,有必要認識一下這些與大資料相關的術語。

 

大資料(Big Data)與資料科學(Data Science)已成為大眾耳熟能詳的詞彙,各行各業正在積極運用且開發大資料的價值,這些巨量資料也帶來了巨大的商機。

 

這時,身處於“大資料時代”的我們,自然得對大資料有所認識,在這裡為大家列出了一些經常跟大資料一起出現的陌生用語,認識了這些大資料相關詞彙,下次看大資料的相關文章就不會一直“卡”了。

 

★ Algorithm 演演算法

 

出自於數學用語,在這裡指的是在有限步驟內,分析資料的具體方法,而且通常由軟體來執行。

 

★ AIDC 自動識別技術

 

AIDC(Automatic Identification and Data Capture)是將訊息資料自動識讀、自動輸入電腦的重要方法和手段,它是以電腦技術和通訊技術為基礎的綜合性科學技術。常見的 AIDC 例如條碼(Bar codes)、磁條(magnetic strips)、生物識別(Biometrics)、RFID 等技術。

 

★ AWS 亞馬遜網路服務系統

 

2006 年 Amazon 開始以 Web 服務的形式向企業提供各種雲端運算服務,包括運算、儲存、資料庫、分析、應用程式和部署服務。現在許多科學家、開發人員以及各企業的技術人員都在利用 AWS (Amazon Web Services)進行大資料分析。

 

★ Avro 序列化系統

 

Avro 是 Hadoop 底下的子專案,是一個數據序列化系統(Data serialization system),被設計用來支援大量資料交換。

 

★ Behavioral analytics 行為分析

 

行為分析是指用科學方法分析環境刺激與行為之間的因果關係,藉著系統性的觀察來了解行為的變化原則,進而有系統的操作刺激,以達到行為的學習、塑造或改變。簡單來說,就是用一個有系統的方法去觀察、測量、收集客觀資料來分析目標的表現行為。

 

★ Big Data 大資料

 

大資料(or 巨量資料),顧名思義是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大資料。有興趣深入瞭解請參考《巨量資料的時代,用“大、快、雜、疑”四字箴言帶你認識大資料》以及《7 個你不可不知的大資料定義》。

 

★ BI 商業智慧

 

BI (Business Intelligence) 指用現代資料倉儲技術、線上分析處理技術、資料探勘進行資料分析,再以圖形化的介面或報表呈現以實現商業價值。

 

★ Cassandra 資料庫系統

 

是 Apache 軟體基金會底下的開源分散式 NoSQL 資料庫系統,適合用來管理巨量的結構化資料,由於其良好的可擴充套件性和效能,被Digg、Twitter、Hulu、Netflix 等知名網站所採用。

 

★ CDR 詳細通聯記錄

 

CDRs (Call Detail Record)是電信網路的使用紀錄,例如通話時間、通話長度等資訊。CDR是電信業者與企業分析網路營運和客戶行為的重要資源。

 

★ Clickstream Analytics 點選流分析

 

點選流(Clickstream)就是使用者的在網頁間來來去去的點選記錄,也可以分成 Upstream——進入這個網站的“來源”,以及 Downstream——拜訪完這個網站之後的“去向”。對於網路行銷跟搜尋引擎來說,點選流分析是十分重要的參考。

 

★ Cloud Computing 雲端運算

 

雲端運算(Cloud Computing)是一種將資料、工具及程式放到網際網路上處理的資源利用方式,是一種分散式電腦運算(Distrubted computing)的概念,也就是讓網路上不同的電腦同時幫你做一件事,可以大大的增加處理速度。

 

也因為所有資訊都被放置到網路的虛擬空間裡,工程師在繪製示意圖時常以一朵雲來代表這個虛擬空間,因而有了“雲端(Cloud)”一名。

 

★ Data Mining 資料探勘

 

顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,資料探勘就是從巨量資料中提取出未知的、有價值的潛在資訊。

 

★ Data Modelling 資料建模

 

資料模式(Data Model)在資訊系統中指的是資料如何被表達、儲存及取用的方式,包括資料的格式、定義和屬性,資料之間的關係,以及資料的限制,而資料模式的設計過程就稱為“資料建模”。

 

★ Data Visualization 資料視覺化

 

是關於資料之視覺表現形式的研究,資料視覺化的技術可以幫助不同背景的工程人員溝通、理解,以達良好的設計與分析結果。

 

★ Data Experts 資料專家

 

資料專家就是能利用資料作出研究評估的專業人士,像是資料分析師、資料科學家、資料架構師等都可以被歸類為資料專家,其工作內容細分請參考《資料分析師?科學家?架構師?大資料人才的工作內容及年薪比較》。

 

★ Exploratory DataAnalysis 探索式分析

 

探索式資料分析是指在沒有標準流程跟方法的情況下,在現有的資料中找尋資料的結構和特點、探索潛藏於資料中的訊息,這種資料分析方法強調的是探索式的分析而非嚴謹的模式確認。

 

★ Hadoop 技術

 

Hadoop 是一個能夠儲存並管理大量資料的雲端平臺,為 Apache 軟體基金會底下的一個開放原始碼、社群基礎、而且完全免費的軟體,Hadoop的兩大核心功能——儲存(Store)及處理(Process)資料所用到的分散式檔案系統 HDFS 跟 MapReduce 平行運算架構。Hadoop 被廣泛應用於大資料儲存和大資料分析,成為大資料的主流技術。有興趣深入瞭解請參考《認識大資料的黃色小象幫手——Hadoop》。

 

★ Internet of Things 物聯網

 

物聯網(IOT)是一個全球化的網路基礎建設,透過資料擷取以及通訊能力以連結實體與虛擬物件,透過網際網路的發展,物連網可透過特定的機制,將所有裝置連結在一起,以供控制、偵測、識別,並交換所有的資訊。

 

★ NoSQL資料庫系統

 

NoSQL 最早是指“No SQL”,號稱不使用 SQL 作為查詢語言的資料庫系統。但近來則普遍將NoSQL視為“Not Only SQL”,也就是“不只是 SQL”的意思,希望結合SQL優點並混用關聯式資料庫和NoSQL資料庫來達成最佳的儲存效果。

 

在巨量資料所帶動的潮流下,各種不同形態的NoSQL資料庫如雨後春筍般竄起,其中MongoDB 是眾多 NoSQL資料庫軟體中較為人熟知的一種。

 

★ Predictive Analytics 預測分析

 

是指透過預測模型、機器學習、資料探勘等技術來分析現有和歷史的事實資料對未來作出預測的資料分析方法。

 

★ R 語言

 

R 是一個開放原始碼統計軟體,提供統計計算和繪圖功能,類似 Matlab 跟 SAS,而 R 不但免費而且簡單易上手,近年來成為資料科學界裡的重要工具。

 

★ SaaS 軟體即服務

 

SaaS (Software-As-A-Service)是隨著網際網路技術和應用軟體的成熟而興起的一種軟體應用模式。SaaS 提供商將軟體統一部署在自己的伺服器上,藉由網路提供軟體給客戶,所以客戶不用購買軟體,而是根據需求向提供商訂購所需的服務,且客戶無需對軟體進行維護,服務提供商會全權管理和維護軟體;軟體廠商在向客戶提供網際網路應用的同時,也提供軟體的離線操作和本地資料儲存,讓客戶隨時隨地都可以使用其定購的軟體和服務。

 

對於許多小型企業來說,SaaS 是採用先進技術的最好途徑,它消除了企業購買、構建和維護基礎設施和應用程式的需要。

 

★ Terabyte (1 000 000000 000 Bytes)

 

TB 為兆位元組,是資料量的分級,相當於 10^12 bytes。其他資料量分級如下:

 

★ Bytes (8 Bits)

 

★ Kilobyte (1000 Bytes)

 

★ Megabyte (1 000 000 Bytes)

 

★ Gigabyte (1 000 000 000 Bytes)

 

★ Terabyte (1 000 000 000 000 Bytes)

 

★ Petabyte (1 000 000 000 000 000Bytes)

 

★ Exabyte (1 000 000 000 000 000 000Bytes)

 

★ Zettabyte (1 000 000 000 000 000 000000 Bytes)

 

★ Yottabyte (1 000 000 000 000 000 000000 000 Bytes)

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系