1. 程式人生 > >大資料基本概念

大資料基本概念

1、基本概念

  • 關係模型:包括關係資料結構、關係操作集合、關係完整性約束三部分
  • 關係型資料庫:建立在關係模型基礎上的資料庫。由多張能互相聯接的二維行列表格組成。
  • 非關係型資料庫(Nosql(Not Only SQL)):包括鍵-值(Key-Value)儲存資料庫、列儲存資料庫、文件型資料庫、圖形(Graph)資料庫
  • RDBMS(Relational Database Management System):關係型資料庫管理系統。
  • SQL(Structured Query Language):標準資料查詢語言。一種基於關係資料庫的語言,用於執行對關係資料庫中資料的檢索和操作 
  • MySQL:一種關係型資料庫管理系統。使用標準的SQL資料語言形式
  • MongoDB:一種文件型資料庫資料庫。由C++語言編寫,介於關係型資料庫和非關係型資料庫之間
  • Redis:一種鍵-值儲存資料庫,通常用hash table來實現。主要用於處理大量資料的高訪問負載,如內容快取、日誌系統等,查詢速度快
  • 資料庫引擎:用於儲存、處理和保護資料的核心服務,可控制訪問許可權並快速處理事務,從而滿足企業內大多數需要處理大量資料的應用程式的要求。MYSQL預設支援三個引擎:ISAM、MYISAM和HEAP。另外兩種常用引擎:INNODB和BERKLEY(BDB)
  • ISAM:一種MySQL資料庫引擎。考慮到資料庫被查詢的次數要遠大於更新的次數。ISAM執行讀取操作的速度很快,而且不佔用大量的記憶體和儲存資源
  • MyISAM:一種MySQL資料庫引擎。除了提供ISAM裡所沒有的索引和欄位管理的大量功能外,MYISAM還使用一種表格鎖定的機制,來優化多個併發的讀寫操作
  • InnoDB:一種MySQL資料庫引擎。INNODB和BDB包括了對事務處理和外來鍵的支援
  • Hadoop:一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。Hadoop框架最核心的設計是HDFS和MapReduce。HDFS為海量的資料提供了儲存,則MapReduce為海量的資料提供了計算
  • HDFS(Hadoop Distributed File System):
  • MapReduce:谷歌的MapReduce框架可以把一個應用程式分解為許多平行計算指令,跨大量的計算節點執行非常巨大的資料集。使用該框架的一個典型例子就是在網路資料上執行的搜尋演算法
  • YARN:
  • IPC(Inter-Process Communication):程序間通訊
  • 叢集(Cluster)
  • 高可用(High Availability)
  • 心跳(HeartBeat)
  • 腦裂()
  • GIL(Global Interpretor Lock):全域性鎖。
  • 中間人攻擊: