【pySpark教程】Big Data, Hardware trends, and Spark（二）

阿新 • • 發佈：2019-01-23

Big Data, Hardware trends, and Spark

在本系列課程中，我們會學習如下內容：

Data Management
- Semi-Structed Data
- Structured Data
- 實驗二：使用 Spark 分析網路伺服器日誌
資料分析與機器學習
- 資料處理
- 資料分析
- 機器學習
- 實驗三：文字分析與實體解析
- 實驗四：Spark 機器學習介紹

The Big Data Problem

傳統的資料分析的工具有下面這些，包括：Unix shell命令，Pandas 和 R 語言等等。這些工具都是執行到單個機器上的，遇到Big Data Problem 的時候就不太能work了。

那麼 Big Data Problem 是啥呢？

資料增加速度大於計算效能
資料來源越來越豐富
>> Web, mobile, scientific,…
儲存變得越來越便宜
>> 基本上每18個月便宜一半
但是CPU效能的增長速度卻達不到這樣的水平

舉一些 Big Data Examples
此處輸入圖片的描述

可以看到，從disk中讀取 1TB 資料需要3個小時，而且單個機器已經很難處理這樣規模的資料了，一個解決方法就是把資料分佈到大型叢集中去。

Hardware for Big Data

如果叢集使用的是廉價的機器，那麼很容易發生一些問題：

Failures

（Google的資料）
1~5% 硬碟會損壞/年
0.2% 記憶體條損壞/年
Network 速度 VS 共享記憶體
從網路中讀取的速度遠遠小於從硬碟或者記憶體中讀取的速度
Uneven performance
機器的效能不均，有些機器很快，有些則計算的很慢

Distributing Work

叢集的計算有沒有困難的地方？

第一個challenge就是，如何將任務分配到不同的機器中？

來看一個例子（統計詞頻）：

1. 檔案不是很大的情況下：
很簡單，使用一個hash 表就能解決問題了。
此處輸入圖片的描述

2. 檔案很大的情況下：
這種情況下，其實也很簡單，就是使用MapReduce 的思想，把資料map之後處理，然後再reduce結果。
此處輸入圖片的描述

上圖貌似可以解決問題了，但是，當資料特別大的時候，machine 5 的壓力特別大，因為它要儲存所有的結果（可能會存不下）。

這種情況下，可以採用下面這種分而治之的思想，把結果也分佈到不同的機器上：

此處輸入圖片的描述

這就是 Google 在04年提出的 Map Reduce：
此處輸入圖片的描述

有便捷，肯定也會有缺陷，使用這種分而治之思想，會帶來哪些問題呢？

資料的傳輸非常耗時
處理更多的機器意味著你需要解決更多的機器故障帶來的問題
Solution：當一臺機器故障的時候，你可以將這個未完成的任務分配給其他機器，或者等到這臺機器恢復的時候再重新分配給它；
機器多了，效能差距也會變大，所以，你還需解決效能不均帶來的問題
Solution：如果有一臺機器非常慢，一直無法完成任務，那麼你可以殺掉這個任務，並將它分配給其他機器；

所以，沒有什麼萬能方法，你想要達到一些便利，就需要面對由此而來的困擾。

Map Reduce

Map Reduce 在每一次任務完成之後，都要把結果寫入硬碟，並在下一次任務開始再讀進來。
此處輸入圖片的描述
如果我們的job是迭代式的（比如，機器學習中的迭代優化），那麼計算效能就會非常慢。因為，每一次的迭代，你都需要重新讀寫。我們都知道，讀寫硬碟是一件非常非常耗時的事情。

Apache Spark

隨著記憶體價格越來越低，我們可以更多的利用記憶體來進行計算。Spark 正是利用了記憶體速率高的特點，大大改進了Map Reduce的效能。

下圖是 MapReduce 的過程：
此處輸入圖片的描述

下圖是 Spark 的過程：
此處輸入圖片的描述

避免頻繁的網路、硬碟讀取，使得Spark速度大大提升。

Spark 發展到現在已經非常成熟，它提供了很多的資料分析工具，如下圖：

此處輸入圖片的描述

Spark 與 Hadoop 的不同之處：

此處輸入圖片的描述

這些不同之處，帶來了一些效能上的提升如下：

此處輸入圖片的描述

Spark，擁有Hadoop MapReduce所具有的優點；
但不同於MapReduce的是Job中間輸出結果可以儲存在記憶體中，從而不再需要讀寫HDFS。

Spark 能更好地適用於資料探勘、機器學習等需要迭代優化的 MapReduce 的演算法。

【pySpark教程】Big Data, Hardware trends, and Spark（二）

Big Data, Hardware trends, and Spark 在本系列課程中，我們會學習如下內容： Data Management Semi-Structed Data Structured Data 實驗二：使用 Spark 分析

【MindFusion教程】帶有JavaScript事件的互動式日曆（上）

下載MindFusion.WinForms Pack最新版本在本文中，我們將建立一個類似Google的互動月度日曆，使用者可以在該日曆中實時建立，編輯和刪除約會。我們將使用JavaScript Scheduler。以下是完成的應用程式的螢幕截圖：一專案設定我們需要引用以下檔案來開始開發

【Flutter教程】從零構建電商應用（一）

在這個系列中，我們將學習如何使用google的移動開發框架flutter建立一個電商應用。本文是flutter框架系列教程的第一部分，將學習如何安裝Flutter開發環境並建立第一個Flutter應用，並學習Flutter應用開發中的核心概念，例如widget、狀態等。本系列教程包含如下四個部分，敬請期待：

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

【webpack系列】從零搭建 webpack4+react 腳手架（二）

html檔案如何也同步到dist目錄？bundle.js檔案修改了，萬一被瀏覽器快取了怎麼辦？如何為匯出的檔案加md5？如何把js引用自動新增到html？非業務程式碼和業務程式碼如何分開打包？如何搭建開發環境？如何實現開發環境的熱更新？在上一節我們已經搭建了一個最基本的webpack環境，

【SSH 基礎】SSH框架--struts深入詳解（二）

繼上篇部落格既然我們知道了不使用struts給我們帶來這麼多弊端，那麼下面我們來看看struts是如何封裝的，怎麼解決我們出現的問題的？先來說一下struts的基本流程，幫助大家理解下面的程式碼： Struts基本簡要流程如下： 1、客戶端瀏覽器發出HT

【平行計算】用MPI進行分散式記憶體程式設計（二）

通過上一篇中，知道了基本的MPI編寫並行程式，最後的例子中，讓使用0號程序做全域性的求和的所有工作，而其他的程序卻都不工作，這種方式也許是某種特定情況下的方案，但明顯不是最好的方案。舉個例子，如果我們讓偶數號的程序負責收集求和的工作，情況會怎麼樣？如下圖：

【資料結構】棧與佇列的面試題（二）

一.使用兩個佇列實現（實現棧先進後出的特點）思路： 1.建立兩個佇列的結構體，並將這倆個佇列（Queue1和Queue2）的結構體封裝到一個結構體裡。 2.入棧：判斷哪個佇列中為空（Queue1和

【pySpark教程】Introduction & 預備工作（一）

windows 下安裝 Python Spark 虛擬環境在本系列課程中，我們會學習如下內容： Data Management Semi-Structed Data Structured Data 實驗二：使用 Spark 分析網路伺服器日誌

【Flutter入門教程】從零構建電商應用（一）

在這個系列中，我們將學習如何使用google的移動開發框架flutter建立一個電商應用。本文是flutter框架系列教程的第一部分，將學習如何安裝Flutter開發環境並建立第一個Flutter應用，並學習Flutter應用開發中的核心概念，例如widget、狀態等。本系列教程包含如

【圖文教程】手把手教你如何安裝ubuntu（Windows基礎上雙系統）

準備工作： 1.一個格式化後 U盤 2.從官網下載下來ubuntu14.04.1的映象檔案 3.UltraISO最新版本 4.如果想要雙系統。準備一個安裝ubuntu的空盤。大小自己定吧，按自己的需求來。我一般分50G就夠了。安裝過程：開啟後最開始是這樣的然後選擇

【三星官方教程】如何為Gear VR 開發應用（一）：開發環境搭建(轉)

三星GearVR已經成為第一個成熟的移動VR平臺，並擁有目前全球最大也是最穩定的移動VR使用者群體。基於GearVR的應用越來越多，本文將為開發者介紹如何用Unity為Gear VR開發一個360度圖片檢視器。搭建開發環境（Windows OS）在開始用Uni

【MM配置】SAP MM模塊配置目錄（轉）

作者倉儲 5.1 價格中心部分輸出會計 soft 目錄1 配置總體框架11.1 系統環境11.2 機構設置11.3 工廠結構概圖：11.4 產品組成結構圖31.5 BOM簡要清單41.6 主要業務藍圖42 一般設置部分（全局）52.1 定義國家SPRO （後補）5

【設計模式】module模式&&Revealing module （揭示）模式

但是出版參數傳遞 9.png 自然指向們的 private 初級寫在前面《head first設計模式》裏有一篇文章，是說使用模式的心智，　　1、初學者"心智" ："我要為HELLO WORLD找個模式" 　　2、中級人員模式： "或許這裏我需要一個單件

【洛谷】P2983 [USACO10FEB]購買巧克力Chocolate Buying（貪心）

輸出格式準備 anti radius rod money pri price -s 題目描述 Bessie and the herd love chocolate so Farmer John is buying them some. The Bovine Choco

【Java入門提高篇】Day5 Java中的回調（二）

彈出對話框 java入門也會 color 編程 args performed show clas 　　Java中有很多個Timer，常用的有兩個Timer類，一個java.util包下的Timer，一個是javax.swing包下的Timer，兩個Timer類都有用到回調

【AI基礎】python:openCV——處理鼠標事件（1）

python:opencv 處理鼠標一、用戶通過鼠標對圖像視窗最常見的操作有：左鍵單擊按下左鍵單擊擡起左鍵按下拖動鼠標指針位置移動二、單次單擊操作響應事件及順序 Opencv中setMouseCallback()創建了一個鼠標回調函數，每次在圖像上單擊鼠標左鍵再擡起的過程，

【AI基礎】python:openCV——圖像算術運算（1）

圖像算術運算圖像算術運算 1.圖像加法使用cv2.add()將兩幅圖像進行加法運算，也可以直接使用numpy，res=img1+img2.兩幅圖像的大小，類型必須一致，或者第二個圖像可以是一個簡單的標量值。openCV的加法是一種飽和操作，而numpy的加法是一種模操作。OpenCV的結果會更好 import

【AI基礎】python:openCV——圖像算術運算（2）：按位運算

按位運算 openCV 按位運算按位操作有：AND，OR，NOT，XOR 等。當我們提取圖像的一部分，選擇非矩形 ROI 時這些操作會很有用，常用於Logo 投射。本節操作思路：通過 threshold 函數將圖片固定閾值二值化，定義：圖像的二值化，就是將圖像上的像素點的灰度值設置為0或25

【小程序】用nginx進行反向代理處理（windows）

TP 代理 targe 反向 todo nginx安裝 http cnblogs smi 在通過json-server搭建本地服務器得到 http://localhost:3000/todos 的基礎上，要想將接口改為www.test.com/todos這樣的形式，

【pySpark教程】Big Data, Hardware trends, and Spark（二）

Big Data, Hardware trends, and Spark

The Big Data Problem

Hardware for Big Data

Distributing Work

Map Reduce

Apache Spark

相關推薦