海量資料的常用10大解決方案

阿新 • • 發佈：2018-12-14

教你如何迅速秒殺掉：99%的海量資料處理面試題：

https://blog.csdn.net/v_july_v/article/details/7382693

July：海量資料處理：

https://blog.csdn.net/u013074465/article/details/40504281

1、布隆過濾器

2、Hash雜湊

3、BitMap：降低記憶體的使用量。操作複雜度有所上升的。

點陣圖

找出100G的資料中，出現次數為2次的元素並且給定的記憶體有限

要求出出現次數為3次的怎麼做？

簡化：

有一批資料，是從1-10000，請給我找出不存在的元素並且給定的記憶體有限

排序：計數排序

存在不存在用1位

0

1

1次 2次用2位

00

01

10

11

3次 4次 5次 6次用3位

000

001

010

011

100

101

110

111

4、堆

HDFS

hbase 布隆過濾器

es

kafka

mysql 的索引： B+樹

5、雙層桶劃分

桶

hive的分割槽：手動建立，資料不一定是完美的分割槽的

hive的分桶：經過演算法嚴格校驗

6、資料庫索引

索引：提高查詢效率的

B+樹二分查詢

7、倒排索引

根據ID 找文件很容易

根據身份證編號找人容易

根據姓名找人身份證裡面

現在有10本書

請找出編號為3的書

1 hadoop權威指南

2 演算法導論

3 程式設計珠璣

.....

請找出書中有討論hadoop的書

實現的複雜度很高

hadoop權威指南 hadoop(233) spark(44) flink(5)

演算法導論 HDFS mapreduce hadoop(66)

程式設計珠璣 java hdfs

html1 key1 key2 key3 ...

html2 key2 key4 kye7

......

key1 html1

key2 html1 html2

HDFS 程式設計珠璣演算法導論

hadoop hadoop權威指南(233) 演算法導論(66) abc(20)

spark hadoop權威指南

flink hadoop權威指南

mapreduce 演算法導論

java 程式設計珠璣

PageRank演算法

大資料

從谷歌來的

hadoop 從三篇論文

nutch

lucene

es

hbase

hdfs

mapreduce

提高計算和儲存效率

storm

mahout

ambari

sqoop

....

8、外排序

歸併排序

兩個效果：

1、合併

2、排序

本質原理：

把兩個有序陣列合併一個

把兩個有序檔案合併成一個檔案

9、Trie樹

字典樹

10、分散式解決方案：MapReduce或者Spark

通用解決方案

求TopN

求交集

判斷元素存在不存在

求元素出現不出現

求元素出現幾次

.....

程式：

資料結構 + 演算法

分散式場景中，最複雜的就是優化

海量資料的常用10大解決方案

教你如何迅速秒殺掉：99%的海量資料處理面試題： https://blog.csdn.net/v_july_v/article/details/7382693 July：海量資料處理： https://blog.csdn.net/u013074465/article/details/

大規模分散式應用之海量資料和高併發解決方案總結視訊教程網盤

大規模分散式應用之海量資料和高併發解決方案總結視訊教程網盤 39套Java架構師，高併發，高效能，高可用，分散式，叢集，電商，快取，微服務，微信支付寶支付，公眾號開發，java8新特性，P2P金融專案，程式設計，功能設計，資料庫設計，第三方支付，web安全，效能調優，設計模式，資料結構，併發程式

海量資料高併發的解決方案

高併發的解決方案 1.應用和靜態資源分離剛開始的時候應用和靜態資源是儲存在一起的，當併發量達到一定程度的時候就需要將靜態資源儲存到專門的伺服器中，靜態資源主要包括圖片、視訊、js、css和一些資原始檔等，這些檔案因為沒有狀態所以分離比較簡單，直接存放到響應的

大型網站應用之海量資料和高併發解決方案總結

一、網站應用背景開發一個網站的應用程式，當用戶規模比較小的時候，使用簡單的：一臺應用伺服器+一臺資料庫伺服器+一臺檔案伺服器，這樣的話完全可以解決一部分問題，也可以通過堆硬體的方式來提高網站應用的訪問效能，當然，也要考慮成本的問題。當問題的規模在經濟條件下通過堆硬體的

大規模分散式應用之海量資料和高併發解決方案總結

海量資料儲存技術與解決方案

海量資料儲存難點：資料量過大，資料中什麼情況都可能存在；軟硬體要求高，系統資源佔用率高；要求很高的處理方法和技巧。海量資料儲存處理經驗:一、選用優秀的資料庫工具現在的資料庫工具廠家比較多，對海量資料的處理對所使用的資料庫工具要求比較高，一般使用Oracle或者DB2

大型網站應用之海量資料和高併發解決方案總結一二

一、網站應用背景開發一個網站的應用程式，當用戶規模比較小的時候，使用簡單的：一臺應用伺服器+一臺資料庫伺服器+一臺檔案伺服器，這樣的話完全可以解決一部分問題，也可以通過堆硬體的方式來提高網站應用的訪問效能，當然，也要考慮成本的問題。當問題的規模在經濟條件

詳解混合雲資料安全傳輸兩大解決方案

Gartner稱，雲端計算的使用正在不斷增加，到2016年這一增長將佔據大量新增IT開支。2016年將是雲端計算決定性的一年，私有云開始讓路給混合雲，近半數的大型企業將在2017年年底部署混合雲。但在此過程中，從公共雲到私有云之間的資料安全傳輸問題也成為各方關注的焦點。本文詳細解讀了阿里

Jenkins日誌文件過大解決方案

Jenkins一、寫定時任務刪除日誌文件 # crontab -e * * * * */1 rm -rf /var/log/jenkins/* 二、修改jenkins日誌的級別解決方案1：使用java.util.logging：創建一個文件logging.properties，您可以在其中定義日誌級別和

Linux下日誌檔案過大解決方案

很多Linux伺服器裡的應用程式都是無間斷的輸出日誌，這對於伺服器的硬碟是一個很大的考驗。良許之前也分享過一篇文章，介紹如何讓應用程式在後臺執行： linux後臺執行命令：&與nohup的用法通過以上方法，應用程式的日誌會一直輸出到日誌檔案myout.txt裡，這個檔案也會不斷的增

spark資料傾斜分析與解決方案

Spark資料傾斜(資料分佈不均勻) 資料傾斜發生時的現象：絕大多數task（任務）執行得都非常快，但個別task執行極慢。 OOM(記憶體溢位)，這種情況比較少見。資料傾斜發生的原理資料傾斜的原理很簡單：在進行shuffle的時候，必須將各個節點上相同的k

RCaller 無法返回複雜資料的研究以及解決方案

在 Java呼叫基於 R 的 One-Way ANOVA檢測文章裡，通過 cbind 我們可以返回多個數據，但是裡面的資料都是簡單型別，所有能正常工作，但是我在做 Propensity Score Match 的時候呼叫 MatchIt 函式，我需要將分析結果資料全部返回，

Mysql查詢的資料和顯示的資料時區不一致解決方案

前言：在設定mysql時區生效後，查詢的資料顯示的時區是正確的，但是navicat中顯示的資料有差別一、檢視MySQL當前時區、如果不是北京時間-東八區、要重新設定下或者修改Mysql的配置檔案、新增一條北京時區的配置 show variables like "%time_zone%"; se

關於mysql無法新增中文資料的問題以及解決方案

下面的方法是針對window系統的注意： 1 下面的my.ini檔案在有些版本的Mysql中的安裝目錄找不到，比如我用的版本5.5.60-log就找不到，想要找到這個檔案，需要設定顯示window系統隱藏檔案(不懂的自行百度，因系統的版本不同而略有不同)，然後回到c盤

Python使用xpath爬取資料返回空列表解決方案積累

筆者以爬取2018年AAAI人工智慧頂會論文元資料為例。其中包括標題(title)和摘要(abstract)等欄位前言：首先需要檢視該網頁是否可以爬取，通過在URL後加入/robots,txt可以檢視。 ①tbody問題 URL:2018AAAI的第一篇

Mnist資料集匯入出錯解決方案

Mnist資料集匯入出錯在進行Mnist手寫識別的專案中，出現了Mnist資料集下載出錯的問題，報出以下錯誤： Exception: URL fetch failure on https://s3.amazonaws.com/img-datasets/mnist.n

人工智慧常用10大開發框架和AI庫

人工智慧是未來發展的一個新方向，從金融服務至醫療保健，再到運輸，未來各行各業都會使用到人工智慧，這是21世紀又一次的革命性創新。人工智慧的實現離不開開發框架和AI庫，以下是彙總的10大高質量人工智慧開發框架和AI庫，以便於更深入的瞭解並探索人工智慧的世界！ 1. Ten

一個以ajax請求為主的應用，資料傳輸加密的解決方案

首先是金鑰交換的過程，Diffie-Hellman金鑰交換演算法參考維基百科的文件： http://en.wikipedia.org/wiki/Diffie%E2%80%93Hellman_key_exchange client端js語言，服務端php語言用DH金鑰交換演算法交換金鑰

資料庫水平分庫分表後的資料分頁查詢解決方案

原始碼在這核心程式碼在這需要結合這個目錄下的檔案才可以看的大概所有的測試程式碼在test模組下測試結果在底部: 2018-11-06更: 走過路過可以給個star嘛,原先的github刪了,重新開始,看著我那小小的star數,emmmmm…說下最近吧,最

vs2010中將複製過來的檔案或資料夾顯示到解決方案管

今天在給一個做好的頁面上加.net程式，我先將程式中的資料夾複製到解決方案中，可是在VS2010的解決方案資源管理器中並沒有這樣的資料夾，可明明在這裡，為什麼顯示不出來，應該在VS2010的哪個地方設定一下才可以。開始我按照正常的習慣，右擊找重新整理，但找不到。最後問了一下

海量資料的常用10大解決方案

相關推薦