《大數據日知錄:架構與算法》讀書筆記(多圖)
第二次讀這本書,這次是精讀,畫了思維導圖。書很好,完整的知識結構和由淺入深的介紹,非常全面以至於知識點都梳理了三天。
作為導論式的總覽,對大數據領域有了個總體的認識,接下來可以更針對性地加強和實踐。
總體上比較側重基礎理論和分布式系統的介紹,數據清洗、實時與離線融合的實踐、數據分析以及將各系統串聯打通方面還需要另外補課。
《大數據日知錄:架構與算法》讀書筆記(多圖)
相關推薦
《大數據日知錄:架構與算法》讀書筆記(多圖)
打通 導論 ges wid 技術分享 二次 思維 知識點 很好 第二次讀這本書,這次是精讀,畫了思維導圖。書很好,完整的知識結構和由淺入深的介紹,非常全面以至於知識點都梳理了三天。 作為導論式的總覽,對大數據領域有了個總體的認識,接下來可以更針對性地加強和實踐。 總體上
《大數據日知錄》讀書筆記-ch12機器學習:範型與架構
框架 梯度 目前 reduce 訓練 編程 base 屬於 parallel 機器學習算法特點:叠代運算 損失函數最小化訓練過程中,在巨大參數空間中叠代尋找最優解 比如:主題模型、回歸、矩陣分解、SVM、深度學習 分布式機器學習的挑戰: - 網絡通信效率 -
《大數據日知錄》讀書筆記-ch1數據分片與路由
lsp 負載不均 圖片 obi 縱向擴展 數據庫 b+樹 ash padding 目前主流大數據存儲使用橫向擴展(scale out)而非傳統數據庫縱向擴展(scale up)的方式。因此涉及數據分片、數據路由(routing)、數據一致性問題 二級映射關系:k
《大數據日知錄》讀書筆記-ch2數據復制與一致性
replica 綁定 原子性 lpad 崩潰 配置 定性 atomic ide CAP理論:Consistency,Availability,Partition tolerance 對於一個分布式數據系統,CAP三要素不可兼得,至多實現其二。要麽AP,要麽
數據結構與算法—插入排序(Java實現)
數據結構 算法 Java 插入排序 [toc] 插入排序 程序代碼 package com.uplooking.bigdata.datastructure; import java.util.Arrays; public class InsertSort { public st
數據結構與算法—冒泡排序(Java實現)
數據結構 算法 Java 冒泡排序 [toc] 冒泡排序 程序代碼 package com.uplooking.bigdata.datastructure; import java.util.Arrays; public class BubbleSort { public st
《Android源代碼設計模式解析與實戰》讀書筆記(二十)
apt 通過 rip idv ber list adaptee 無法 技術分享 第二十章、適配器模式 適配器模式是結構型設計模式之中的一個,它在我們的開發中使用率極高,比方ListView、GridView以及RecyclerView都須要使用A
《Linux內核設計與實現》讀書筆記(十二)- 內存管理
enable vmalloc 緩沖 turn lean png border 編譯 不一致 內核的內存使用不像用戶空間那樣隨意,內核的內存出現錯誤時也只有靠自己來解決(用戶空間的內存錯誤可以拋給內核來解決)。 所有內核的內存管理必須要簡潔而且高效。 主要內容: 內
《Linux內核設計與實現》讀書筆記(十六)- 頁高速緩存和頁回寫
第一次 源碼 進行 lose 減少 文件緩存 掩碼 recycle 創建 主要內容: 緩存簡介 頁高速緩存 頁回寫 1. 緩存簡介 在編程中,緩存是很常見也很有效的一種提高程序性能的機制。 linux內核也不例外,為了提高I/O性能,也引入了緩存機
《Linux核心設計與實現》讀書筆記(十五)- 程序地址空間(kernel 2.6.32.60)
程序地址空間也就是每個程序所使用的記憶體,核心對程序地址空間的管理,也就是對使用者態程式的記憶體管理。 主要內容: 地址空間(mm_struct) 虛擬記憶體區域(VMA) 地址空間和頁表 1. 地址空間(mm_struct) 地址空間就是每個程序所能訪問的記憶體地址範圍。 這個地址
《Linux核心設計與實現》讀書筆記(十九)- 可移植性
linux核心的移植性非常好, 目前的核心也支援非常多的體系結構(有20多個). 但是剛開始時, linux也只支援 intel i386 架構, 從 v1.2版開始支援 Digital Alpha, Intel x86, MIPS和SPARC(雖然支援的還不是很完善). 從 v2.0版本開始加入了對 M
《Linux核心設計與實現》讀書筆記(十八)- 核心除錯
核心除錯的難點在於它不能像使用者態程式除錯那樣打斷點,隨時暫停檢視各個變數的狀態。 也不能像使用者態程式那樣崩潰後迅速的重啟,恢復初始狀態。 使用者態程式和核心互動,使用者態程式的各種狀態,錯誤等可以由核心來捕獲並顯示。 而核心是直接和硬體互動的,核心出錯之後整個系統就無法正常運行了,所以要想熟練的
《Linux核心設計與實現》讀書筆記(十四)- 塊I/O層
最近太忙,居然過了2個月才更新第十四章。。。。 主要內容: 塊裝置簡介 核心訪問塊裝置的方法 核心I/O排程程式 1. 塊裝置簡介 I/O裝置主要有2類: 字元裝置:只能順序讀寫裝置中的內容,比如 串列埠裝置,鍵盤 塊裝置:能夠隨機讀寫裝置中的內容,比如 硬碟,U盤 字元
《Linux核心設計與實現》讀書筆記(十七)- 裝置與模組
本章主要討論與linux的裝置驅動和裝置管理的相關的4個核心成分,裝置型別,模組,核心物件,sysfs。 主要內容: 裝置型別 核心模組 核心物件 sysfs 總結 1. 裝置型別 linux中主要由3種類型的裝置,分別是: 裝置型別 代表裝置
《Linux核心設計與實現》讀書筆記(二十)- 補丁, 開發和社群
linux最吸引我的地方之一就是它擁有一個高手雲集的社群, 還有就是如果能=為linux核心中貢獻程式碼, 一定是一件令人自豪的事情. 下面主要總結一些和貢獻程式碼相關的主要內容. 加入社群 編碼風格 提交補丁 總結 1. 加入社群 如果想為linux貢獻程式碼, 那麼加入linux
《Linux核心設計與實現》讀書筆記(十六)- 頁快取記憶體和頁回寫
好久沒有更新了。。。 主要內容: 快取簡介 頁快取記憶體 頁回寫 1. 快取簡介 在程式設計中,快取是很常見也很有效的一種提高程式效能的機制。 linux核心也不例外,為了提高I/O效能,也引入了快取機制,即將一部分磁碟上的資料快取到記憶體中。 1.1 原理 之所以通過快取能
資料結構與算法系列十三(選擇排序)
1.引子 1.1.為什麼要學習資料結構與演算法? 有人說,資料結構與演算法,計算機網路,與作業系統都一樣,脫離日常開發,除了面試這輩子可能都用不到呀! 有人說,我是做業務開發的,只要熟練API,熟練框架,熟練各種中介軟體,寫的程式碼不也能“飛”起來嗎? 於是問題來了:為什麼還要學習資料結構與演算法呢? #理
大數據小視角2:ORCFile與Parquet,開源圈背後的生意
repeat 優秀 短板 -i Go blob 模型 篩選 統計數據 上一篇文章聊了聊基於PAX的混合存儲結構的RCFile,其實這裏筆者還了解一些八卦,RCfile的主力團隊都是來自中科院的童鞋在Facebook完成的,算是一個由華人主導的編碼項目。但是RCfile仍然
大數據入門級學習:SQL與NOSQL數據庫
修改配置 mongod 分享 耦合 沒有 nosql 數據表 tor RoCE 這幾年的大數據熱潮帶動了一激活了一大批hadoop學習愛好者。有自學hadoop的,有報名培訓班學習的。所有接觸過hadoop的人都知道,單獨搭建hadoop裏每個組建都需要運行環境、修改配置文
數據結構與算法題目集(中文)——5-13 統計工齡 (20分)——桶排序
color 單位 html out cin hit lis -s cnblogs 給定公司NN名員工的工齡,要求按工齡增序輸出每個工齡段有多少員工。 輸入格式: 輸入首先給出正整數NN(\le 10^5≤10?5??),即員工總人數;隨後給出NN個整數,即每個員工的工齡