大資料分析:基於python務實的方法 Big Data Analytics_ A Hands-On Approach - 2019

圖片.png
下載: https://itbooks.pipipan.com/fs/18113597-335817064
我們生活在所謂的“第四次工業革命”的曙光中,“第四次工業革命”的出現標誌著“網路物理系統”的出現,其中軟體通過網路與物理系統無縫連線,如感測器,智慧手機,車輛,電網或建築物,創造物聯網(IoT)的新世界。資料和資訊是這個新時代的燃料,強大的分析演算法可以燃燒這種燃料,從而產生預期的決策,為我們所有人創造一個更智慧,更高效的世界。這個新的技術領域被定義為大資料分析工業和學術界正在認識到這是一種可以產生重大新財富和機會的競爭技術。大資料被定義為資料集的集合,其數量,體積,速度或種類如此之大,以至於難以使用傳統資料庫和資料處理工具來儲存,管理,處理和分析資料。大資料分析涉及大規模資料的收集,儲存,處理和分析。例如,Gartner和e-Skills的行業調查預測,僅在資料科學和分析領域受過培訓的工程師和科學家將有超過200萬個職位空缺,並且該領域的就業市場正在增長同比增長率為150%。我們已經編寫了這本教科書,作為我們不斷擴充套件的“實踐方法”(TM)系列的一部分,以滿足高校和大資料服務提供商的需求,他們可能有興趣提供更廣泛的視角。新興領域將伴隨他們的客戶和開發人員培訓計劃。典型的讀者應該在大學階段使用傳統的高階語言完成一些程式設計課程,並且是科學,技術,工程或數學(STEM)之一的高階或初級研究生。領域。本書的隨附網站包含對教學和學習的額外支援。
本書分為三個主要部分,共十二章。第一部分介紹了大資料,大資料應用以及大資料分析模式和架構。提出了一種新穎的資料分析應用系統設計方法,並通過開源大資料框架實現了該方法的實現。該方法將大資料分析應用程式描述為所提出的Alpha,Beta,Gamma和Delta模型的實現,其中包括用於從各種來源收集和攝取資料到大資料分析基礎架構,分散式檔案系統和非關係(NoSQL)的工具和框架。用於資料儲存的資料庫,以及用於批處理和實時分析的處理框架。這種新方法構成了本書的教學基礎。第二部分向讀者介紹了大資料分析的各種工具和框架,以及這些框架的體系結構和程式設計方面,以及Python中的示例。我們描述了Publish-Subscribe訊息框架(Kafka和Kinesis),Source-Sink聯結器(Flume),資料庫聯結器(Sqoop),訊息佇列(RabbitMQ,ZeroMQ,RestMQ,Amazon SQS)以及自定義REST,WebSocket和基於MQTT的聯結器。讀者將介紹資料儲存,批處理和實時分析,以及互動式查詢框架,包括HDFS,Hadoop,MapReduce,YARN,Pig,Oozie,Spark,Solr,HBase,Storm,Spark Streaming,Spark SQL,Hive,Amazon Redshift和谷歌BigQuery。還描述了服務資料庫(MySQL,Amazon DynamoDB,Cassandra,MongoDB)和Django Python Web框架。第三部分向讀者介紹了各種機器學習演算法,其中包括使用Spark MLlib和H2O框架的示例,以及使用Lightning,Pygal和Seaborn等框架的視覺化。
參考資料
- 討論qq群144081101 591302926 567351477
- 本文最新版本地址
- 本文涉及的python測試開發庫 謝謝點贊!
- 本文相關海量書籍下載
- 2018最佳人工智慧機器學習工具書及下載(持續更新)