《Apache Hive官方文件》首頁
原文連結 譯者:BJdaxiang
Apache Hive是一款資料倉庫軟體,通過SQL使得分散式儲存系統中的大的資料集的讀、寫和管理變得容易。使用者可以使用自帶的命令列工具和JDBC驅動用來連線Hive。
開始Apache Hive之旅
- 在我們的wiki上了解更多關於Hive的功能。
- 閱讀快速開始指南,學習如何安裝Hive。
參與Apache Hive社群
Apache Hive是由Apache軟體基金會的志願者發起的一個開源專案。起初是Apache® Hadoop®的一個子專案,但現在已發展為一個獨立的頂級專案。我們鼓勵你瞭解這個專案並共享一份自己的力量。
- 給我們反饋或者提交bug報告:我們可以更好地做些什麼
- 加入郵件列表並訪問我們的社群
- 請閱讀我們的貢獻者指南,瞭解在哪裡可以找到原始碼或提交補丁
- 成為Facebook上Hive的粉絲
- 關注Twitter上的@ApacheHive
相關推薦
《Apache Hive官方文件》首頁
原文連結 譯者:BJdaxiang Apache Hive是一款資料倉庫軟體,通過SQL使得分散式儲存系統中的大的資料集的讀、寫和管理變得容易。使用者可以使用自帶的命令列工具和JDBC驅動用來連線Hive。 開始Apache Hive之旅 在我們的wiki上了解更多關於Hive的功能。
利用PyPDF2刪除PDF文件首頁
dpa 公司 src range 三方庫 編輯 有一個 time class 前話:有個朋友讓我給他編輯他們公司的PDF文件,簽名的日期時間不對,需要進(nong)行(xu)優(zuo)化(jia)。而我手上只有兩個管理pdf的軟件,一個福晰閱讀器,還有一個福晰編輯器。但是
Apache Storm 官方文件 —— Trident State
Trident 中含有對狀態化(stateful)的資料來源進行讀取和寫入操作的一級抽象封裝工具。這個所謂的狀態(state)既可以儲存在拓撲內部(儲存在記憶體中並通過 HDFS 來實現備份),也可以存入像 Memcached 或者 Cassandra 這樣的外部資料庫中。而對於 Trident A
Flume.apache.org 官方文件學習筆記 part one
Apache Flume 是一個分散式,可靠且可用的系統,用於有效地從許多不同的源收集,聚合和移動大量日誌資料到集中式資料儲存。 Apache Flume的使用不僅限於日誌資料聚合。由於資料來源是可定製的,因此Flume可用於傳輸大量事件資料,包括但不限於網路流量資料
Flume.apache.org 官方文件學習筆記 part two
配置個體元件: 當你定義了這個流之後,你需要去設定每個資源、接收器、通道的屬性。這是在你設定元件型別和每個元件的特定屬性值的同一層名稱空間內完成的。 # properties for sources <Agent>.sources.<S
Flume.apache.org 官方文件學習筆記 part three
JMS 源: jms源閱讀從jms目的地發來的資訊,例如佇列,主題等。 作為一個jms應用程式,他應該和jms提供程式一起工作,但是僅使用ActiveMQ進行測試。JMS源提供可配置的批量大小,訊息選擇器,使用者/傳遞還有訊息到接收器事件轉換器。 要
Flume.apache.org 官方文件學習筆記 part five
kafka 源: Kafka 源是Apache Kafka 消耗者,讀取來自kafka主題的資訊。如果你有多個Kafka源在執行,你可以給他們配置一樣的使用者群組,以便每個源都讀取一組唯一的主題分割槽。 要注
《Apache Flink官方文件》 Apache Flink介紹
原文連結 譯者:ivansong 下面是關於Apache Flink(以下簡稱Filnk)框架和流式計算的概述。為了更專業、更技術化的介紹,在Flink文件中推薦了一些“概念性”的文章。 1、無窮資料集的持續計算 在我們詳細介紹Flink前,複習一下當我們計算資料選擇運算模型時,很可能會遇到
Apache Storm 官方文件 —— 配置
原文連結 譯者:魏勇 Storm 有大量配置項用於調整 nimbus、supervisors 和拓撲的行為。有些配置項是系統級的配置項,在拓撲中不能修改,另外一些配置項則是可以在拓撲中修改的。 每一個配置項都在 Storm 程式碼庫的 defaults.yaml 中有一個預設值。可以通過
Apache Storm 官方文件 —— 本地模式
原文連結 譯者:魏勇 本地模式是一種在本地程序中模擬 Storm 叢集的工作模式,對於開發和測試拓撲很有幫助。在本地模式下執行拓撲與在叢集模式下執行拓撲的方式很相似。 建立一個程序內的“叢集”只需要使用 LocalCluster 類即可,例如: import backtype.sto
《Apache Flink 官方文件》前言
原文連結 譯者:ivansong 本文件針對的是Apache Flink的 1.2.0版本。 Apache Flink是一個分散式流式和批量資料處理程式的開源平臺。Flink的核心是流式資料引擎,Flink通過資料流的分散式計算的方式提供資料的分發、通訊和容錯。Flink也構建了流引擎之上的批
《Apache Flink官方文件》程式設計模型
原文連結 譯者:魏勇 抽象層次 Flink 能夠為流式計算或批處理應用提供多種層次的抽象介面。 最低階的抽象介面是狀態化的資料流介面。這個介面是通過 ProcessFunction 整合到 資料流 API 中的。此類介面讓使用者可以使用連續的容錯狀態,並且可以不受限制地處理多個數據
《Apache Thrift官方文件》簡介
Apache Thrift 最後修改時間: 2017-11-11 簡介 Thrift是一個輕量級、語言無關的軟體棧,它具有一套為RPC通訊生成程式碼的機制。Thrift為資料的傳輸、序列化,以及應用層處理提供了乾淨的抽象。採用這種抽象棧,它的程式碼生成器僅使用一種簡潔的定義語言作為輸入,便能
《Apache Zookeeper 官方文件》管理分散式系統就像管理動物園一樣
原文連結 譯者:方騰飛,JIT Zookeeper 是一個高效能的分散式應用協調服務框架. 它以一種簡單介面的形式暴露了一系列的通用服務,比如命名,配置管理,同步和分組等。 因此你不必從一堆草稿中去實現他們。你可以使用現成的東西去實現一致性,分組管理,機器選擇和已經存在的一些協議。同時你能夠用
Apache Storm 官方文件 —— Trident Spouts
原文連結 譯者:魏勇 與一般的 Storm API 一樣,spout 也是 Trident 拓撲的資料來源。不過,為了實現更復雜的功能服務,Trident Spout 在普通的 Storm Spout 之上另外提供了一些 API 介面。 資料來源、資料流以及基於資料流更新 state(比
Apache Storm 官方文件 —— FAQ
原文連結 譯者:魏勇 Storm 最佳實踐 關於配置 Storm + Trident 的建議 worker 的數量最好是伺服器數量的倍數;topology 的總併發度(parallelism)最好是 worker 數量的倍數;Kafka 的分割槽數(partitions)最好是 Spo
Apache Storm 官方文件 —— 命令列操作
原文連結 譯者:魏勇 本文介紹了 Storm 命令列客戶端中的所有命令操作。如果想要了解怎樣設定你的 Strom 客戶端和遠端叢集的互動,請按照配置開發環境一文中的步驟操作。 Storm 中支援的命令包括: jar kill activate deactivate rebalance
Apache Storm 官方文件 —— 容錯性
原文連結 譯者:魏勇 本文通過問答的形式解釋了 Storm 的容錯性原理。 工作程序(worker)死亡時會發生什麼? 工作程序死亡的時候,supervisor 會重新啟動這個程序。如果在啟動過程中仍然一直失敗,並且無法向 Nimbus 傳送心跳,Nimbus 就會將這個 worker
Apache Storm 官方文件 —— 基礎概念
原文連結 譯者:魏勇 Storm 系統中包含以下幾個基本概念: 拓撲(Topologies) 流(Streams) 資料來源(Spouts) 資料流處理元件(Bolts) 資料流分組(Stream groupings) 可靠性(Reliability) 任務(Tasks) 工作程序(W
《Apache Zookeeper 官方文件》-3 快速指南:使用zookeeper來協調分散式應用
原文連結 譯者:softliumin 校對:方騰飛 本節內容讓你快速入門zookeeper。它主要針對想嘗試使用zookeeper的開發者,幷包含一個ZooKeeper單機伺服器的安裝說明,你可以用一些命令來驗證它的執行,以及簡單的程式設計例項。最後,為了考慮到方便性,有一些複雜的安裝部分