基於LDAP和Sentry的大資料認證和鑑權解決方案--Part One:LDAP整合
1,背景
專案中需要對大資料平臺進行資料許可權管理,涉及到資料訪問的認證和鑑權。大資料平臺中有三個資料訪問的入口:HUE,impala-shell和beeline(for hive)。每種入口都必須提供使用者名稱和密碼,並且,根據使用者所在的角色,能訪問的資料庫和表是各不相同的。
在專案中採用了LDAP來作為使用者的認證機制,使用Sentry來對使用者進行資料許可權的管理。
整個大資料的運維採用了Cloudera Manager的5.8.0的版本,本文也是基於CM5.8.0來介紹的。
2,LDAP認證實現
由於專案的需求是對HUE,impala-shell和beeline都要進行訪問認證,所以需要分別在HUE,Impala和Hive中分別實現LDAP的整合。但不管那個系統與LDAP的整合,不外乎都要配置三個基本的屬性:1)告訴系統我要與LDAP整合。2) LDAP伺服器的地址。3)LDAP的baseDN。
本文假定LDAP已經成功安裝,LDAP打安裝和配置網上可以參考的文章很多。
2.1,LDAP和Hive的整合。
完成上面的配置後重新啟動Hive,配置就生效了,次數如果通過beeline來連結hive,就需要提供使用者名稱和密碼了。例如:
beeline -u "jdbc:hive2://ddw-test-1:10000" -n hive -p hive -d org.apache.hive.jdbc.HiveDriver
如果沒有提供使用者名稱和密碼,或者使用者名稱密碼不匹配,就會報錯,如下圖
2.2,LDAP與Impala的整合
LDAP和Impala的整合與和Hive的整合非常的類似,除了Hive中提到的3個配置項之外,還需要多配一個配置項(如下圖),以告訴Impala密碼可以通過明文來傳播(如果你的環境中沒有配置TSL並且又沒有設定這個配置,impala將無法正常啟動)
完成上述配置並重啟Impala使配置生效,此時用impala 去訪問就需要輸入密碼了,如下圖所示:
2.3 LDAP和HUE的整合
LDAP和HUE的整合依然必須包含那三個關鍵的要素:告訴HUE要啟動LDAP認證,LDAP的Server地址以及baseDN
#告訴Hue使用LDAP來做認證 backend=desktop.auth.backend.LdapBackend#LDAP伺服器的地址 ldap_url=ldap://ddw-test-5
# ldap登陸使用者的模板,username執行時被替換 ldap_username_pattern="uid=<username>,ou=people,dc=javachen,dc=com"
#其他snippet,Hue登入時,需要使用一個預設的使用者名稱和密碼去連線hive/impala,連線成功之後,當真正執行QL的時候,還使用登入時的賬號來做鑑權。 [impala] server_host=ddw-test-5 server_interface=hiveserver2 server_port=21050 query_timeout_s=100 impersonation_enabled=True auth_username=hue auth_password=hue [beeswax] close_queries=True use_sasl=False auth_username=hue auth_password=hue
至此,LDAP和HUE,Impala,Hive的整合就完成了。使用者訪問HUE,Impala以及Hive都需要提供使用者名稱和密碼了。
整合的過程也遇到了各種問題,但沒有任何問題是檢視錯誤日誌和google不能解決的。
相關推薦
基於LDAP和Sentry的大資料認證和鑑權解決方案--Part One:LDAP整合
1,背景 專案中需要對大資料平臺進行資料許可權管理,涉及到資料訪問的認證和鑑權。大資料平臺中有三個資料訪問的入口:HUE,impala-shell和beeline(for hive)。每種入口都必須提供使用者名稱和密碼,並且,根據使用者所在的角色,能訪問的資料庫和表是各不
基於大資料的能力開放平臺解決方案
某企業經過多年的系統建設和演進,內部系統間存在一些壁壘,通過在運營商的各個內部系統,如經分、VGOP、大資料平臺、集團集市等中構建基於ESB 的能力開放平臺,解決了系統間排程、封閉式開發、資料孤島等系統問題,使得運營商營銷能力和效率大大提高。 問題分析 背景
【小家思想】通俗易懂版講解JWT和OAuth2,以及他倆的區別和聯絡(Token鑑權解決方案)
相關閱讀 【小家java】java5新特性(簡述十大新特性) 重要一躍 【小家java】java6新特性(簡述十大新特性) 雞肋升級 【小家java】java7新特性(簡述八大新特性) 不溫不火 【小家java】java8新特性(簡述十大新特性) 飽受讚譽 【小家java】java9
大資料下載防止系統崩潰解決方案一:阻塞集中式下載
/** * 下載控制器 * 阻塞集中式下載 防止系統崩潰 * 使用定時過期的快取鎖實現 * 每10分鐘只能下載一次 **/ import com.google.common.cache.Cache; import com.google.common
2018年醫療大資料產業的發展及解決方案
醫療大資料產業背景分析 近年來,健康醫療大資料相關產業已經被列入國家大資料戰略佈局,和醫療健康大資料相關的政策頻出。在眾多健康醫療大資料相關政策中,其中比較著名的是2014 年國家衛計委制定“46312”工程,即建設國家級、省級、地級市、縣級4 級衛生資訊平臺
一篇文章詳解大資料技術和應用場景
什麼是大資料 說起大資料,估計大家都覺得只聽過概念,但是具體是什麼東西,怎麼定義,沒有一個標準的東西,因為在我們的印象中好像很多公司都叫大資料公司,業務形態則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大資料,在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大資料時代》提到了大資料的4個特徵:
滴滴技術沙龍第1期:聚焦大資料架構和實踐
滴滴技術沙龍是由滴滴出行工程委員會發起主辦的高質量技術交流活動。每期圍繞一個主題,由滴滴出行和其他網際網路公司的專家以獨立演講、Q&A、開放討論等方式,與領域內的中高階技術人員進行自由、深度的交流和學習。 近年來,滴滴出行業務高速發展,在國內已經覆蓋了400多個城市,有4億多使用者
白話大資料 | Spark和Hadoop到底誰更厲害?
要想搞清楚spark跟Hadoop到底誰更厲害,首先得明白spark到底是什麼鬼。經過之前的介紹大家應該非常瞭解什麼是Hadoop了(不瞭解的點選這裡:白話大資料 | hadoop究竟是什麼鬼),簡單的說:Hadoop是由HDFS分散式檔案系統和MapReduce程式設計模型等部分組成的分散式系統架構。而Sp
大資料Hadoop和Spark有什麼區別?內附大資料Spark+Hadoop資料
其實這是兩種框架的區別,Hadoop框架比較側重離線大批量計算,而spark框架則側重於記憶體和實時計算。 在這些基礎上,衍生出了一些常用的附屬元件,比如Hadoop生態下的HBASE、hive、HDFS等,HDFS可用於資料儲存,MR可用於分散式計算框架。同樣,在spark的基礎上也衍生出了很
大資料平臺和MySQL之間的資料匯出和匯入
資料的匯出和匯入都是針對大資料平臺(HDFS,Hive,HBase)來定義的 資料從MySQL到大資料平臺----------資料匯入 資料從大資料平臺到MySQL-----------資料匯出 一、資料匯出(大資料平臺---->Mysql) 1.匯出 HDFS資料到MySQL
學習大資料有什麼用?大資料當前和未來的優勢是什麼?
大資料分析如今已不能再稱之為新技術。大多數移動應用程式開發人員已經明白,他們需要挖掘他們的資料來積極獲取日常的見解。許多大型應用程式開發企業已經意識到,要在市場上不斷地發展和更新,必須採用大資料技術。亞馬遜,微軟,甲骨文等大型跨國公司已經採用了大資料解決方案來拓展業務,希望為消費者提供最好的服務。
大資料技術和應用
什麼是大資料 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。適用於大資料的技術,包括大規模並行處理資料庫,資料探勘電網,分散式檔案系統,分散式資料庫,雲端計算平臺
給 Java 開發者的 10 個大資料工具和框架
當今IT開發人員面對的最大挑戰就是複雜性,硬體越來越複雜,OS越來越複雜,程式語言和API越來越複雜,我們構建的應用也越來越複雜。根據外媒的一項調查報告,中軟卓越專家列出了Java程式設計師在過去12個月內一直使用的一些工具或框架,或許會對你有意義。 先來看看大資料的概念。根據維基百科,大資料是龐大或
mysql大資料分庫和分表 php解決方案
當Mysql資料量過大時,就會面臨壓力分解,這時分庫分表是一個不錯的解決方案,現在我們就來談談Mysql如何分庫分表比較理想,然後再用php如何呼叫。1,主從複製,讀寫分離對主庫修改資料,查詢使用從庫。一主多從,來降低資料庫讀取壓力。2,分庫分表根據實體業務來分
大資料現狀和未來展望--百度大資料主任架構師馬如悅訪談
馬如悅:我研究生是在清華做ChinaGrid的,07年畢業有幸進入百度去開闢分散式計算方向。那個時候,Hadoop開始火起來,所有的網際網路公司都在做。做了5、6年的離線計算平臺,當時百度已經比較成熟了。那個時候,遇到了很多新的業務問題,發現是Hadoop這種離線框架不好做的,需要類似大規模線上資料庫這種,所
離線和實時大資料開發實戰
離線和實時大資料開發實戰 目 錄 前言 第一篇 資料大圖和資料平臺大圖 第1章 資料大圖 2 1.1 資料流程 2 1.1.1 資料產生 3 1.1.2 資料採集和傳輸 5 1.1.3 資料儲存處理 6 1.1.4 資料應用 7 1.2 資料技術 8 1.2.1 資料採集傳輸主要技術 9
大資料架構和模式(五)對大資料問題應用解決方案模式並選擇實現它的產品
簡介 本系列的 第 3 部分 描述了針對最常見的、經常發生的大資料問題及其解決方案的原子模式和複合模式。本文將推薦可以用於架構大資料解決方案的三個解決方案模式。每個解決方案模式都使用了一個複合模式,該模式由邏輯元件構成(參見第 3 部分的介紹)。在本文末尾處,列出了產品和工具清單,它們可對映到每
bitmap實現大資料排序和去重
要點: 假如有10億元素,全部資料讀進記憶體,佔用 1000000000 * 4 / 1024 / 1024 /1024 ≈ 3.725 G,爆炸! 解決方法: bitmap演算法,每一位都能表示一位數字,10000000000 / 8 / 1024 / 1024 /
大資料概念和Hadoop基本介紹
開始學習大資料,一步一個腳印,好好堅持下去!大資料概述1.大資料特徵 第一個,volume(量),大資料第一個基礎是它的資料量要大;第二個,velocity(速度),大資料一個很重要的它必須是實時產生的,一個兩年以前很大的資料,在今天的時代裡面是不能夠被稱之為大資料的;第三個
10家值得關注的新加坡和印度大資料初創公司
無論是網際網路,電子商務,零售,銀行,還是保險等領域,大資料分析無疑是企業最重要的工具之一,它可以幫助企業定位到正確的使用者,並提供個性化、私人化的解決方案。那些使用分析工具的企業可以看到自己在客戶轉換率、客戶保留率、以及產品銷售量上得到了極大地提升。 在亞洲,許多大資料公