算子：sample(false, 0.1)抽樣數據

阿新 • • 發佈：2017-11-07

ssi info efault span 數據 ignore pac scala contex

抽樣示例操作：

scala> import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.HiveContext

scala> val hiveContext = new HiveContext(sc)
17/11/07 17:19:36 WARN SessionState: load mapred-default.xml, HIVE_CONF_DIR env not found!
17/11/07 17:19:37 WARN SessionState: load mapred-default.xml, HIVE_CONF_DIR env not 
 found!
hiveContext: org.apache.spark.sql.hive.HiveContext = org.apache.spark.sql.hive.HiveContext@14cc2fdd

scala> hiveContext.sql("use my_hive_db")
17/11/07 17:19:40 WARN SessionState: METASTORE_FILTER_HOOK will be ignored, since hive.security.authorization.manager is set to instance of HiveAuthorizerFactory.
 
17/11/07 17:19:40 WARN UserGroupInformation: No groups available for user acount_rc
res20: org.apache.spark.sql.DataFrame = [result: string]

scala> val sampledPairs = hiveContext.sql("select objectid from myobjectid")
    .map(s=>(s.getAs[String]("objectid"),1))
    .sample(false, 0.1)
17/11/07 17:19:40 WARN UserGroupInformation: No groups available for 
 user acount_rc
17/11/07 17:19:40 WARN UserGroupInformation: No groups available for user acount_rc
sampledPairs: org.apache.spark.rdd.RDD[(String, Int)] = PartitionwiseSampledRDD[1059] at sample at <console>:32

scala> val sampledWordCounts = sampledPairs.countByKey
sampledWordCounts: scala.collection.Map[String,Long] = Map(193700355 -> 32348, 101549569 -> 81388, 100890370 -> 66425, 184703237 -> 60943, 
184563457 -> 77401, 100692995 -> 55021, 184756482 -> 88707, 193611009 -> 1588, 185257985 -> 16457, 190035714 -> 14209, 153225089 -> 41515, 
100811782 -> 115963, 100782849 -> 54729, 184581890 -> 70271, 185388291 -> 76225, 185278978 -> 40917, 80085891 -> 66957, 184957442 -> 59129, 
153127554 -> 146, 101362179 -> 18600, 193658626 -> 48758, 79805058 -> 17477, 101623810 -> 263451, 184637699 -> 23640, 185363457 -> 24341, 
153561730 -> 19010, 184722690 -> 2516, 79906177 -> 21106, 193805313 -> 78224, 184739585 -> 34405, 101342210 -> 60860, 193511427 -> 77125, 
101244675 -> 624, 80425606 -> 12167, 189870594 -> 6944, 101441025 -> 39970, 185549825 -> 322, 101125633...
scala> sampledWordCounts.foreach(println(_))
(193700355,32348)
(101549569,81388)
(100890370,66425)
(184703237,60943)
(184563457,77401)
(100692995,55021)
(184756482,88707)
(193611009,1588)
(185257985,16457)
(190035714,14209)
(153225089,41515)
(100811782,115963)
(100782849,54729)
(184581890,70271)

ssi info efault span 數據 ignore pac scala contex 抽樣示例操作： scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spar

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

易學筆記-第0章：環境搭建/0.1 在eclipse中加入web開發外掛並設定自動提示

在eclipse中加入web開發外掛 web開發外掛包括：HTML、CSS、JavaScript等，這些外掛可以幫助快速編寫程式碼，最明顯的幫助就是自動提示預覽eclipse未安裝web外掛之前的配置項：路徑：Window-->preferenc

奇點到來，超越人類《Nature論文：人工智慧從0-1自學打敗阿法狗》論文翻譯

翻譯前言阿法狗 ZERO以100：0打敗阿法狗，引起轟動，論文在Nature發表。阿法狗 ZERO引起轟動的原因： 1.完全自學，超越人類。 2.發展出超越人類認知的新知識，新策略。 3.能夠快速移植到新領域本文是我和好友春（機器學習在讀

Oracle 12.1新特性：在線rename或relocate數據文件

oracle 12 move datafile在Oracle12.1之前的版本中要重命名數據文件或移動數據文件需要關閉數據庫或把表空間/數據文件置為offline狀態才可以，參考之前總結的Oracle修改數據文件名/移動數據文件。但到了12.1版本，可以直接在數據文件online狀態下把數據文件重命名或移動數

數據結構與算法（1）- 數據結構概覽

但是比較以及 net 差異 nbsp 特性會有算法聲明：雖然本系列博客與具體的編程語言無關。但是本文作者對c++相對比較熟悉，其次是java，所以難免會有視角上的偏差。舉例也大多是和這兩門語言相關。今天先來看看有哪些常見的數據結構(C++ STL視角，其他應該也

第2章第1講數據類型及常量變量

pla 與運算 pre bsp 字符 span images area 9.png main() { printf("I love music!\n"); printf("the music is \"D:\\music\\love.mp3

奪命雷公狗C/C++-----1---語言數據類型和常見32關鍵字

字符 log c/c++ 常見分享並且所有 nio stat 重點提示： C語言中嚴格區分大小寫數據類型如下所示： 32個關鍵字如下所示： auto--------這個這個關鍵字用於聲明變量的生存期為自動，即將不在任何類、結構、枚舉、聯合和函數中

python簡單模擬：把樹存儲在數據表中

數據庫 __main__ __name__ com clas list lis 數據表 name 在數據庫中建立一個表，有Id, fatherId, value 三個字段，就可以存儲一個樹。如何把該表中的數據以樹的形式呈現出來，下面小弟用python簡單模擬一下。初學p

第1章數據結構緒論

popu dcl pretty 數組 pri ext 程序設計 pre 邏輯結構程序設計 = 數據結構 + 算法數據結構的一些相關概念：數據結構的定義：數據結構是相互之間存在一種或多種特定關系的數據元素的集合。數據結構的分類：

springBoot（14）：使用SQL關系型數據庫-事務處理

springboot springboot事務處理一、事務的四個特性（ACID）原子性（Atomicity）：事務是一個原子操作，由一系列動作組成。事務的原子性確保動作要麽全部完成，要麽完全不起作用。一致性（Consistency）：一旦事務完成（不管成功還是失敗），系統必須確保它所建模的業務處

Spring Boot入門第三天：配置日誌系統和Druid數據庫連接池。

禁用 css ret 輸入 ogg servlet log http gif 一、日誌管理 1.在application.properties文件中加入如下內容： logging.level.root=WARN logging.level.org.springfram

Python項目實戰：福布斯系列之數據采集

sce nmp mgr 上市 sts nor 頁面數據都差不多 afa 1 數據采集概述開始一個數據分析項目，首先需要做的就是get到原始數據，獲得原始數據的方法有多種途徑。比如：獲取數據集（dataset）文件使用爬蟲采集數據直接獲得excel、

深度學習遙感影像分類(1)_數據集批量準備

func 文件夾 cnn images r+ 驗證 fop label read 近年來，深度學習在遙感影像地物分類中取得了一系列顯著的效果。CNN可以很好的獲取影像紋理信息，捕捉像素與像素之間的空間特征，因此，一個訓練好的深度學習模型在地物提取中具有很大的優勢。但模型的訓

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

oc學習1——基本數據類型

.com block 技術 eight bsp height com width 面向　　OC是在C語言的基礎上進行擴展的一種面向對象的編程語言。很多基礎知識都和C語言中的非常類似。首先介紹一下OC中的基本數據類型，整體框架如下圖： oc學習1——基本數據類型

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

KETTLE：mongdb與mysql互傳數據

spa kettle 集合點擊技術 use 選擇 json 為知筆記註：部分內容引用了 http://blog.sina.com.cn/s/blog_4ac9f56e0101g881.html1、mongodb傳數據到mysql1)在kettle中，mongodb i

Unity3D學習（二）：使用JSON進行對象數據的存儲讀取

進行存儲路徑新的 del jpg cati spa 全局變量 .net 前言前段時間完成了自己的小遊戲Konster的制作,今天重新又看了下代碼。原先對關卡解鎖數據的存儲時用了Unity自帶的PlayerPref（字典式存儲數據）。讀取關卡數據的代碼： voi

以正確的姿勢學會VB6.0——關鍵字、數據類型、變量

經濟人的 pan 所在布爾代數但是規律計算機 ron 小明想寫一個軟件，記錄全班每人的成績，於是他寫了這個來保存數據：定義學生數據{ 　　學生名字：____（填入一串字符）　　語文成績：____（填入一個數字）　　數學成績：____（填入一個數字）　　

算子：sample(false, 0.1)抽樣數據

相關推薦