sql 重寫ipCount II

阿新 • • 發佈：2018-12-13

package com.ws.sparksql
import com.ws.spark.IpFromUtils
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

/**
  * sql 統計日誌中ip歸屬地出現次數
  */
object SqlIpFromCount {

  def main(args: Array[String]): Unit = {

    val sparkSession = SparkSession.builder().appName("SqlIpFromCount").master("local[*]").getOrCreate()

    import sparkSession.implicits._

    //讀取規則
    val rulesData: Dataset[String] = sparkSession.read.textFile("E:\\bigData\\testdata\\ip.txt")

    val rules: Dataset[(Long, Long, String)] = rulesData.map(l => {
      val fields = l.split("[|]")
      val beginNum = fields(2).toLong
      val endNum = fields(3).toLong
      val province = fields(6)
      (beginNum, endNum, province)
    })

    val rulesCollect: Array[(Long, Long, String)] = rules.collect()
    //廣播變數,只能用sc例項
    val broadCast: Broadcast[Array[(Long, Long, String)]] = sparkSession.sparkContext.broadcast(rulesCollect)

    //讀取資料
    val data: Dataset[String] = sparkSession.read.textFile("E:\\bigData\\testdata\\access.log")

    val ipNum: Dataset[Long] = data.map(l => {
      val fields = l.split("[|]")
      val ip = fields(1)
      //ip轉十進位制
      val ipNum = IpFromUtils.ipToLong(ip)
      ipNum
    })

    val ipNumDataFrame: DataFrame = ipNum.toDF("ip_num")

    ipNumDataFrame.createTempView("t_ips")

    //定義一個sql函式
    sparkSession.udf.register("iptoProvince", (ipNum: Long) => {
      //獲取Driver端廣播的變數
      val rulesBroad: Array[(Long, Long, String)] = broadCast.value

      val index = IpFromUtils.binarySearch(rulesBroad, ipNum)

      var province = "暫無"

      if (index != -1) {
        province = rulesBroad(index)._3
      }
      province
    })
    //broadcastJoin
    val result = sparkSession.sql("select iptoProvince(ip_num) province , count(*) as times from t_ips group by province order by times desc")

    result.show()

    sparkSession.stop()
  }
}

結果：

+--------+-----+
|province|times|
+--------+-----+
|      陝西| 1824|
|      北京| 1535|
|      重慶|  868|
|      河北|  383|
|      雲南|  126|
+--------+-----+

sql 重寫ipCount II

package com.ws.sparksql import com.ws.spark.IpFromUtils import org.apache.spark.broadcast.Broadcast import org.apache.spark.sql.{Da

SQL-基本學習II-資料庫引擎與索引

目錄 SQL語法編寫 Mysql的資料引擎Innodb與Myisam的區別關於索引索引的優點索引的缺點索引的實現原理 B樹與B+樹

SQL Server Replication II

Sql Server Replication Scripting Setup 大概的一個拓撲, 我們將三種角色分別安裝在三臺不同的 sql server 伺服器上 1.1 distributor 1.2 publisher, publication, a

17. SQL重寫為limit Integer.MAX_VALUE的無奈

阿飛Javaer，轉載請註明原創出處，謝謝！！這篇文章源於sharding-jdbc原始碼分析之重寫的遺留問題，相關sharding-jdbc原始碼如下： private void appendLimitRowCount(final SQLBu

MySQL中間件之ProxySQL(8):SQL語句的重寫規則極速賽車ProxySQL(8):

prot mvvm xxx 復制初始化 -a data屬性不能所有聯系方式：QQ：2747044651 網址http://zhengtuwl.com的根元素“#mvvm-app”內只有一個文本節點#text，#text的內容為{{name}}。我們就以下面這個模板詳

書訊 -- Training Kit：SQL Server 2005 實作與維護 I II

微軟認證微軟認證考試在 IT 界是相當流行的實力證明，而網路上多有認證與薪水的關連性分析，透過 Google 稍做搜尋即可得到上萬箇中英文連結，似乎認證對於加薪是稍有幫助。但筆者個人覺得它不太能驗證真正的工作經驗與解決問題的能力，因為 IT 的系統管理與研發含有藝術成分，且 EQ 的重要性高過 IQ，這無

重寫慢日誌解析程序，實現打印慢SQL信息及其所屬數據庫

數據庫 sta timestamp port read oat lock filename 慢日誌分組自研的審計平臺最近推出慢SQL優化的功能，topN慢SQL可以通過mysqldumpslow拿到，但由於mysqldumpslow輸出的信息不包含數據庫，這讓程序後續的自

[Django] 查看orm自己主動運行的原始查詢sql

ice 微軟 bug sof execute 通過 nec cut ren django的文檔看了非常多。也用了不少，有的時候感覺性能非常不好，知道非常多地方是惰性查詢。可是對於復雜的邏輯。僅僅是表面上發現執行非常慢，機器資源消耗非常多。卻不知道orm究竟是什麽來轉化成

hihoCoder #1454 : Rikka with Tree II

return 一段 har 節點 sla include turn typedef ems Description 一個\(n\)個節點的樹，先根遍歷為\(1...n\)。已知兩個數組，一個數組表示是否是葉節點，另一個數組表示十分有右兄弟節點...‘?‘表示未知，求方案數

sql 實現用戶名、郵箱、手機號登錄

append nes class select logs lec email mobile () StringBuilder strSql = new StringBuilder(); strSql.Append("se

c＃配置問題以及簡單防止sql註入，連接池問題，sqldatareader對象對於connection對象的釋放

c#添加引用。system configurationconfigurationManager.AppSettings[“”]<appSetings><add key=“” value=“”></appSetings><connectionStrings><

元數據管理器中存在錯誤。實例化來自文件“\?C:Program FilesMicrosoft SQL ServerMSAS11.MSSQLSERVEROLAPDataTfs_Analysis.0.dbvDimTestCaseOverlay.874.dim.xml”的元數據對象時出錯。

參數配置錯誤 manage 但是加密 olap 右上角 alt 剛才一、發現問題啟動SQLSERVER的數據分析服務失敗查看系統日誌錯誤如下：雙擊錯誤後顯示詳細錯誤：元數據管理器中存在錯誤。實例化來自文件“\\?\C:\Pro

sql 重寫ipCount II

sql 重寫ipCount II

SQL-基本學習II-資料庫引擎與索引

SQL Server Replication II

17. SQL重寫為limit Integer.MAX_VALUE的無奈

MySQL中間件之ProxySQL(8):SQL語句的重寫規則極速賽車ProxySQL(8):

書訊 -- Training Kit：SQL Server 2005 實作與維護 I II

重寫慢日誌解析程序，實現打印慢SQL信息及其所屬數據庫

[Django] 查看orm自己主動運行的原始查詢sql

hihoCoder #1454 : Rikka with Tree II

sql 實現用戶名、郵箱、手機號登錄

c＃配置問題以及簡單防止sql註入，連接池問題，sqldatareader對象對於connection對象的釋放

元數據管理器中存在錯誤。實例化來自文件“\?C:Program FilesMicrosoft SQL ServerMSAS11.MSSQLSERVEROLAPDataTfs_Analysis.0.dbvDimTestCaseOverlay.874.dim.xml”的元數據對象時出錯。

常用SQL語句

Find Minimum in Rotated Sorted Array II

Search in Rotated Sorted Array II

SQL Server 收集數據庫死鎖信息

SQL農歷轉換函數（顯示中文格式，加入潤月的顯示）

在Sql中將 varchar 值 '1,2,3,4,5,6' 轉換成數據類型 int

SQL打印全年日歷

SQL 腳本持續收集...

sql 重寫ipCount II

相關推薦