使用Spark進行搜狗日誌分析實例——統計每個小時的搜索量

阿新 • • 發佈：2018-10-18

360安全衛士返回用戶 sogo user 順序 contex 讀取文件 key

 1 package sogolog
 2 
 3 import org.apache.spark.rdd.RDD
 4 import org.apache.spark.{SparkConf, SparkContext}
 5 
 6 /**
 7   * 統計每小時搜索次數
 8   */
 9 /*
10 搜狗日誌示例
11 訪問時間(時：分：秒)    用戶ID                [查詢詞]        該URL在返回結果中的排名    用戶點擊的順序號    用戶點擊的URL
12 00:00:00    2982199073774412    [360安全衛士]    8 3    download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html
 
13 00:00:00    07594220010824798    [哄搶救災物資]    1 1    news.21cn.com/social/daqian/2008/05/29/4777194_1.shtml
14 00:00:00    5228056822071097    [75810部隊]    14 5    www.greatoo.com/greatoo_cn/list.asp?link_id=276&title=%BE%DE%C2%D6%D0%C2%CE%C5
15 00:00:00    6140463203615646    [繩藝]    62 36    www.jd-cd.com/jd_opus/xx/200607/706.html
16 */
17 
 object CountByHours {
18   def main(args: Array[String]): Unit = {
19 
20     //1、啟動spark上下文、讀取文件
21     val conf = new SparkConf().setAppName("sougo count by hours").setMaster("local")
22     val sc = new SparkContext(conf)
23     var orgRdd = sc.textFile("C:\\Users\\KING\\Desktop\\SogouQ.reduced\\SogouQ.reduced")
 
24     println("總行數："+orgRdd.count())
25 
26     //2、map操作,遍歷處理每一行數據
27     var map:RDD[(String,Integer)] = orgRdd.map(line=>{
28         //拿到小時
29         var h:String = line.substring(0,2)
30         (h,1)
31     })
32 
33     //3、reduce操作，將上面的 map結果按KEY進行合並、疊加
34     var reduce:RDD[(String,Integer)] = map.reduceByKey((x,y)=>{
35       x+y
36     })
37 
38     //打印出按小時排序後的統計結果
39     reduce.sortByKey().collect().map(println)
40   }
41 }

運行結果：

技術分享圖片

搜狗日誌下載地址：http://www.sogou.com/labs/resource/q.php

使用Spark進行搜狗日誌分析實例——統計每個小時的搜索量

360安全衛士返回用戶 sogo user 順序 contex 讀取文件 key 1 package sogolog 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkCo

使用Spark進行搜狗日誌分析實例——列出搜索不同關鍵詞超過10個的用戶及其搜索的關鍵詞

log collect pre form 用戶 path space img ack 1 package sogolog 2 3 import org.apache.hadoop.io.{LongWritable, Text} 4 import org.apac

使用Spark進行搜狗日誌分析例項——列出搜尋不同關鍵詞超過10個的使用者及其搜尋的關鍵詞

1 package sogolog 2 3 import org.apache.hadoop.io.{LongWritable, Text} 4 import org.apache.hadoop.mapred.TextInputFormat 5 import org.apache.spark

搜狗日誌分析

Mapreduce程式碼：https://github.com/pickLXJ/analysisSogou.git Log日誌：https://pan.baidu.com/s/112P_hR9FlQq7htyTVjxgwg 一、日誌格式搜狗格式查詢https://ww

以慕課網日誌分析為例進入大資料 Spark SQL 的世界

第1章初探大資料本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識1-1 導學1-2 -如何學好大資料1-3 -開發環境介紹1-4 -OOTB映象檔案使用介紹1

以慕課網日誌分析為例進入大資料 Spark SQL 的世界 ---課程筆記--未完待續

第一章初探大資料 1、什麼是大資料？大資料特徵：4V 資料量(Volume) PB、EB、ZB 給予高度分析的新價值(Value) 鉅額資料裡面提取需要的高價值資料

搜狗日誌查詢分析 (MapReduce+Hive綜合實驗）

前提條件：安裝好hadoop2.7.3（Linux系統下）安裝好MySQL(Windows系統下)，推薦使用Xampp 安裝好Hive（Linux系統下）參考：Hive安裝配置題目：從搜狗實驗室下載搜尋資料進行分析下載的資料包含6個欄位，資料格式說明

以某課網日誌分析為例進入大資料 Spark SQL 的世界

第1章初探大資料本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識第2章 Spark及其生態圈概述Spark作為近幾年最火爆的

OpenGL進行簡單的通用計算實例

不容易 gen 繪制精度 vs2013 names 行處理 sub 技術分享博主作為OpenGL新手，最近要用OpenGL進行並行的數據計算，突然發現這樣的資料還是很少的，大部分資料和參考書都是講用OpenGL進行渲染的。好不容易找到一本書《GPGPU編程技術，從Ope

互聯網金融平臺用戶產品偏好分析實例

推送 100% 描述明顯格式 blog 名稱 ges 詳細目的：分析用戶產品偏好支持產品區域化精準推送所需數據：用戶基本信息（區域、購買行為明細），所購產品利率（利率、次數）、擔保機構（擔保機構名稱、次數）、產品期限（不同期限對應次數）一、分析思路 1、分利率：統

R語言進行機器學習方法及實例

最近鄰 ridge glog 原始的默認值 ria er模型不能預測概率機器學習的研究領域是發明計算機算法，把數據轉變為智能行為。機器學習和數據挖掘的區別可能是機器學習側重於執行一個已知的任務，而數據發掘是在大數據中尋找有價值的東西。機器學習一般

Python數據分析實例操作

sum() Y軸 def pandas 顏色 isn csv list 返回 import pandas as pd #導入pandas import matplotlib.pyplot as plt #導入matplotlib from pylab import * m

spark2.x-jvm調優實戰（以tomcat訪問日誌分析為例）

背景如果在持久化RDD的時候，持久化了大量的資料，那麼Java虛擬機器的垃圾回收就可能成為一個性能瓶頸。因為Java虛擬機器會定期進行垃圾回收，此時就會追蹤所有的java物件，並且在垃圾回收時，找到那些已經不在使用的物件，然後清理舊的物件，來給新的物件騰出記

使用hadoop平臺進行小型網站日誌分析

0.上傳日誌檔案到linux中，通過flume將檔案收集到hdfs中。執行命令/home/cloud/flume/bin/flume-ng agent -n a4 -c conf -f /home/cloud/flume/conf/a4.conf -Dflume.roo

八大排序算法——快速排序（動圖演示思路分析實例代碼Java 復雜度分析）

執行不變 class 滿足思想圖片 image 例如排序算法一、動圖演示二、思路分析快速排序的思想就是，選一個數作為基數（這裏我選的是第一個數），大於這個基數的放到右邊，小於這個基數的放到左邊，等於這個基數的數可以放到左邊或右邊，看自己習慣

Alluxio檔案系統在搜狗的實踐Alluxio記憶體檔案系統在搜狗的實踐

本次分享主要包括了Spark shuffle 基於Alluxio的優化，以及基於Alluxio對於臨時表的效能改進：1.在搜狗大量的資料分析, 知識圖譜的資料製作使用Spark/SparkSQL來進行平行計算，大部分由於Spark On Yarn存在各類問題導致業務SLA水平僅為96%，結合

python面向對象中類對象、實例對象、類變量、實例變量、類方法、實例方法、靜態方法

兩種對象都是 self 這一人類 name method class關鍵字 1. 類對象和實例對象　　Python中一切皆對象，Python類本身也是一種對象，類定義完成後，會在當前作用域中定義一個以類名為名字的命名空間。類對象具有以下兩種操作：可以通過“類

大資料Web日誌分析用Hadoop統計KPI指標例項

可以帶著下面問題來閱讀文章問題： 1.MapReduce在日誌分析的作用思考：該如何架構kpi系統，需要考慮什麼問題。 kpi：關鍵績效指標法，即KPI績效考核，是企業績效考核的方法之一，其特點是考核指標圍繞關鍵成果領域進行選取，均對關鍵績效指

實例14 實現兩個變量的互換（不借助第3個變量）

can out sys sta ann sha println true () package wjf; import java.util.Scanner; public class wjf1 { public static void main(String[

自學大資料：Hive基於搜狗搜尋的使用者日誌行為分析

前言 ”大資料時代“，“大資料/雲端計算”，“大資料平臺”，每天聽到太多的大資料相關的詞語，好像現在說一句話不跟大資料沾邊都不好意思說自己是做IT的。可能這與整個IT圈子的炒作也有關聯，某一個方面來看其實就是一營銷術語。很多朋友就想問，我想做大資料，但是沒有這個條件，沒有這

使用Spark進行搜狗日誌分析實例——統計每個小時的搜索量

相關推薦