spark 按某幾列distinct去重、topN、視窗計算的應用

阿新 • • 發佈：2019-02-09

在spark計算當中，我們日常有些簡單需求，比如去重，比如有四列（appid、date、type、platform），我們只需要對appid，date進行去重，另外兩列不關注。在spark中，distinct會對所有列執行去重操作，兩行比較，只要有個一列有差異，就不算重複。

要解決，只對某幾列進行去重，可以使用Top N 的思路，也就是先分組，分組後，我們只取row_num=1第一行就可以了。

具體實現程式碼如下：

//選出某幾列，去掉空值
Dataset<Row> dataset = input.select(
                Consts.Fields.APPID,
                Consts.Fields.EXT$ADID
        ).na().drop(dropNulCol);
        dataset.persist();
//設定視窗計算，可以指定多個列為partitionBy,其實就是多個groupby 分組列
        WindowSpec w=Window.partitionBy(Consts.Fields.APPID).orderBy(col("count").desc());
//只取row num=1，那就是top N,如果window裡有orderby排序的話。
        Dataset<Row> top = count.withColumn("rn",row_number().over(w)).where(col("rn").$eq$eq$eq(1)).drop("rn");

spark 按某幾列distinct去重、topN、視窗計算的應用

在spark計算當中，我們日常有些簡單需求，比如去重，比如有四列（appid、date、type、platform），我們只需要對appid，date進行去重，另外兩列不關注。在spark中，distinct會對所有列執行去重操作，兩行比較，只要有個一列有差異

把資料庫表中某幾列值相同的行去重，只保留一行

使用分析函式row_number() over (partition by … order by …)來進行分組編號，然後取分組標號值為1的記錄即可。目前主流的資料庫都有支援分析函式，很好用。其中，partition by 是指定按哪些欄位進行分組，這些欄

spark運算元：distinct去重的原理

1、Distinct是transformation運算元，不是action運算元。 2、Distinct的去重，是當key與value都一樣的時候，會被當做重複的資料。也就是說，有多條key和value都相同的資料在執行完distincc

js表格按某一列排序

.so -1 當前 rtb down gets esc == 字段排序 //本質就是對象按某個屬性排序 //這裏采用先排序後臺返回的json數據再渲染的方式 /*排序*/function getSortFun(order, sortBy) { var ordAlpah

List<object>進行Distinct()去重

namespace strong equals ole 重寫自定義對象 pan distinct 繼承有時我們會對一個list<T>集合裏的數據進行去重，C#提供了一個Distinct()方法直接可以點得出來。如果list<T>中的T是個自定義對

查詢數據庫中某一列有沒有重復數據項

pos div stock 查詢 blog sele having count 復數查詢數據庫中某一列有沒有重復數據項： select * from cd_stock where stock_bh in (select stock_bh from cd_stock gr

sqlserver trigger（觸發器）-更新某幾列數據時觸發【轉】

gin begin -i transfer 數據如果 upd from lar CREATE TRIGGER [dbo].[updataAlarmLevel]ON [dbo].[Alarm_Alarm_Info]AFTER INSERT, UPDATE – 在

sql-distinct去重語句

原資料表exercise： select distinct(name) from exercise; select distinct(name),myorder from temp.exercise; select distinct(name),myorder,time from

Python：列表中按某一列作為索引查詢其他列表中對應資訊，找到後插入當前列表。

直接複製，修改地址後使用。修改三個位置，如備註。 #coding=utf-8 import os.path import numpy as np if __name__=="__main__": list_1_txt= open('list1.txt')#這裡，讀取第一個列表 &

sqlalchemy：列user_vid去重，取id最大值。

表Charts 如表Charts，value值隨id增加會變化，我們要取出每個使用者最新的value值。 id value user_vid（使用者id，唯一） user_name

JS常見的幾種陣列去重方法

總結一下JS中用到的陣列去重的方法方法一：該方法利用物件的屬性值不能相同： function arrDelLikeElement (array) { const result = []; const obj = {}; for(let i in arr

查詢：對某一欄位去重，並獲得其他欄位資訊

想在table1表中，查公司中的員工名字有哪些，table1表中員工有重名的情況，所以要對員工名去重，並且要得到員工名字、及其對應的部門號dept_id 即：對name欄位去重，並獲得name, dept_id 欄位在thinkphp3.2 中 $table1= M('table1

pandas資料去除某些列，合併列，去重，重建索引

def select_data2collision(): data1 = data.iloc[:,45:] #取45列以後的資料 data2 = pd.concat([data["CASEID"],data1], axis=1) #把caseid的列合併進去 print(d

怎麼把一張表中某幾列資料插入到另一張表中mysql

兩種方法： 1.表之間的關聯； 2.java程式；我們這裡主要講的是第二種方法：第二種方法的優勢在於，如果想要把a表中的資料某幾列資料插入b表中，無需b表中的某列=a表中某列，即使b表中什麼資料都沒有；那就是mysql語句的增刪改查，比任何操作都簡單，都迅

java8中List根據某一欄位去重

前言在做一個記錄操作日誌功能，根據型別及稽核使用者名稱稱去查詢操作日誌。稽核使用者名稱稱，在這裡將資料全部查詢出來了，可是我只想要每個人的姓名，而不是出現重複人名，比如:楊平，出現了好多。如何解決此問

【轉載】ASP.NET 固定GridView的表頭和某幾列

原連結：固定GridView的表頭和某幾列原文連結有個Demo程式碼，如果有需要的話可以點選原文再下載。原來系統中有很多超長gridview，需要使用者向右平行拉動才能看到後面的內容。目前開發一

取numpy陣列的某幾行某幾列

這個操作在numpy陣列上的操作感覺有點麻煩，但是也沒辦法。例如 a = [[1,2,3], [4,5,6], [7,8,9]] 取 a 的 2 3 行， 1 2 列 c=[1,2] d =[0,1] 若寫為 b = a[c,d] output: [4

.Net Collection Distinct 去重

由於業務場景的需要，海量的資料需要進行處理、組裝，難免會出現冗餘的重複資料。如何處理重複的資料就是一個問題。簡單的集合中，去重就可以用linq distinct來完成。對於複雜的集合直接使用distinct就會顯得沒那麼有效了。造資料構造1M的orderentity，非重

R語言對矩陣按某一列排序

2014年05月20日 12:43:16 JamesFen 閱讀數：11419 個人分類： R

Oracle根據RowID去重,根據having count(*)>1去重，distinct去重

總結下我平時工作中對於重複資料去重的3種基本方法：一. SELECT * FROM A WHERE A.ID NOT IN(SELECT A.ID FROM A GROUP BY A.ID HA

spark 按某幾列distinct去重、topN、視窗計算的應用

相關推薦