1. 程式人生 > >Spark機器學習 自定義sql函式處理Vector型別

Spark機器學習 自定義sql函式處理Vector型別

對於sparksql處理不了的型別,可以使用spark.udf.register自定義函式方法處理。

spark.udf.register("getPCA0", (s: Vector) => s(0))
spark.udf.register("getPCA1", (s: Vector) => s(1))
val sql = spark.sql("select getPCA0(pcaFeatures) as pca0,getPCA1(pcaFeatures) as pca1,prediction from predictions")
sql.show(10, false)
val model = PipelineModel.load(modelPath)
model.transform(df).createOrReplaceTempView("predictions")


spark.udf.register("getDga", (s: Vector) => s(1))
val sql = spark.sql("select domain_key as row_key,domain, getDga(probability) as probability from predictions where prediction == 1.0").cache()

相關推薦

Spark機器學習 定義sql函式處理Vector型別

對於sparksql處理不了的型別,可以使用spark.udf.register自定義函式方法處理。 spark.udf.register("getPCA0", (s: Vector) => s(0)) spark.udf.register("getPCA1", (s

SSM Mybatis二級快取深入學習——定義sql語句開啟關閉快取

原文連結: https://inx.fun/p/526.html SSM Mybatis二級快取深入學習——自定義sql語句開啟關閉快取 木來 我在我自己的SSM專案中部署了二級快取,一開始沒有察覺,但是當我不停的去進行更新與修改操作的時候,我發現二級快取沒有用,這就很難受。 於

14.Spark SQL:UDAF定義聚合函式實戰

UDAF自定義函式實戰 UDAF:User Defined Aggregate Function。使用者自定義聚合函式。是Spark 1.5.x引入的最新特性。 UDF,其實更多的是針對單行輸入,返

Hadoop學習筆記—5.定義類型處理手機上網日誌

clas stat 基本 手機上網 oop interrupt pil 依然 手機號碼 一、測試數據:手機上網日誌 1.1 關於這個日誌   假設我們如下一個日誌文件,這個文件的內容是來自某個電信運營商的手機上網日誌,文件的內容已經經過了優化,格式比較規整,便於學習研究。

spring boot 學習心得 使用JpaRepository註解定義SQL查詢數據庫多表查詢

自定義 net http entity onetomany tom pri 查詢語句 重點 一. 首先在@Entity註解的類裏面要寫好外鍵關系. 這個 @ManyToOne 註解可以建立外鍵關系, 不要在自己傻傻的寫一個 private int grades_id;

django定義sql返回元組的處理

web1.views.py def scheduling(request): cursor = connection.cursor() cursor.execute("select staff_name from alarm_platform.TBL_STAFF where staff_num

大資料學習之路90-sparkSQL定義聚合函式UDAF

什麼是UDAF?就是輸入N行得到一個結果,屬於聚合類的。 接下來我們就寫一個求幾何平均數的一個自定義聚合函式的例子 我們從開頭寫起,先來看看需要進行計算的數如何產生: package com.test.SparkSQL import java.lang import org

eclipse中搭建springboot學習(8)---JPA使用2(定義sql

PersonRepository package com.example.demo1019.dao; import javax.transaction.Transactional; import

spark機器學習筆記:(二)用Spark Python進行資料處理和特徵提取

下面用“|”字元來分隔各行資料。這將生成一個RDD,其中每一個記錄對應一個Python列表,各列表由使用者ID(user ID)、年齡(age)、性別(gender)、職業(occupation)和郵編(ZIP code)五個屬性構成。4之後再統計使用者、性別、職業和郵編的數目。這可通過如下程式碼

openCV學習7-定義線性濾波+處理邊緣

1.自定義線性濾波·拉普拉斯運算元和掩膜的運算元很像,一箇中間是4,一箇中間是5.但是結果會差很多。#include <opencv2\core\core.hpp> #include <opencv2\highgui\highgui.hpp>

Spark機器學習----資料的獲取、處理與準備

1. 資料獲取常用公開資料集:UCL機器學習知識庫: 包括近300個不同大小和型別的資料集,可用於分類、迴歸、聚類和推薦系統任務。資料集列表位於: http://archive.ics.uci.edu/ml/。Amazon AWS公開資料集: 包含的通常是大型資料集,可通過A

MySql學習:定義函式之帶參函式

delimiter // -- 如果資料庫 test 裡的存在函式 formatDate,就刪除這個函式 DROP FUNCTION IF EXISTS test.formatDate; -- 建立一個

定義聚集函式,仿wm_concat,使用CLOB,可處理超過4000長度字串

因開發需要,在使用wm_concat函式時,在字串長度超過4000後報錯,所以自定義一個類似的聚集函式,在內部使用CLOB處理,避免超長問題。 原始碼如下: 先以sys使用者授權: grant execute on dbms_lob to xxx; CREATE

Spark機器學習

tin ordering 自身 優點 根據 最好 man ray ron 這篇文章參考《Spark快速大數據分析》,歸納spark技術核心的rdd及MLlib以及其中幾個重要庫的使用。 初始化操作 spark shell: bin/pyspark 每個spark應用都由一

angualar入門學習-- 定義指令 指令編譯執行過程

監聽 監聽器 註冊 sco lar scl $watch 學習 排序 3個階段: 一、加載階段 加載angular.js的源碼,找到ng-app確定應用邊界範圍。 二、編譯階段 compile 查找所有指令,保存在一個列表中 對所有指令按優先級(property屬性值)排序

機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候,首先要進行數據預處理。 有時候不得不處理一些非數值類別的數據,嗯, 今天要說的就是面對這些數據該如何處理。 目前了解到的大概有三種方法: 1,通過LabelE

Spark機器學習(5):SVM算法

線性 logs pro 二維 log libs jar 解析 cti 1. SVM基本知識 SVM(Support Vector Machine)是一個類分類器,能夠將不同類的樣本在樣本空間中進行分隔,分隔使用的面叫做分隔超平面。 比如對於二維樣本,分布在二維平面上,此

Spark機器學習(6):決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識 決策樹就是通過一系列規則對數據進行分類的一種算法,可以分為分類樹和回歸樹兩類,分類樹處理離散變量的,回歸樹是處理連續變量。 樣本一般都有很多個特征,有的特征對分

Spark機器學習(8):LDA主題模型算法

算法 ets 思想 dir 骰子 cati em算法 第一個 不同 1. LDA基礎知識 LDA(Latent Dirichlet Allocation)是一種主題模型。LDA一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。 LDA是一個生成模型,可以用來生成一篇文

Spark機器學習(10):ALS交替最小二乘算法

mllib 測試 con 相互 idt color ted 個人 使用 1. Alternating Least Square ALS(Alternating Least Square),交替最小二乘法。在機器學習中,特指使用最小二乘法的一種協同推薦算法。如下圖所示,u表