Spark SQL中Dataframe join操作含null值的列

阿新 • • 發佈：2018-03-16

dataframe util pre table log n-n dram blog between

當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何其他值的比較（即使是null）永遠不會為真。故在進行連接操作時null == null不為True,所以結果中不會出現該條記錄，即左側表格的這條記錄對應右側的值均為null。示例如下：

table_a:

date	serverId	lvSection
2018-03-04	1	10
2018-03-05	null	9
2018-03-07	5	15

table_b:

date	serverId	num
2018-03-04	1	13
2018-03-05	null	4
2018-03-07	5	6

Dataset<Row> table_c = table_a.join(table_b, ScalaUtils.getScalaSeq(Lists.newArrayList("date","serverId")), "left")

table_c:

date	serverId	lvSection	num
2018-03-04	1	10	13
2018-03-05	null	9	null
2018-03-07	5	15	6

所以在使用join時應註意作為連接的字段出現null值的情況。
參考資料：
[1].Difference between === null and isNull in Spark DataDrame

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

Spark SQL中Dataframe join操作含null值的列

Spark SQL中Dataframe join操作含null值的列

Spark SQL中 RDD 轉換到 DataFrame

Spark SQL中RDDs轉化為DataFrame（詳細全面）

Spark-SQL之DataFrame操作大全

如何避免spark dataframe的JOIN操作之後產生重複列（Reference '***' is ambiguous問題解決）

Spark 2.0 DataFrame map操作中Unable to find encoder for type stored in a Dataset.問題的分析與解決

Spark中常見join操作

Spark-Sql之DataFrame實戰詳解

SQL中inner join、outer join和cross join的區別

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

spark sql 不等值 join

sql中left join、right join與inner join的區別

SQL中Left Join、Right Join和Inner Join的使用

sql中的join 連線查詢

Spark SQL中thriftserver和beeline的使用

sql中left join後用on還是where

Spark SQL中使用StringIndexer和IndexToString來對字串資訊進行索引和反索引

2-2、spark的union和join操作演示

Hive中的join操作

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

Spark SQL中Dataframe join操作含null值的列

相關推薦