1. 程式人生 > >python 入門之 – 集合型別(十九)

python 入門之 – 集合型別(十九)

python 中,集合是一個無序的,不重複的資料組合,他的主要工作如下:

1、去重,把一個列表變成集合,就自動去重了
2、關係測試,測試兩組資料之間的交集、差集、並集等關係
我來舉個例子,前兩個月出了 iPhoneXS ,去年出了 iPhoneX,我現在想知道有多少人不僅去年買了 iPhoneX 今年也買了iPhoneXS ,如下兩個陣列:

iPhoneX = ['張三','李四','王五','趙六']
iPhoneXS = ['劉一','李四','周八','鄭十','張三']

我要得出兩部手機都買了的人按照之前學過的來做的話,肯定要兩部迴圈,如:

iPhoneX =
['張三','李四','王五','趙六'] iPhoneXS = ['劉一','李四','周八','鄭十','張三'] user = list() for i in iPhoneX: if i in iPhoneXS: user.append(i) print(user)

輸出結果為:['張三', '李四']

如果再更改需求,我需要把買過 iPhoneXSiPhoneX 的人合併在一起,並且去除重複購買的人該怎麼做呢,如果按照之前學過的幾種基本型別來做的話,我首先要再建立一個 陣列,並且把買過 iPhoneXiPhoneXS 的人拼接到一個數組中,然後根據已經得到的 user 迴圈判斷,刪除和 user

重複的所有資料,然後再把 user 拼接進去就得到了我想要的資料,思路是這樣沒錯,可是 python 還是嫌它太麻煩了,所以就有了一個 集合型別,來看看集合是怎麼操作的:

首先語法和 字典 一樣都是 {} 號包裹著的,和 字典 不同的是,在 字典 裡面是有 keyvalue 值的,而 集合 是沒有 key 的,他直接就是 value 值,如:

a = {1,2,3,4,5,6}

注意,如果 集合 內部沒有一個值,他預設是 字典 型別,我來做個測試判斷,如:

a = {1,2,3,4,5,6}
type(a)

>> <class 'set'> #集合型別
a = {} print(type(a)) >> <class 'dict'> #字典型別

集合中的內部元素有三個特性:

1、確定性(元素必須可 hash)
2、互異性(去重複)
3、無序性(集合中的元素沒有先後之分)

先看看它去重複的功能,還是用最上方的例子來解釋

iPhoneX = ['張三','李四','王五','趙六']
iPhoneXS = ['劉一','李四','周八','鄭十','張三']

arr = iPhoneX+iPhoneXS

print(set(arr))

>> {'趙六', '王五', '鄭十', '李四', '周八', '劉一', '張三'}

可以看到我直接用他的型別 set() 方法,就直接將一個數組去重並且轉成 集合型別,同樣的我用陣列的方法 list 再把它轉成陣列就直接 ok 了:

iPhoneX = ['張三','李四','王五','趙六']
iPhoneXS = ['劉一','李四','周八','鄭十','張三']

arr = iPhoneX+iPhoneXS

print(list(set(arr)))

>> ['劉一', '趙六', '李四', '周八', '王五', '鄭十', '張三']

這就是 集合 的強大之處,一個簡單的操作完成了很多複雜的邏輯化處理,關於 集合 的基本操作方法確實還有很多,下面我來一一演示

add(需要增加的內容) : 增加 (注意:這裡只能新增一個值,如果新增多個值會報錯)
update() : 增加(增加多個值,如果重複了會被自動剔除,注意:這裡的新增必須寫如一個數組
pop() : 隨機刪除(注意:這裡的可能在資料不多的情況下可能是刪除第一個或者最後一個,但是隻要資料量足夠大,它一定是隨機刪除的
remove(引數) : 指定刪除(通過傳遞引數指定刪除某一個元素,注意:如果指定的元素不存在,則會報錯
discard(引數) : 指定刪除(通過傳遞引數指定刪除某一個元素,和 remove() 方法相反的是如果不存在,並不會報錯)
clear() : 清空整個集合

add():

a = {1,2,3,4,5}
a.add(6)
print(a)

>> {1,2,3,4,5,6}

a.add(2)
print(a)
>> {1,2,3,4,5,6} #已經存在的值是增加不進去的,集合的特性就是不重複

update():

a = {1,2,3,4,5}
a.update([4,5,6,7,8,9,0]) # 在 update 方法裡面新增集合必須以陣列的方式加進去
print(a)

>> {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

pop():

a = {1,2,3,4,5,6,7,8,9,0}
a.pop()
print(a)

>> set({1, 2, 3, 4, 5, 6, 7, 8, 9})

remove():

a = {1,2,3,4,5,6,7,8,9,0}
a.remove(5)
print(a)

>> set({1, 2, 3, 4, 6, 7, 8, 9, 0}) #刪除完成後變數 a 已經沒有 5 這個變數值了

a.remove(5) #刪除沒有的元素在控制檯會報以下錯誤

>> Traceback (most recent call last):
     File "<stdin>", line 1, in <module>
   KeyError: 5

discard():

a = {1,2,3,4,5,6,7,8,9,0}
a.discard(5)
print(a)

>> set({1, 2, 3, 4, 6, 7, 8, 9, 0}) #刪除完成後變數 a 已經沒有 5 這個變數值了

a.discard(5) #控制檯並不會報錯

>>

clear():

a = {1,2,3,4,5,6,7,8,9,0}
a.clear()
print(a)

>> set() # 空集合

好了 基本集合類方法 已經講解完畢了,其實上面說了這麼多都是關於集合去重複的一些常規的 增刪改查,其實集合還有一個關鍵的重點,那就是 關係測試

關係測試

關係測試分為交集差集並集這麼幾種,可能很多朋友對這幾個關鍵詞比較迷惑,其實啊,在我看到 交集差集並集 這三種名稱的時候同樣的迷惑,先來了解以下這三種分別代表什麼意思,在來說說 集合 能怎麼處理這幾種關係測試。

交集:
如上方例子,再看下方示意圖,就是又買了 iPhoneX 也買了 iPhoneXS 的人,這樣型別的資料就是交集。

在這裡插入圖片描述

intersection() : 查詢交集資料或這直接簡寫成 &

intersection()

iPhoneX = ['張三','李四','王五','趙六']
iPhoneXS = ['劉一','李四','周八','鄭十','張三']
a = set(iPhoneX).intersection(set(iPhoneXS))
print(a)

>> {'張三', '李四'}

intersection() 簡寫 &

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}
print(iPhoneX & iPhoneXS)

>> {'張三', '李四'}

差集:

我們已經知道了怎麼獲取交集,什麼又是差集呢,差集就是非交集的都算是差集,看到下圖,我現在能獲取到 iPhoneXiPhoneXS 都買了的人但是我現在要獲取只買了 iPhoneXiPhoneXS 的人,那麼這種只買了 iPhoneXiPhoneXS 的人就是差集,如下圖:
在這裡插入圖片描述
difference() : 查詢差集資料或這直接簡寫成 -

difference()

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}

#查詢只購買了 iPhoneX 的人
a = iPhoneX.difference(iPhoneXS)
print(a)

>> {'趙六', '王五'}

difference() 簡寫

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}

#查詢只購買了 iPhoneX 的人
a = iPhoneX - iPhoneXS
print(a)

>> {'王五', '趙六'}

並集:

並集其實很好理解,就是兩個集合全部相加在一起,然後去除重複的內容就叫並集

union() : 將兩個集合轉換成一個集合,並且去除重複的內容可以簡寫成 |

union()

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}
a = iPhoneX.union(iPhoneXS)
print(a)

>> {'張三', '趙六', '鄭十', '周八', '劉一', '王五', '李四'}

union() 簡寫成 |

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}
a = iPhoneX | iPhoneXS
print(a)

>> {'張三', '趙六', '鄭十', '周八', '劉一', '王五', '李四'}

好了集合型別一共就是上方三種,可以算基本上完了,但是差集還有一個小知識點,那就是 對稱差集

對稱差集

對稱差集又是什麼呢?用上方的例子來說就是隻取買了 iPhoneXiPhoneXS 如果都買了就會被過濾掉,如果用上方的講過的幾個知識點來做的話,可能需要這樣做:

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}

a = iPhoneX - iPhoneXS #iPhoneX 的差集

b = list(iPhoneXS - iPhoneX) #iPhoneXS 的差集並且轉成陣列

a.update(b) 將陣列 b 新增進集合 a 裡

print(a)

>> {'王五', '鄭十', '周八', '劉一', '趙六'}

可以看到根據上方所學可以這樣就求出了只買了 iPhoneXiPhoneXS 的人,直接過濾了兩者都買了的人。

其實上方程式碼已經很簡潔了,可是 python 還是嫌棄他比較繁瑣,所以又提供了一個內建的方法:symmetric_difference()

symmetric_difference() : 求出對稱差集,可以簡寫成 ^

symmetric_difference()

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}
a = iPhoneX.symmetric_difference(iPhoneXS)
print(a)

>> {'周八', '鄭十', '王五', '趙六', '劉一'}

symmetric_difference() 簡寫方案 ^

iPhoneX = {'張三','李四','王五','趙六'}
iPhoneXS = {'劉一','李四','周八','鄭十','張三'}
a = iPhoneX ^ iPhoneXS
print(a)

>> {'鄭十', '趙六', '王五', '劉一', '周八'}

可以看到,對稱差集 就求出來了,接下來繼續往下看看集合的對應關係。

集合的對應關係

什麼是集合的對應關係呢?舉個最簡單的例子:
一個城市的多級聯動,省級以下是市級的單位,市級以上是省級,那麼在 python 裡面省級就是市級的 超集,市級就是省級的 子集
這個時候我有一份省級的人物名單和好幾份市級的人名單,如:

Province = {'a','b','c','d','e','f','g'} #省級

city1 = {'w','e'} #城市一
city2 = {'f','e'} #城市二
city3 = {'j','k'} #城市三
city4 = {'z','k'} #城市四
city5 = {'a','h'} #城市五

我需要判斷這些市級有那些是屬於這個省級的子集那麼該怎麼做呢?python 也為我們提供了可以判斷層級關係的內建方法:

issubset() : 判斷一個集合內的所有元素是否被包含在另一個集合內 (簡寫方式為 <= )
issuperset() : 判斷一個集合內的元素是否包含了另一個集合的所有元素(和上方相反簡寫方式為 >=

根據這個城市的小例子,上方資料不是很多,一眼就可以看到只有城市二的所有元素,是省級單位都包括了的,所以其他的城市我就不測試了,直接用城市二來測試,如:

Province = {'a','b','c','d','e','f','g'} #省級單位
city2 = {'f','e'} #城市二
a = Province.issuperset(city2) #判斷省份裡面是否包含了 市級
b = city2.issubset(Province) #判斷市級是否被包含在省級內
print(a)
print(b)

>> True
>> True

簡寫方式:

Province = {'a','b','c','d','e','f','g'} #省級單位
city2 = {'f','e'} #城市二
a = Province >= city2 #判斷省份裡面是否包含了 市級
b = city2 <= Province #判斷市級是否被包含在省級內
print(a)
print(b)

>> True
>> True

python 還為我們提供了一個方法用來判斷兩個集合是不是不相交的。

isdisjoint() : 用來判斷兩個集合是不是不相交的,如果相交,返回 False, 如果不相交,返回 True

isdisjoint()

city2 = {'f','e'} 
a = city2.isdisjoint(city2) #city2和它自身是相交的,所以返回的是 false ,只有不相交才會返回 true
print(a)

>> False

好了,還有最後兩個內建方法:

difference_update() : 差集賦值
intersection_update() : 交集賦值

difference_update()

a = {1,2,3,4,5,6,7,8,9,0}
b = {1,2,3,4,5,6,7}
a.difference_update(b) #將取到的差集賦值給 a 改變了 a 原有的值
print(a)

>> {0, 8, 9}

intersection_update()

a = {1,2,3,4,5,6,7,8,9,0}
b = {1,2,3,4,5,6,7}
a.intersection_update(b) #將取到的交集賦值給 a 改變了 a 原有的值

print(a)

好了關於集合型別基本上全部完了,加上前面的幾個章節基本上關於 python 的所有基本型別就徹底學完了要學習關於 python 新的知識了。