使用python往MySQL資料庫中匯入資料避免重複資料匯入
阿新 • • 發佈:2018-12-28
一般的,去處重複資料有兩個意義,一是完全重複的記錄,也即所有欄位均都重複,二是部分欄位重複的記錄。對於第一種重複,比較容易解決,只需在查詢語句中使用distinct關鍵字去重,幾乎所有資料庫系統都支援distinct操作。發生這種重複的原因主要是表設計不周,通過給表增加主鍵或唯一索引列即可避免。
select distinct * from table;
對於第二類重複問題,通常要求查詢出重複記錄中的任一條記錄。假設表t有id,name,address三個欄位,id是主鍵,有重複的欄位為name,address,要求得到這兩個欄位唯一的結果集。
select * from t t1 where t1.id = (select min(t2.id) from t t2 where t1.name = t2.name and t1.address = t2.address);
除此之外,提供三種在mysql中避免重複插入記錄方法,主要有ignore,Replace,ON DUPLICATE KEY UPDATE三種方法,根據實際情況修改使用。
方案一:使用ignore關鍵字
如果是用主鍵primary或者唯一索引unique區分了記錄的唯一性,避免重複插入記錄可以使用:
INSERT IGNORE INTO `table_name` (`id`, `name`, `adress`) VALUES ('22, 'cj', '8999');
這樣當有重複記錄就會忽略,執行後返回數字0
還有個應用就是複製表,避免重複記錄:
INSERT IGNORE INTO `table_1` (`name`) SELECT `name` FROM `table_2`;
方案二:使用Replace
REPLACE INTO `table_name`(`col_name`, ...) VALUES (...);
REPLACE INTO `table_name` (`col_name`, ...) SELECT ...;
REPLACE INTO `table_name` SET `col_name`='value',
REPLACE的執行與INSERT很相像,但是如果舊記錄與新記錄有相同的值,則在新記錄被插入之前,舊記錄被刪除.
if not exists (select name from table where name= 'cj') insert into table(name, update_time) values('1', getdate()) else update table set update_time = getdate() where name= 'cj'
方案三:ON DUPLICATE KEY UPDATE
可以在INSERT INTO……後面加上 ON DUPLICATE KEY UPDATE方法來實現。如果您指定了ON DUPLICATE KEY UPDATE,並且插入行後會導致在一個UNIQUE索引或PRIMARY KEY中出現重複值,則執行舊行UPDATE。
例如,如果列a被定義為UNIQUE,並且包含值1,則以下兩個語句具有相同的效果:
INSERT INTO `table` (`a`, `b`, `c`) VALUES (1, 2, 3) ON DUPLICATE KEY UPDATE `c`=`c`+1;
UPDATE `table` SET `c`=`c`+1 WHERE `a`=1;
如果行作為新記錄被插入,則受影響行的值為1;如果原有的記錄被更新,則受影響行的值為2。