1. 程式人生 > >使用python往MySQL資料庫中匯入資料避免重複資料匯入

使用python往MySQL資料庫中匯入資料避免重複資料匯入

一般的,去處重複資料有兩個意義,一是完全重複的記錄,也即所有欄位均都重複,二是部分欄位重複的記錄。對於第一種重複,比較容易解決,只需在查詢語句中使用distinct關鍵字去重,幾乎所有資料庫系統都支援distinct操作。發生這種重複的原因主要是表設計不周,通過給表增加主鍵或唯一索引列即可避免。

select distinct * from table;

對於第二類重複問題,通常要求查詢出重複記錄中的任一條記錄。假設表t有id,name,address三個欄位,id是主鍵,有重複的欄位為name,address,要求得到這兩個欄位唯一的結果集。

select * from t t1
 
 where t1.id =
 
 (select min(t2.id)
 
  from t t2
 
  where t1.name = t2.name and t1.address = t2.address);

除此之外,提供三種在mysql中避免重複插入記錄方法,主要有ignore,Replace,ON DUPLICATE KEY UPDATE三種方法,根據實際情況修改使用。
方案一:使用ignore關鍵字
如果是用主鍵primary或者唯一索引unique區分了記錄的唯一性,避免重複插入記錄可以使用:

INSERT IGNORE INTO `table_name` (`id`, `name`, `adress`) VALUES ('22, 'cj', '8999'); 

這樣當有重複記錄就會忽略,執行後返回數字0
還有個應用就是複製表,避免重複記錄:

INSERT IGNORE INTO `table_1` (`name`) SELECT `name` FROM `table_2`; 

方案二:使用Replace

REPLACE INTO `table_name`(`col_name`, ...) VALUES (...);
REPLACE INTO `table_name` (`col_name`, ...) SELECT ...;
REPLACE INTO `table_name` SET `col_name`='value',

REPLACE的執行與INSERT很相像,但是如果舊記錄與新記錄有相同的值,則在新記錄被插入之前,舊記錄被刪除.

if not exists (select name from table where name= 'cj')   insert into table(name, update_time) values('1', getdate()) 
else    update table set update_time = getdate() where name= 'cj'

方案三:ON DUPLICATE KEY UPDATE
可以在INSERT INTO……後面加上 ON DUPLICATE KEY UPDATE方法來實現。如果您指定了ON DUPLICATE KEY UPDATE,並且插入行後會導致在一個UNIQUE索引或PRIMARY KEY中出現重複值,則執行舊行UPDATE。
例如,如果列a被定義為UNIQUE,並且包含值1,則以下兩個語句具有相同的效果:

INSERT INTO `table` (`a`, `b`, `c`) VALUES (1, 2, 3) ON DUPLICATE KEY UPDATE `c`=`c`+1; 
UPDATE `table` SET `c`=`c`+1 WHERE `a`=1;

如果行作為新記錄被插入,則受影響行的值為1;如果原有的記錄被更新,則受影響行的值為2。