1. 程式人生 > >mysql實現隨機查詢的多種方法

mysql實現隨機查詢的多種方法

一、隨機查詢一條資料

方法一:SELECT * FROM `table` ORDER BY RAND() limit 1

評價:不建議使用,效率非常低,官方文件中進行說明:Order By和RAND()連用,會多次掃描表,導致速度變慢。

方法二:SELECT * FROM `table` 
  WHERE id >= (SELECT floor(RAND() * (SELECT MAX(id) FROM `table`)))  
  ORDER BY id LIMIT 1;

      解釋:SELECT MAX(id) FROM `table` 這句話查詢出最大的id值 

               SELECT floor(RAND() * (SELECT MAX(id) FROM `table`)) 這句獲取一個小於MAX(id)的隨機數

WHERE id >= (SELECT floor(RAND() * (SELECT MAX(id) FROM `table`))) 這句話篩選出所有的大於生成隨機數的id的行

    然後最後就把大於這個隨機id的行查詢出來,然後按照id排序,選擇第一個,就相當與獲取了所有行中隨機的一行。

         評價:有問題,如果id不是從0開始的話,比如從10000開始自增,那麼 SELECT floor(RAND() * (SELECT MAX(id) FROM `table`)) 得到的將是會喲很大概率得到小於10000的值,經過where限定的查詢結果將會是所有的查詢結果的機率變大,最後limit 1獲取的是第一行資料的機率變高。

方法三:SELECT * FROM `table` 
WHERE id >= (SELECT floor( RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`)) + (SELECTMIN(id) FROM `table`)))   ORDER BY id LIMIT 1;

方法四:SELECT * 
FROM `table` AS t1 JOIN (SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+

(SELECT MIN(id) FROM `table`)) AS id) AS t2 
WHERE t1.id >= t2.id 
ORDER BY t1.id LIMIT 1;

評價:解決了方法二中MAX(id)的問題,RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`)) + (SELECTMIN(id) FROM `table`)可以獲取MAX(id)和MIN(id)中的隨機數。

方法四要比方法三稍快一點,http://blog.csdn.net/zxl315/article/details/2435368 這篇部落格指出,15w條資料前者花費時間 0.147433 秒,後者花費時間 0.015130 秒。

以上解決方案都預設有一個不重複的數字欄位,其實現在很多表的設計都是以一個自增段作為主鍵,當然還有一些是以uuid作為主鍵的,而沒有數字鍵,這樣的話,可以用mysql的函式將uuid的字串轉換成數字。而且還有一個問題,如果id欄位的數字分佈不均勻的話(比如按照1,4,5,6,7,8,45這樣分佈),也會造成隨機查詢的不合理,但是這裡就不討論那麼複雜的問題了。

 

二、隨機查詢多條資料

方法一:把隨機查詢一條資料的limit 1修改成limit 5

評價:這樣獲取的資料會是連續的。

方法二:

SELECT * 

FROM `table` AS t1 JOIN (

SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+(SELECT MIN(id) FROM `table`)) AS id 

from `table` limit 50) AS t2 on t1.id=t2.id

ORDER BY t1.id LIMIT 1;

解釋:

SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+(SELECT MIN(id) FROM `table`)) AS id 

from `table` limit 50)這樣會獲取50個隨機數字,然後on t1.id=t2.id會挑選出不大於50行的隨機資料,然後取5條就好了。

方法一:SELECT * FROM `table` ORDER BY RAND() limit 1

評價:不建議使用,效率非常低,官方文件中進行說明:Order By和RAND()連用,會多次掃描表,導致速度變慢。

方法二:SELECT * FROM `table` 
  WHERE id >= (SELECT floor(RAND() * (SELECT MAX(id) FROM `table`)))  
  ORDER BY id LIMIT 1;

      解釋:SELECT MAX(id) FROM `table` 這句話查詢出最大的id值 

               SELECT floor(RAND() * (SELECT MAX(id) FROM `table`)) 這句獲取一個小於MAX(id)的隨機數

WHERE id >= (SELECT floor(RAND() * (SELECT MAX(id) FROM `table`))) 這句話篩選出所有的大於生成隨機數的id的行

    然後最後就把大於這個隨機id的行查詢出來,然後按照id排序,選擇第一個,就相當與獲取了所有行中隨機的一行。

         評價:有問題,如果id不是從0開始的話,比如從10000開始自增,那麼 SELECT floor(RAND() * (SELECT MAX(id) FROM `table`)) 得到的將是會喲很大概率得到小於10000的值,經過where限定的查詢結果將會是所有的查詢結果的機率變大,最後limit 1獲取的是第一行資料的機率變高。

方法三:SELECT * FROM `table` 
WHERE id >= (SELECT floor( RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`)) + (SELECTMIN(id) FROM `table`)))   ORDER BY id LIMIT 1;

方法四:SELECT * 
FROM `table` AS t1 JOIN (SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+

(SELECT MIN(id) FROM `table`)) AS id) AS t2 
WHERE t1.id >= t2.id 
ORDER BY t1.id LIMIT 1;

評價:解決了方法二中MAX(id)的問題,RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`)) + (SELECTMIN(id) FROM `table`)可以獲取MAX(id)和MIN(id)中的隨機數。

方法四要比方法三稍快一點,http://blog.csdn.net/zxl315/article/details/2435368 這篇部落格指出,15w條資料前者花費時間 0.147433 秒,後者花費時間 0.015130 秒。

以上解決方案都預設有一個不重複的數字欄位,其實現在很多表的設計都是以一個自增段作為主鍵,當然還有一些是以uuid作為主鍵的,而沒有數字鍵,這樣的話,可以用mysql的函式將uuid的字串轉換成數字。而且還有一個問題,如果id欄位的數字分佈不均勻的話(比如按照1,4,5,6,7,8,45這樣分佈),也會造成隨機查詢的不合理,但是這裡就不討論那麼複雜的問題了。

 

二、隨機查詢多條資料

方法一:把隨機查詢一條資料的limit 1修改成limit 5

評價:這樣獲取的資料會是連續的。

方法二:

SELECT * 

FROM `table` AS t1 JOIN (

SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+(SELECT MIN(id) FROM `table`)) AS id 

from `table` limit 50) AS t2 on t1.id=t2.id

ORDER BY t1.id LIMIT 1;

解釋:

SELECT ROUND(RAND() * ((SELECT MAX(id) FROM `table`)-(SELECT MIN(id) FROM `table`))+(SELECT MIN(id) FROM `table`)) AS id 

from `table` limit 50)這樣會獲取50個隨機數字,然後on t1.id=t2.id會挑選出不大於50行的隨機資料,然後取5條就好了。