1. 程式人生 > >django中聚合aggregate和annotate GROUP BY的使用方法

django中聚合aggregate和annotate GROUP BY的使用方法

接觸django已經很長時間了,但是使用QuerySet查詢集的方式一直比較低端,只會使用filter/Q函式/exclude等方式來查詢,資料量比較小的時候還可以,但是如果資料量很大,而且查詢比較複雜,那麼如果還是使用多個filter進行查詢效率就會很低。就趁著清明放假的時間,跑來公司乾點私活。輸出成這篇文件,一是加深印象,提高熟練度;二是分享出來,造福大家~

提高查詢資料庫效率的方案有兩種:

第一種,是使用原生的SQL語句來進行查詢,這樣的優點在於能夠完全按照開發者的意圖來執行,效率會很高,但是缺點也很明顯:1.開發者需要非常熟悉SQL語句,加大開發者的工作量,同時,夾雜著SQL的專案也不利於以後程式的維護,增大程式的耦合度。2.若查詢條件是動態變化的,則會使開發變得更加困難。

django為了解決這一難題,提供了aggregate(聚合函式)和annotate(在aggregate的基礎上進行GROUP BY操作)。

下面,就來介紹第二種方法。

一. aggregate的使用方法

今天在同事的指點下,仔細看了django中annotate的使用方法,會根據查詢條件來動態生成SQL語句,提高組合查詢的效率。

理解aggregate的關鍵在於理解SQL中的聚合函式:以下摘自百度百科:SQL基本函式,聚合函式對一組值執行計算,並返回單個值。除了 COUNT 以外,聚合函式都會忽略空值。 常見的聚合函式有AVG / COUNT / MAX / MIN /SUM 等。

aggregate就是在django中實現聚合函式的。先來看aggregate的使用場景:在專案中有時候你想要從資料庫中取出一個彙總的集合。我們使用django官方的例子:

from django.db import models

class Author(models.Model):
    name = models.CharField(max_length=100)
    age = models.IntegerField()

class Publisher(models.Model):
    name = models.CharField(max_length=300)
    num_awards = models.IntegerField()

class
Book(models.Model):
name = models.CharField(max_length=300) pages = models.IntegerField() price = models.DecimalField(max_digits=10, decimal_places=2) rating = models.FloatField() authors = models.ManyToManyField(Author) publisher = models.ForeignKey(Publisher) pubdate = models.DateField() class Store(models.Model): name = models.CharField(max_length=300) books = models.ManyToManyField(Book) registered_users = models.PositiveIntegerField()

如果我們使用aggregate來進行計數:

>>> from django.db.models import Count
>>> pubs = Publisher.objects.aggregate(num_books=Count('book'))
>>> pubs
{'num_books': 27}

而且aggregate不單單可以求和,還可以求平均Avg,最大最小等等。

>>> from django.db.models import Avg
>>> Book.objects.all().aggregate(Avg('price'))
{'price__avg': 34.35}
# Cost per page  輸出的名字同樣可以指定,比如price_per_page
>>> from django.db.models import F, FloatField, Sum
>>> Book.objects.all().aggregate(
... price_per_page=Sum(F('price')/F('pages'), output_field=FloatField()))
{'price_per_page': 0.4470664529184653}

通過上面的介紹,我們可以知道,aggregate的邏輯比較簡單,應用場景比較窄,如果你想要對資料進行分組(GROUP BY)後再聚合的操作,則需要使用annotate來實現。

二. annotate的使用方法

首先,假設有這麼一個models:

# python:2.7.9
# django:1.7.8

class MessageTab(models.Model):
    msg_sn = models.CharField(max_lenth=20, verbose_name=u'編號')
    msg_name = models.CharField(max_length=50, verbose_name=u'訊息名稱')
    message_time = models.DateTimeField(verbose_name=u'訊息出現時間')
    msg_status = models.CharField(max_length=50, default='未處理', verbose_name=u'訊息狀態')
    class Meta:
        db_table = 'message_tab'

如果在開發過程中,有這麼一個需求:查詢各個訊息狀態的數量。那麼我們經常會使用filter(…).count(…)來進行查詢。現在我們可以使用:

    msgS = MessageTab.objects.values_list('msg_status').annotate(Count('id'))

其中,id為資料庫自動生成的自增欄位。values_list的用法自行Google,或者print出來看一看。

此時,資料庫實際執行的程式碼,可以通過:

    print msgS.query

打印出來。可以看到:

SELECT `message_tab`.`msg_status`, COUNT(`message_tab`.`id`) AS `id__count` FROM `message_tab` GROUP BY `message_tab`.`msg_status` ORDER BY NULL

很直觀明瞭。通過msg_status來進行group by。如果想自定義id__count,比如指定為msg_num,則可以使用:annotate(msg_num=Count(‘id’))

當存在多個查詢條件時,比如查詢最近7天內,message_name屬於某個分組內的訊息,則可以使用Q函式:

    date_end = now().date() + timedelta(days=1)
    date_start = date_end - timedelta(days=7)
    messageTimeRange = (date_start, date_end)
    GroupList = getGroupIdLis(request.user)  # 返回當前使用者能查詢的group的一個列表。。僅做參考用
    qQueryList = [Q(message_time__range=messageTimeRange), Q(message_name__in=GroupList)] # 可以有多個Q函式查詢條件

    msgS = MessageTab.objects.filter(reduce(operator.and_, qQueryList)).values_list('msg_status').annotate(msg_num=Count('id'))

再次呼叫print msgS.query可看到SQL語句:

SELECT `message_tab`.`msg_status`, COUNT(`message_tab`.`id`) AS `msg_num` FROM `message_tab` WHERE (`message_tab`.`message_time` BETWEEN 2017-03-27 00:00:00 AND 2017-04-03 00:00:00 AND `message_tab`.`message_name` IN (1785785, 78757, 285889, 2727333, 7272957, 786767)) GROUP BY
 `message_tab`.`msg_status` ORDER BY NULL

是不是很完美!!

ayocross 2017.04.02