1. 程式人生 > >PHP7原始碼之array_flip函式分析

PHP7原始碼之array_flip函式分析

以下原始碼基於 PHP 7.3.8

array array_flip ( array $array )
(PHP 4, PHP 5, PHP 7)
array_flip — 交換陣列中的鍵和值

array_flip 函式的原始碼在 /ext/standard/array.c 檔案中。

/* {{{ proto array array_flip(array input)
   Return array with key <-> value flipped */
PHP_FUNCTION(array_flip)
{
    // 定義變數
    zval *array, *entry, data;
    zend_ulong num_idx;
    zend_string *str_idx;
    
    // 解析陣列引數
    ZEND_PARSE_PARAMETERS_START(1, 1)
        Z_PARAM_ARRAY(array)
    ZEND_PARSE_PARAMETERS_END();
    
    // 初始化返回陣列
    array_init_size(return_value, zend_hash_num_elements(Z_ARRVAL_P(array)));
    
    // 遍歷每個元素,並執行鍵值交換操作
    ZEND_HASH_FOREACH_KEY_VAL(Z_ARRVAL_P(array), num_idx, str_idx, entry) {
        ZVAL_DEREF(entry);
        if (Z_TYPE_P(entry) == IS_LONG) {
            if (str_idx) {
                ZVAL_STR_COPY(&data, str_idx);
            } else {
                ZVAL_LONG(&data, num_idx);
            }
            zend_hash_index_update(Z_ARRVAL_P(return_value), Z_LVAL_P(entry), &data);
        } else if (Z_TYPE_P(entry) == IS_STRING) {
            if (str_idx) {
                ZVAL_STR_COPY(&data, str_idx);
            } else {
                ZVAL_LONG(&data, num_idx);
            }
            zend_symtable_update(Z_ARRVAL_P(return_value), Z_STR_P(entry), &data);
        } else {
            php_error_docref(NULL, E_WARNING, "Can only flip STRING and INTEGER values!");
        }
    } ZEND_HASH_FOREACH_END();
}
/* }}} */

引數解析 Z_PARAM_ARRAY

先看引數解析部分

    ZEND_PARSE_PARAMETERS_START(1, 1)
        Z_PARAM_ARRAY(array)
    ZEND_PARSE_PARAMETERS_END();

Z_PARAM_ARRAY 的主要作用是指定一個引數使陣列解析為 zval。關於它的詳細資料可以點此檢視

Specify a parameter that should parsed as an array into a zval.

返回值 return_value

解析完引數後,返回陣列就被初始化了:

    array_init_size(return_value, zend_hash_num_elements(Z_ARRVAL_P(array)));

ZEND_FUNCTION 本身不像 PHP 一樣用 return 返回值,而是修改 return_value 指標所指向的變數,核心會把 return_value 指向的變數作為使用者端呼叫此函式後得到的返回值。
Z_ARRVAL_P 的定義如下:

    #define Z_ARRVAL_P(zval_p)          Z_ARRVAL(*(zval_p))

zend_hash_num_elements 函式程式碼如下:

    #define zend_hash_num_elements(ht) \
        (ht)->nNumOfElements

array_init_size

函式程式碼如下:

define array_init_size(arg, size)  ZVAL_ARR((arg), zend_new_array(size))

返回陣列的初始化主要分為 3 步:
Z_ARRVAL_P 巨集從 zval 裡面提取值到雜湊表;
zend_hash_num_elements 提取雜湊表元素的個數(nNumOfElements 屬性)。
array_init_size 使用 size 變數初始化陣列。

鍵值交換

ZEND_HASH_FOREACH_KEY_VAL 巨集定義的內容如下:

#define ZEND_HASH_FOREACH_KEY_VAL(ht, _h, _key, _val) \
    ZEND_HASH_FOREACH(ht, 0); \
    _h = _p->h; \
    _key = _p->key; \
    _val = _z;

繼續展開 ZEND_HASH_FOREACH

#define ZEND_HASH_FOREACH(_ht, indirect) do { \
        HashTable *__ht = (_ht); \
        Bucket *_p = __ht->arData; \
        Bucket *_end = _p + __ht->nNumUsed; \
        for (; _p != _end; _p++) { \
            zval *_z = &_p->val; \
            if (indirect && Z_TYPE_P(_z) == IS_INDIRECT) { \
                _z = Z_INDIRECT_P(_z); \
            } \
            if (UNEXPECTED(Z_TYPE_P(_z) == IS_UNDEF)) continue;

ZEND_HASH_FOREACH_END 的定義如下:

#define ZEND_HASH_FOREACH_END() \
        } \
    } while (0)

ZEND_HASH_FOREACH_KEY_VAL(Z_ARRVAL_P(array), num_idx, str_idx, entry) {
    // code
}

完全展開如下:

do { 
    Bucket *_p = (_ht)->arData;  // Z_ARRVAL_P(array) ---> ht ---> _ht
    Bucket *_end = _p + (_ht)->nNumUsed;  // 起始地址+偏移地址
    for (; _p != _end; _p++) { 
        zval *_z = &_p->val; 
        if (indirect && Z_TYPE_P(_z) == IS_INDIRECT) { 
            _z = Z_INDIRECT_P(_z); 
        } 
        if (UNEXPECTED(Z_TYPE_P(_z) == IS_UNDEF)) continue;
        _h = _p->h;  // zend_ulong num_idx ---> _h
        _key = _p->key; // zend_string *str_idx ---> _key
        _val = _z; // zval *entry ---> _val
        {
           //code
        } 
    } 
} while (0)

主要作用是迭代一個雜湊表的鍵和值。在上面完全展開的程式碼中,省略的程式碼 code 主要實現交換鍵值。

  • 如果陣列元素的索引為數字:
if (Z_TYPE_P(entry) == IS_LONG) {
    if (str_idx) {
        ZVAL_STR_COPY(&data, str_idx);
    } else {
        ZVAL_LONG(&data, num_idx);
    }
    zend_hash_index_update(Z_ARRVAL_P(return_value), Z_LVAL_P(entry), &data);
}

zend_hash_index_update 的三個引數分別是:需要更新的雜湊表 Z_ARRVAL_P(return_value),整型下標 Z_LVAL_P(entry),值 &data
如果str_idx 不為空,就將 str_idx 拷貝給 data ,反之將 num_idx 拷貝給 data ,然後使用 zend_hash_index_update 函式將值插入/更新到返回陣列中。

  • 如果陣列元素的索引為字串:
else if (Z_TYPE_P(entry) == IS_STRING) {
    if (str_idx) {
        ZVAL_STR_COPY(&data, str_idx);
    } else {
        ZVAL_LONG(&data, num_idx);
    }
    zend_symtable_update(Z_ARRVAL_P(return_value), Z_STR_P(entry), &data);
}

如果str_idx 不為空,就將 str_idx 拷貝給 data ,反之將 num_idx 拷貝給 data ,然後使用 zend_symtable_update 函式將值插入/更新到返回陣列中。

  • 陣列元素的值只能為字串或整數,否則報 warning 錯誤:
else {
    php_error_docref(NULL, E_WARNING, "Can only flip STRING and INTEGER values!");
}

以上就是 array_flip 函式的原始碼分析。(END)


後記:其實一開始的標題是『為什麼array_flip(array_flip())比array_unique()快』,於是有了以下的篇幅☟,再然後覺得要追根溯源,於是去研究 PHP7 的原始碼,於是標題改成了『PHP7原始碼解釋為什麼array_flip(array_flip())比array_unique()快』,就有了上邊的篇幅☝,可沒想到光一個 array_flip 函式的原始碼整理就用去了不少時間,遂定為『PHP7原始碼之array_flip函式』,等後面得了時間再整理 array_unique 函式的筆記。(捂臉)
今天在專案中看到這樣一句程式碼

$userIds = array_flip(array_flip($ids));

顯而易見,這是為了去重,因為 array_flip 函式可以交換陣列中的鍵和值,原來重複的值會變為相同的鍵。再進行一次鍵值互換,把鍵和值換回來則可以完成去重。
想起幾年前跟朋友學 PHP 時,朋友說去重函式 array_unique 效能不高,要少用。只不過那時是初學,沒有刨根問底。可今天不忙,就親自動手測試了一下,簡易程式碼如下:

//執行開始
$startTime = getMicrotime();
$startMemory = getUseMemory();

$arr = [1,2,3...]; // 資料略

array_unique($arr);
// array_flip(array_flip($arr));

//執行結束
$endTime = getMicrotime();
$endMemory = getUseMemory();

//執行結果
echo "執行耗時:" . ($endTime - $startTime) * 1000 . '毫秒';
echo "佔用記憶體:" . ($endMemory - $startMemory) . 'kb';

/**
* 獲取時間(微秒)
*/
function getMicrotime(){
    list($usec, $sec) = explode(' ', microtime());
    return (float)$usec + (float)$sec;
}

/**
* 獲取使用記憶體(kb)
*/
function getUseMemory(){
    $useMemory = round(memory_get_usage(true) / 1024, 2);
    return $useMemory;
}

注:程式碼在終端執行:CentOS 7.4,PHP 7.3.4。

1w個元素,15個重複元素:

array_unique 0.84280967712402 ms 0.95009803771973 ms 0.85306167602539 ms 0.90694427490234 ms 0.87213516235352 ms
0 kb 0 kb 0 kb 0 kb 0 kb
array_flip 0.7328987121582 ms 0.74005126953125 ms 0.76198577880859 ms 0.77080726623535 ms 0.79989433288574 ms
0 kb 0 kb 0 kb 0 kb 0 kb

可以看到 array_unique 函式去重確實比 array_flip 函式所用時間長一些,但差異不大。

如果是10w個元素,10個重複元素:

array_unique 15.263795852661 ms 23.360013961792 ms 15.237092971802 ms 15.599012374878 ms 15.784978866577 ms
0 kb 0 kb 0 kb 0 kb 0 kb
array_flip 10.167121887207 ms 10.363101959229 ms 10.868072509766 ms 10.629892349243 ms 10.660171508789 ms
0 kb 0 kb 0 kb 0 kb 0 kb

可以看到兩個函式的耗時拉開了差距。相信隨著資料量的增大,耗時的差距也會更大