人臉檢測中，如何構建輸入影象金字塔

阿新 • • 發佈：2018-12-04

寫在前面
人臉檢測中的影象金字塔
程式碼實現
- MTCNN
- Seetaface
總結
參考

寫在前面

在文章《特徵，特徵不變性，尺度空間與影象金字塔》中我們初步談到了影象金字塔，在這篇文章中將介紹如何在人臉檢測任務中構建輸入影象金子塔。

人臉檢測中的影象金字塔

人臉檢測任務，輸入是一張影象，輸出影象中人臉所在位置的Bounding Box。因為卷積神經網路強大的特徵表達能力，現在的人臉檢測方法通常都基於卷積神經網路，如MTCNN等。網路確定後，通常只適用於檢測一定尺寸範圍內的人臉，比如MTCNN中的P-Net，用於判斷\(12 \times 12\)

大小範圍內是否含有人臉，但是輸入影象中人臉的尺寸是未知的，因此需要構建影象金字塔，以獲得不同尺寸的影象，只要某個人臉被放縮到\(12\times12\)左右，就可以被檢測出來。下圖為MTCNN 的Pipeline，來自連結。

MTCNN Pipeline

構建金字塔需要解決幾個問題：

金字塔要建多少層，即一共要生成多少張影象
每張影象的尺寸如何確定

下面直接從程式碼層面看是如何實現的，也可以直接跳到總結檢視結論。

程式碼實現

MTCNN

以下為MTCNN 人臉檢測 matlab程式碼
MTCNN detect face code

在人臉檢測，通常要設定要原圖中要檢測的最小人臉尺寸，原圖中小於這個尺寸的人臉不必care，MTCNN程式碼中為minsize=20

，MTCNN P-Net用於檢測\(12\times12\)大小的人臉。如果輸入影象為\(100 \times 120\)，其中人臉最小為\(20 \times 20\)，最大為\(100 \times 100\)——對應影象較短邊長，為了將人臉放縮到\(12 \times 12\)，同時保證相鄰層間縮放比率factor=0.709，則金子塔中影象尺寸依次為\(60 \times 72\)、\(52 \times 61\)、\(36 \times 43\)、\(26 \times 31\)、\(18 \times 22\)、\(13 \times 16\)，其中\(60 \times 72\)對應把\(20\times 20\)

的人臉縮放到\(12 \times 12\)，\(13 \times 16\)對應把\(100 \times 100\)的人臉縮放到\(12 \times 12\)（在保證縮放比率一致的情況下近似）。

現在就可以回答上面的兩個問題了：

給定輸入影象，根據設定的最小人臉尺寸以及網路能檢測的人臉尺寸，確定影象金子塔中最大影象和最小影象
根據設定的金字塔層間縮放比率，確定每層影象的尺寸

Seetaface

可以再看一下Seetaface中是如何構建影象金字塔的，Seetaface人臉檢測使用的是非深度學習的方法，檢測視窗大小impl_->kWndSize = 40，其對應MTCNN中網路適宜檢測的人臉大小。

// 設定最大人臉，計算最大
void FaceDetection::SetMinFaceSize(int32_t size) {
  if (size >= 20) {
    impl_->min_face_size_ = size;
    impl_->img_pyramid_.SetMaxScale(impl_->kWndSize / static_cast<float>(size));
  }
}

// 設定最大尺度
inline void SetMaxScale(float max_scale) {
  max_scale_ = max_scale;
  scale_factor_ = max_scale;
  UpdateBufScaled();
}

// 設定最小人臉
void FaceDetection::SetMaxFaceSize(int32_t size) {
  if (size >= 0)
    impl_->max_face_size_ = size;
}

// 設定相鄰層放縮比率
void FaceDetection::SetImagePyramidScaleFactor(float factor) {
  if (factor >= 0.01f && factor <= 0.99f)
    impl_->img_pyramid_.SetScaleStep(static_cast<float>(factor));
}

// 在金字塔中檢測人臉
std::vector<seeta::FaceInfo> FaceDetection::Detect(
    const seeta::ImageData & img) {
  int32_t min_img_size = img.height <= img.width ? img.height : img.width;
  min_img_size = (impl_->max_face_size_ > 0 ? (min_img_size >= impl_->max_face_size_ ? 
  impl_->max_face_size_ : min_img_size) : min_img_size);
  // ...
  // 最小尺度為 impl_->kWndSize / min_img_size，在Seetaface中impl_->kWndSize=40
  impl_->img_pyramid_.SetMinScale(static_cast<float>(impl_->kWndSize) / min_img_size);
  // ...
  impl_->pos_wnds_ = impl_->detector_->Detect(&(impl_->img_pyramid_));
  // ...
}

// 金子塔中對應尺度的影象
const seeta::ImageData* ImagePyramid::GetNextScaleImage(float* scale_factor) {
  // initial scale_factor_ = max_scale = impl_->kWndSize / min_face_size
  if (scale_factor_ >= min_scale_) { // min_scale_ = impl_->kWndSize / min_img_size
    if (scale_factor != nullptr)
      *scale_factor = scale_factor_;

    width_scaled_ = static_cast<int32_t>(width1x_ * scale_factor_);
    height_scaled_ = static_cast<int32_t>(height1x_ * scale_factor_);

    seeta::ImageData src_img(width1x_, height1x_);
    seeta::ImageData dest_img(width_scaled_, height_scaled_);
    src_img.data = buf_img_;
    dest_img.data = buf_img_scaled_;
    seeta::fd::ResizeImage(src_img, &dest_img);
    scale_factor_ *= scale_step_;

    img_scaled_.data = buf_img_scaled_;
    img_scaled_.width = width_scaled_;
    img_scaled_.height = height_scaled_;
    return &img_scaled_;
  } else {
    return nullptr;
  }
}

看程式碼就很清晰了，與MTCNN是相通的。

總結

人臉檢測中的影象金字塔構建，涉及如下資料：

輸入影象尺寸，定義為(h, w)
最小人臉尺寸，定義為 min_face_size
最大人臉尺寸，如果不設定，為影象高寬中較短的那個，定義為max_face_size
網路/方法能檢測的人臉尺寸，定義為net_face_size
金字塔層間縮放比率，定義為factor

縮放影象是為了將影象中的人臉縮放到網路能檢測的適宜尺寸，影象金字塔中
最大尺度max_scale = net_face_size / min_face_size，
最小尺度min_scale = net_face_size / max_face_size，
中間的尺度scale_n = max_scale * (factor ^ n)，
對應的影象尺寸為(h_n, w_n) = (h * scale_n, w_n * scale_n)。

以上。

參考

人臉檢測中，如何構建輸入影象金字塔

目錄寫在前面人臉檢測中的影象金字塔程式碼實現 MTCNN Seetaface 總結參考部落格：blog.shinelee.me | 部落格園 | CSDN 寫在前面在文章《特徵，特徵不變性，尺度空間與影象金字塔》中我們初步談到了影象金

人臉檢測中幾種框框大小的選擇~

gravity 經濟自己位置之間實現 track 之前訓練樣本人臉檢測應用極為廣泛，內部細節也偏多，尤其是涉及到幾種類型的框，這幾種框的大小之前有著千絲萬縷的聯系，對檢測性能的好壞影響程度大小不一。本篇文章基於自己在人臉檢測方面的經驗，說說對這些框之間關系的

字符串數組輸入3個字符串，要求按由小到大的字母順序輸出; 輸入n個學生的姓名和學號到字符串數組中，在輸入一個姓名，如果班級有該生則返回其信息，否則返回本班無此人

emp zhang 查詢 i+1 [1] 返回思路 lan 字符數組輸入3個字符串，要求按由小到大的字母順序輸出如輸入franch england china，輸出結果是china england franch 三個數排序輸出，比較三個數的大小怎麽做？ a=18 b

先宣告一個數組int[] arr，初始化長度為5 從鍵盤輸入數字存到陣列中，每輸入一個數字，詢問是否繼續（Y/N），如果是Y，就繼續，直到輸入N結束輸入如果陣列存滿了，要實現陣列擴容的效果（提示，新

package com.atguigu.java; import java.util.Scanner; public class TextJava{ public static void main(String[] args){ Scanner input =

人臉檢測中的bounding box regression詳解

0. 引言在人臉檢測演算法如R-CNN、Fast RCNN中都用到了bounding box迴歸，迴歸的目標是使得預測的物體視窗向groundtruth視窗相接近。我一開始沒理解如何能迴歸出一個框來，看完下文就理解了^^ 1. 為什麼要做Bounding-bo

增強型MyEclipse6.5中，實現輸入任意字母后都會有提示（詳細圖文）

原強烈推薦：MyEclipse6.5中，實現輸入任意字母后都會有提示（詳細圖文） 2012年07月04日 15:03:17 LuAndy 閱讀數：2664 標籤： myeclipse triggers 文字編輯 java file import 更多個人分類： Eclipse 版權宣告

OpenCV關於視訊處理的學習(VideoCapture類)-在檢測中一些必要的影象操作

前言知識在OpenCV中我們處理視訊是先將視訊儲存成影象，然後再處理影象，將處理完的影象再生成視訊這樣子操作的。但是OpenCV中常見的影象操作有關容器有Mat,cvMat,IplImage等。在這些中，我們在選擇的時候應該將哪一種作為處理影象的容器呢？

對人臉檢測中誤檢漏檢的一些理解~

人臉檢測是二分類問題，誤檢指的是非人臉被認為是人臉，漏檢指的是人臉被認為是非人臉，誤檢和漏檢的理論解釋有一些，本文嘗試從下面這個角度與童鞋們探討一下誤檢漏檢的原因。如果訓練樣本比較少（小樣本問題），會造成人臉檢測的誤檢還是漏檢？答案應該是漏檢，請看下面這個圖，假設特徵在

關於人臉檢測中的Haar特徵提取

1、Haar-like特徵： Haar-like特徵最早是由Papageorgiou等應用於人臉表示。Papageorgiou在針對正面人臉和人體檢測問題的研究中使用Haar小波基函式，他們發現標準正交Haar小波基在應用上受到一定的限制，為了取得更好的空間解析度，他們使用了3種類型的3種形式的特徵

opencv 實現對攝像頭輸入影象中檔案及證件等的實時跟蹤，四邊形檢測及提取

最近有個需求：拍攝證件或紙質檔案上傳時，需要自動將拍攝背景去除，只保留證件或檔案那部分的影象。先來一張效果圖首先使用opencv提供的CvVideoCamera類來載入視訊流實現CvVideoCameraDelegate的方法： - (vo

從視頻中提取圖片，對圖片做人臉檢測並截取人臉區域

rep pan details 一個 ons sprintf imread href multipl 環境配置：VS2013+opencv2.4.10+libface.lib 參考博客：http://blog.csdn.net/augusdi/article/details

WPF 中TextBox 增加輸入檢測，錯誤提示

textbox eight 代碼 alt 自帶 align 信息保存 http validate 先來總結下實現錯誤提示功能的幾個要點 1：binding 的ValidationRules 2 ：Validation.ErrorTemplate 首先我們在界面添加一個T

caffe，資料輸入層，分類資料label是圖片名字加上一個值，對於迴歸任務或者其他任務，標籤是一組值（一個向量）用hdf5 基於Caffe的人臉關鍵點檢測實現

轉基於Caffe的人臉關鍵點檢測實現 2016年10月09日 11:36:49 haoji007 閱讀數：2827 更多

實踐案例：使用開源工具從視訊中構建人臉檢測模型（Python實現）

介紹近年來，計算機視覺這個奇妙的領域已經發展到獨樹一幟的地步。在世界各地已經有大量的應用程式在廣泛使用。我在這個領域最喜歡的事情之一是我們的社群擁抱開源概念的想法。即使是大型科技巨頭也願意與每個人分享新的突破和創新，這樣技術就不會成為“富人的專利”。其中一種技術是人臉檢測，它在實際

檢測edittext中文字的輸入狀態，清空內容

import android.text.Editable; import android.text.TextUtils; import android.text.TextWatcher; import android.view.View; import and

程式碼C++， opencv實現人臉識別，人臉檢測，人臉匹配，視訊中的人臉檢測，攝像頭下的人臉檢測等

前一段時間寫了一個人臉相關的演算法，包括視訊中的人臉檢測，相機的人臉檢測，影象中人臉檢測，還有人臉識別。使用的是VS2013和opencv。首先建立標頭檔案common.h#ifndef _COMMON_H #define _COMMON_H #include <op

影象腐蝕，模糊，canny邊緣檢測，opencv中攝像頭捕捉的影象

有關opencv環境配置這方面的問題，網上有很多資料，在這裡我就不多說了，本人也是剛開始啟程。計算機視覺是一門研究如何使機器“看”的科學，具體的說，就是指用攝像機和電腦代替人眼對目標進行識別，跟蹤和測

XAF 框架中，自定義參數動作（Action），輸入參數的控件可定義，用於選擇組織及項目

示例 app frame tro href express documents 定義 ron XAF 框架中，如何生成一個自定義參數動作（Action），輸入參數的控件可定義？參考文檔：https://documentation.devexpress.com/eXpres

10.16輸入一個字符串，內有數字和非數字字符，如： a123x456 17960? 302tab5876 將其中連續的數字作為一個整數，依次存放到一數組num中。例如123放在num[0]中，456放在num[1]中……統計共有多少個整數，並輸出這些數。

tab lnp zip sm2 cuc ycm rds qt5 tft 10.16輸入一個字符串，內有數字和非數字字符，如： a123x456 17960? 302tab5876 將其中連續的數字作為一個整數，依次存放到一數組num中。例

將控制臺輸入的資料存到文檔中，並按照存入資料的年齡進行排序

file 實現冒泡控制 eno rabl trace gen 是否 package LX10_11; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File;

人臉檢測中，如何構建輸入影象金字塔

寫在前面

人臉檢測中的影象金字塔

程式碼實現

MTCNN

Seetaface

總結

參考

相關推薦