1. 程式人生 > >谷歌 TensorFlow 物理檢測 API,目前最好的物體識別方案?

谷歌 TensorFlow 物理檢測 API,目前最好的物體識別方案?

用大資料幹大事!

目前有很多種影象識別的方案,而 Google 近日最近釋出了其最新的 Tensorflow 物理檢測介面(Object Detection API),使計算機視覺無處不在。Google 的產品通常都是黑科技,所以筆者決定嘗試一下這個新的 API,並用 YouTube 上的一個視訊來進行檢測。如下:

所以,它的的體驗到底如何?讓我們先從理解 API 開始。

瞭解 API

此 API 經過 COCO 資料庫訓練。COCO 資料庫擁有三十萬張包括九十大類的影象集合,一部分類別如下:

API 提供了五種不同的模式來在識別速度與準確率中進行協調,詳情見下表:

使用 API

我決定使用最輕量化的模組(ssd_mobilenet)。主要步驟如下:

  1. 下載凍結模型(.pb——protobuf)並將其匯入記憶體
  2. 使用內建程式碼來匯入標籤,分類,視覺化效果工具等等
  3. 開啟一個新的會話並在一個影象上執行模型

這是一個相對來說較為簡單的步驟。API 介紹裡也提供了關於如何進行相關步驟的指導。

此模型在樣本影象上的表現不錯(詳見下圖):

執行視訊

接下來,用視訊來測試此 API。此操作通過 Python moviepy 庫來實現。主要步驟如下:

  • 使用 VedioFileClip 方法從視訊中提取影象
  • fl_image 方法可以快速從視訊中抽取並替代圖片。使用此方法來將視訊的每一幀提取出來
  • 將處理後的每幀圖片合併為一個新的影象

此段程式碼需要一定的時間(3-4秒的剪輯需要1分鐘左右)。但是由於使用的是一個載入到記憶體的凍結模型,所以這些都可以在沒有顯示卡的計算機上完成。

結果很驚人!只需要一小段程式碼,就可以準確識別並標記視屏中的人物。

在有些情況下它的功能還有待提升。比如在下圖中,它並不能識別出視屏中的鴨子。

下一步

關於此 API 以後的想法

  • 使用更精確但抽象的模型來看看結果會如何;
  • 優化識別速度,使其可以在移動裝置上使用;
  • Google 還提供使用這些模型進行轉移學習的能力,即載入凍結模型,並新增具有不同影象類別的另一個輸出圖層。

參考

由中國人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)將於 7 月 22-23 日在杭州召開。作為中國國內高規格、規模空前的人工智慧大會,本次大會由中國科學院院士、中國人工智慧學會副理事長譚鐵牛,阿里巴巴技術委員會主席王堅,香港科技大學計算機系主任、AAAI Fellow 楊強,螞蟻金服副總裁、首席資料科學家漆遠,南京大學教授、AAAI Fellow 周志華共同甄選出在人工智慧領域本年度海內外最值得關注的學術與研發進展,匯聚了超過 40 位頂級人工智慧專家,帶來 9 場權威主題報告,以及“語言智慧與應用論壇”、“智慧金融論壇”、“人工智慧科學與藝術論壇”、“人工智慧青年論壇”4 大專題論壇,屆時將有超過 2000 位人工智慧專業人士參與。

目前,大會火熱報名中,掃描下方圖片中的二維碼或直接點選連結火速搶票。