1. 程式人生 > >基於tensorflow的視覺問答系統構建

基於tensorflow的視覺問答系統構建

視覺問答(Visual Question Answering,VQA),是多模態資料探勘的前沿應用之一,裡面涉及計算機視覺和自然語言處理的學習任務。VQA系統需要將圖片和問題作為輸入,結合這兩部分資訊,產生一條人類語言作為輸出。針對一張特定的圖片,如果想要機器以自然語言來回答關於該圖片的某一個特定問題,我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。

現有視覺問答的模型基本上都是基於LSTM來實現,其輸入一部分是問答的詞向量,一部分是圖片的CNN特徵。

因此常見的如採用VGG模型所產生的特徵,而問答的詞向量則採用常見的word2vec.

網上已經有很多相關的程式碼,因此首先找了一個比較經典的VQA來複現一下。主要參考:https://github.com/paarthneekhara/neural-vqa-tensorflow。主要是裡面有預訓練好的模型。

測試結果:

(1) 測試圖片一:http://img1.lvyou114.com/TukuMax/46/200912214425.JPG。

結果為:

問題: Which animal is this? 相應的答案:giraffe
排名前5的答案:
giraffe
lion
zebra
goat
bird
問題: how many giraffes in the picture? 相應的答案:2
排名前5的答案:
2
3
1
4
5
What is the color of the animal shown? 相應的答案:brown
排名前5的答案:
brown
white
tan
black
gray

可以看出,對於動物的識別效果還可以,不過數量上就不行了,這也與VGG網路有關係,畢竟VGG網路沒有實現物體目標檢測。而顏色和類別識別還是可以的。

測試二:

問題:What are they doing?

相應的答案:surfing
排名前5的答案:
surfing
swimming
parasailing
water skiing
flying kite

測試圖片三:專門找個卡通的圖片測試一下。


相應的答案:tennis
排名前5的答案:
tennis
baseball
frisbee
surfing
skiing

從上述的動作識別來說,雖然比較接近,不過在排名第四,第五的動作卻相距甚遠,有可能是訓練資料集本身就不包含這樣的場景吧。

整個模型可能還少了些Attention機制,還只能處於實驗階段。

相關推薦

基於tensorflow視覺問答系統構建

視覺問答(Visual Question Answering,VQA),是多模態資料探勘的前沿應用之一,裡面涉及計算機視覺和自然語言處理的學習任務。VQA系統需要將圖片和問題作為輸入,結合這兩部分資訊

編寫基於TensorFlow的應用之構建資料pipeline

本文主要以MNIST資料集為例介紹TFRecords檔案如何製作以及載入使用。所講內容可以在SIGAI 線上程式設計功能中的sharedata/intro_to_tf資料夾中可以免費獲取。此項功能對所有註冊使用者免費開放. 官網地址:www.sigai.cn, 推薦

基於移動端的問答系統--需求分析與原型設計

sig png 問題 repo evel 學會 高校 影響 答復 一、前言 1、結對者:2015034643032 孔潭活、2015034643023 周宏傑 2、需求分析模型:NABCD 模型 3、原型設計工具:Axure RP 8、墨刀、FSCapture 二、結對

『計算機視覺』SSD源碼學習_基於TensorFlow(待續)

ID 使用 結構 odi AS pap pts blank sets 原項目地址:SSD-Tensorflow 根據README的介紹,該項目收到了tf-slim項目中包含了多種經典網絡結構(分類用)的啟發,使用了模塊化的編程思想,可以替換檢查網絡的結構,其模塊組織如下:

基於Python Tornado的在線問答系統

file www script install eat src body linu uil 概述 本項目使用最新的Tornado開發。實現了在線提問,回答,評論等功能。使用到Tornado的generator,長輪詢等等技術, 支持MySQL的異步連接。 詳細

基於深度學習的VQA(視覺問答)技術

mark一下,感謝作者分享! http://www.sohu.com/a/225043785_99992181 https://blog.csdn.net/sinat_26917383/article/details/73048045 https://blog.csdn.net/A

基於TensorFlow進行TensorBoard視覺

1 # -*- coding: utf-8 -*- 2 """ 3 Created on Thu Nov 1 17:51:28 2018 4 5 @author: zhen 6 """ 7 8 import tensorflow as tf 9 from ten

【無人駕駛系列三】基於計算機視覺的無人駕駛感知系統

本文是無人駕駛技術系列的第三篇,著重介紹基於計算機視覺的無人駕駛感知系統。在現有的無人駕駛系統中,LiDAR是當仁不讓的感知主角。但是由於LiDAR的成本高等因素,業界有許多是否可以使用成本較低的攝像頭去承擔更多感知任務的討論。本文探索了基於計算機視覺的無人駕駛感知方案。首先,驗證一個方案是否可行需

【看論文】之《基於機器視覺的番茄收割機實時分揀系統研究_袁紫薇》

論文資訊 題目:基於機器視覺的番茄收割機實時分揀系統研究 作者:袁紫薇 作者單位:長安大學 論文性質:碩士學位論文 提交日期:2017.4.28 摘要 本文立足於農業機械的發展,研製出一種番茄聯合收割機用成熟番茄識別和分揀的方法; 研究內容: (1)針對從成熟

使用自然語言處理構建基於內容的推薦系統

資料下載地址:https://query.data.world/s/uikepcpffyo2nhig52xxeevdialfl7 1.提取資料---電影標題,電影型別,電影導演,電影演員,電影劇情  2.清洗資料---   電影劇情使用rake_nltk去除停定詞,對關

[大資料專案]-0016-基於Spark2.x新聞網大資料實時分析視覺系統

2018最新最全大資料技術、專案視訊。整套視訊,非那種淘寶雜七雜八網上能免費找到拼湊的亂八七糟的幾年前的不成體系浪費咱們寶貴時間的垃圾,詳細內容如下,視訊高清不加密,需要的聯絡QQ:3164282908(加Q註明51CTO)。   課程介紹 本專案基於某新聞網使用者日誌分析系統進行講解

基於TensorFlow的車牌識別系統 (附程式碼)

1、簡介 過去幾周我一直在涉足深度學習領域,尤其是卷積神經網路模型。最近,谷歌圍繞街景多位數字識別技術釋出了一篇不錯的paper。該文章描述了一個用於提取街景門牌號的單個端到端神經網路系統。然後,作者闡述了基於同樣的網路結構如何來突破谷歌驗證碼識別系統的準確率

分享《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

下載:https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多分享:http://blog.51cto.com/14050756 《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF英文完整版PDF,242頁,帶目錄書籤,彩色

TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

下載:https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多資料:https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA 《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF英文完整版

分享《TensorFlow學習指南:深度學習系統構建詳解》英文PDF+源代碼+部分中文PDF

size 分布式 部署 模型 -o 卷積神經網絡 ref ima 源代碼 下載:https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多分享:http://blog.51cto.com/14050756 《TensorFlow學習

PaperWeekly 第32期 | 基於知識圖譜的問答系統關鍵技術研究 01

也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!                  “  崔萬雲  復旦大學知識工場實驗室博士生  研究方向為問答系統和知識圖譜第一章 緒論  第 1 節 問答系統背景介紹2011 年 10 月 14 日,蘋

基於 VNCServer + noVNC /ssh + Xpra構建 Docker 桌面系統

VNCServer 是一個為了滿足分散式使用者共享伺服器資源,而在伺服器開啟的一項服務,對應的客戶端軟體有圖形化客戶端 VNCViewer,而 noVNC 則是 HTML5 VNC 客戶端,它採用 HTML 5 WebSockets, Canvas 和 Jav

馬震宇-360問答系統(基於HDPHP)

2017年03月24日 22:45:29 caifen1983 閱讀數:155 個人分類: 網際網路

基於sklearn庫,搭建一個簡單的問答系統

第一部分: 在這部分裡,首先需要去讀取給定的檔案,並把檔案裡的內容讀取到list裡面。這部分的任務主要需要檔案IO操作方面的基本知識。 # 讀取檔案 def read_corpus(file): with open(file) as f: list = []

基於知識圖譜的問答系統(KBQA)

  最近因為工作原因暫時停止機器學習方面知識的學習,研究了一段KBQA。,下面是一個簡單的關於中小學生需要掌握的詩詞的demo,各位看官有興趣的可以瞅瞅,歡迎來信一起交流。 1. 原理   KBQA簡單講就是將問題帶入提前準備好的知識庫尋求答案的一種基於知識庫的問答系統。該問答系統