1. 程式人生 > >影象雜湊檢索背景綜述(二)——雜湊檢索演算法總結

影象雜湊檢索背景綜述(二)——雜湊檢索演算法總結

這一篇主要對影象雜湊技術的現有演算法做一個研究性的概述。由於雜湊函式的本質是一個降維的操作,因此會存在特徵資訊的丟失和檢索準確率的下降。

目前的雜湊函式可以分為資料依賴的(Data-dependent)和資料獨立的(Data-independent),資料依賴的雜湊函式也就是依賴原始資料來學習雜湊函式,資料獨立的就是人工指定雜湊函式。

最最經典的也算作最原始的用於影象檢索的雜湊演算法是LSH,即區域性敏感雜湊(Locality Sensitivehashing)。它是由Piotr Indyk等人提出的,該方法對資料進行隨機對映,屬於資料獨立的雜湊函式。容易實現,計算速度也較快。這是一種非資料驅動型的演算法,檢索精度並不高。

之後的很多雜湊函式都是基於該LSH方法做出的改進和擴充套件延伸,如Jianqiu Ji等人提出的超位元區域性敏感雜湊(Super-BitLocality-Sensitive Hashing, SBLSH),以角度作為核函式度量標準,對隨機投影向量進行分組正交化;Brian Kulis等人提出的核化區域性敏感雜湊(KernelizedLocality-Sensitive Hashing, KLSH),對LSH進行了擴充套件,利用核函式和影象庫中的稀疏集來構造隨機對映,可以選擇任意核函式作為相似性度量函式。

對於除了資料本身所具有的資訊,資料可能還具有附加的資訊,例如標籤資訊等,在模式識別、計算機視覺和機器學習等領域有著非常重要的作用。因此基於此,雜湊函式還可以分為基於監督的、基於半監督的和基於非監督的雜湊函式。

這裡對近幾年來的雜湊函式做了一些總結和概述,整理在一個文件中。是根據袁勇學長的一篇部落格進行整理的,貼出來也供大家一起學習。

或者在這裡下載

這個文件是excel總結的,下載下來看起來會很清晰,預覽的格式亂了,看起來很亂。建議下載。

但是沒有涵蓋大部分2014和2015年的相關paper。

這裡根據袁勇學長的總結也一併貼出來。

CVPR14 影象檢索papers——影象檢索

1.  Triangulation embedding and democratic aggregation for imagesearch (Orals)

2.  Collaborative Hashing (post)

3.  Packing and Padding: Coupled Multi-index for Accurate ImageRetrieval (post) technical report

4.  Bayes Merging of Multiple Vocabularies for Scalable ImageRetrieval (post) technical report

5.  Fast Supervised Hashing with Decision Trees for High-DimensionalData (post)

6.  Learning Fine-grained Image Similarity with Deep Ranking (post)

7.  Congruency-Based Reranking (post)可能

8.  Fisher and VLAD with FLAIR (post)可能

9.  Locality in Generic Instance Search from One Example (post)

10.  Asymmetric sparse kernelapproximations for large-scale visual search (post)

11.  Locally Linear Hashing forExtracting Non-Linear Manifolds (post)

12.  Adaptive Object Retrievalwith Kernel Reconstructive Hashing (post)

13.  Hierarchical Feature Hashingfor Fast Dimensionality Reduction (post)

CVPR15image retrieval reading list

Image retrieval關鍵詞

·        FAemb: A Function Approximation-Based Embedding Method for Image Retrieval

·        Image Retrieval Using Scene Graphs

·        Revisiting Kernelized Locality-Sensitive Hashing for Improved Large-ScaleImage Retrieval

·        Early Burst Detection for Memory-Efficient Image Retrieval

·        Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval(已讀)

·        Query-Adaptive Late Fusion for Image Search and Person Re-identification

Hashing關鍵詞

·        Supervised Discrete Hashing

·        Hashing With Binary Autoencoders

·        Reflectance Hashing for Material Recognition

·        Deep Hashing for Compact Binary Codes Learning

·        Online Sketching Hashing

·        Semantics-Preserving Hashing for Cross-View Retrieval

·        Face Video Retrieval With Image Query via Hashing Across Euclidean Spaceand Riemannian Manifold

2016

·     Learning to Hash for Indexing Big Data——A Survey
This paper provides readers with a systematic understanding of insights, pros, and cons of the emerging indexing and search methods for Big Data.
By Jun Wang, Member IEEE, Wei Liu, Member IEEE, Sanjiv Kumar, Member IEEE, and Shih-Fu Chang, Fellow IEEE 

要想對大資料雜湊有一個清晰和透徹的瞭解,我非常推薦以上這篇2016年1月的文章,需要反覆研讀。

其中包含一些大資料現狀與趨勢的剖析,是來自與李武軍老師2015年的一篇中文paper,連結都包含如下,建議都仔細研讀一下,對於該研究方向的同學會獲益匪淺。

參考資料:

相關推薦

影象檢索背景綜述()——檢索演算法總結

這一篇主要對影象雜湊技術的現有演算法做一個研究性的概述。由於雜湊函式的本質是一個降維的操作,因此會存在特徵資訊的丟失和檢索準確率的下降。 目前的雜湊函式可以分為資料依賴的(Data-dependent)和資料獨立的(Data-independent),資料依賴的雜湊函式也

叉樹常見演算法總結-基本叉樹

二叉樹是最經典的資料結構之一,其結構型別和演算法操作也是十分多,今天來做一個總結(今天先不討論對B樹,紅黑樹那種比較高階的資料結構)。 樹結構,一般用節點引用兩個子節點作為左右節點。結構程式碼如下 PS:有些時候也要有個指

表(散列表)、表閉(線性探測、次探測)解決衝突、負載因子

雜湊概念 常規搜尋:   資料雜亂無章——->順序查詢—–>時間複雜度0(n)。   資料有序—–>二分查詢——>時間複雜度0(log(n))。   建立二叉搜尋樹—–>時間複雜度0(n)(單支樹)。 理想的搜尋方法是:可

資料結構期末複習知識查漏補缺並配(帶詳解的)查漏習題(B樹,),平衡叉樹,KMP)

一.B樹(也叫B-)與B+樹專題 (1)B樹 重點總結: 1.結點最大的孩子數目稱為B樹的階。所以,2-3樹是3階B樹,2-3-4樹是3階B樹 2.所有葉節點位於同一層次 3. 4.,一般均是升序或降序 5.在B樹上查詢的過程是一個順指標查詢結點和在

表()()開放定址法(平方)

編譯環境:vs2015 函式主體: 結構體: 程式碼: // dataStructure-HashTable(2).cpp : Defines the entry point for the console application. // hashTable-開放定址

java實現順序查詢、二分查詢、表查詢、叉排序樹查詢

順序查詢、二分查詢、雜湊表查詢、二叉排序樹查詢這幾種查詢演算法是面試中常被問到的幾種演算法。 1. 順序查詢     對於陣列,按順序比較給定的值,時間複雜度0(n),,以下是實現: public static int Linear_Search(int[] data, i

python code practice():KMP演算法、二分搜尋的實現、

1、替換空格 題目描述:請實現一個函式,將一個字串中的每個空格替換成“%20”。例如,當字串為We Are Happy.則經過替換之後的字串為We%20Are%20Happy。 分析: 將長度為1的空格替換為長度為3的“%20”,字串的長度變長。 如果允許我們開闢一個新的陣列來存放替換空格後的字串, 那麼這道

算法時間復度及效率(

最大數 ostream 最好 ret 算法 char str 分析算法 數據結構 今天我們來看下算法復雜度和效率的問題,在判斷一個算法的效率時,操作數量中的常數項和其他次要項常常是可以忽略的,只需要關註最高階項就能得出結論。那麽我們如何用符號定性的判斷算法的

字串(進位制

雜湊的過程,其實可以看作對一個串的單向加密過程,並且需要保證所加的密不能高概率重複(就像不能讓隔壁老王輕易地用它家的鑰匙開啟你家門一樣qwq),通過這種方式來替代一些很費時間的操作。 比如,最常見的,當然就是通過雜湊陣列來判斷幾個串是否相同(洛谷p3370)。此處的操作呢,

LSH Locality-Sensitive Hashing 區域性敏感演算法總結

http://www.cppblog.com/Files/humanchao/LSH(Locality%20Sensitive%20Hashing).zip參考文獻:Website:Paper:[1] Approximate nearest neighbor: towards removing the cur

DS查詢--線性探測再

題目描述  定義雜湊函式為H(key) = key%11。輸入表長(大於、等於11),輸入關鍵字集合,用線性探測再雜湊構建雜湊表,並查詢給定關鍵字。 --程式要求-- 若使用C++只能include一個頭檔案iostream;若使用C語言只能include一個頭檔案stdio 程

分散式表DHT和一致性

分散式雜湊(DHT)兩個key point:每個節點只維護一部分路由;每個節點只儲存一部分資料。從而實現整個網路中的定址和儲存。 DHT只是一個概念,提出了這樣一種網路模型。並且說明它是對分散式儲存很有好處的。但具體怎麼實現,並不是DHT的範疇。一致性雜湊: DHT的一種

布隆過濾器、一致性演算法總結

認識布隆過濾器 不安全網頁的黑名單包含 100 億個黑名單網頁,每個網頁的 URL 最多佔用 64B。 現在想要實現一種網頁過濾系統,可以根據網頁的 URL 判斷該網頁是否在黑名單上,請設計該系統。 1.該系統允許有萬分之一以下的判斷失誤率。 2.使用的額外空間不要超過 3

:線性探測再+除留餘數法

#include <bits/stdc++.h> using namespace std; #define MAXSIZE 100 typedef struct//雜湊表的結構體型別 { int data[MAXSIZE];//一個數組 int s

實驗 表線性探測再

將上面的資料利用長度為15的雜湊表儲存,輸出儲存後的雜湊表。雜湊函式採用key%13,用線性探測再雜湊解決衝突,設計並實現查詢運算。 程式碼: #include <bits/stdc++.h&

[C++]資料結構:散列表(表)、函式構造、處理衝突

        關鍵字{12,25, 38, 15, 16, 29, 78, 67, 56, 21, 22, 47 } , 對應後位置是 {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11}。 不過這種方法很容易產生衝突(如果關鍵字餘數大部分相同)。一般地,散列表長為m, 通常p

PTA 7-42 整型關鍵字的對映(手寫表的線性探測法)

本題考點: 整型雜湊表的線性探測法 給定一系列整型關鍵字和素數P,用除留餘數法定義的雜湊函式將關鍵字對映到長度為P的散列表中。用線性探測法解決衝突。 輸入格式: 輸入第一行首先給出兩個正整數N(≤1000)和P(≥N的最小素數),分別為待插入的關鍵字總數、以及散列表的長度。第二行給出N個整型關鍵字。數字

影象的一維熵和維熵

影象的一維熵和二維熵 影象的熵是一種特徵的統計形式,它反映了影象中平均資訊量的多少。影象的一維熵表示影象中灰度分佈的聚集特徵所包含的資訊量,令Pi表示影象中灰度值為i的畫素所佔的比例,則定義灰度圖象的一元灰度熵為: 圖象的一維熵可以表示影象灰度分佈的聚集特徵,卻不能反映影

文獻綜述:UML技術在行業資源平臺系統建模中的應用

一、基本資訊   標題:UML技術在行業資源平臺系統建模中的應用   時間:2015   出版源:Hans漢斯   檔案分類:uml技術的應用 二、研究背景   為方便行業人員高效率地蒐集專業知識,實現知識的共享。採用計算機網路技術,實現電子文件的上傳、格式轉化、網路傳輸、線上閱讀、線上觀看以及下載功能。通過

Python實現動態圖片背景維碼

1.下載myqr包 pip install myqr 2.程式碼 # -*- coding: utf-8 -*- from __future__ import unicode_literals from MyQR import myqr import os pic = "d.