ML Research Wiki / Benchmarks / Image Retrieval / Flickr30k

Flickr30k

Image Retrieval Benchmark

Performance Over Time

📊 Showing 9 results | 📏 Metric: Recall@10

Top Performing Models

Rank	Model	Paper	Recall@10	Date	Code
1	BLIP-2 ViT-G (zero-shot, 1K test set)	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	98.10	2023-01-30	📦 huggingface/transformers 📦 salesforce/lavis 📦 thudm/visualglm-6b
2	BLIP-2 ViT-L (zero-shot, 1K test set)	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	97.60	2023-01-30	📦 huggingface/transformers 📦 salesforce/lavis 📦 thudm/visualglm-6b
3	MaMMUT (ours)	MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks	96.00	2023-03-29	📦 lucidrains/mammut-pytorch
4	HADA	HADA: A Graph-based Amalgamation Framework in Image-text Retrieval	95.94	2023-01-11	📦 m2man/hada 📦 m2man/HADA-LAVIS
5	ALBEF	HADA: A Graph-based Amalgamation Framework in Image-text Retrieval	95.30	2023-01-11	📦 m2man/hada 📦 m2man/HADA-LAVIS
6	UNITER	HADA: A Graph-based Amalgamation Framework in Image-text Retrieval	94.08	2023-01-11	📦 m2man/hada 📦 m2man/HADA-LAVIS
7	LGSGM	A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval	84.10	2021-06-04	📦 m2man/LGSGM
8	GSMN	A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval	82.30	2021-06-04	📦 m2man/LGSGM
9	VisualSparta	VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words	82.00	2021-01-01	📦 soco-ai/SF-QA

All Papers (9)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 ViT-G (zero-shot, 1K test set)

huggingface/transformers salesforce/lavis

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 ViT-L (zero-shot, 1K test set)

huggingface/transformers salesforce/lavis

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

2023

MaMMUT (ours)

lucidrains/mammut-pytorch

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval

2023

HADA

m2man/hada m2man/HADA-LAVIS

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval

2023

ALBEF

m2man/hada m2man/HADA-LAVIS

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval

2023

UNITER

m2man/hada m2man/HADA-LAVIS

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval

2021

LGSGM

m2man/LGSGM

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval

2021

GSMN

m2man/LGSGM

VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words

2021

VisualSparta

soco-ai/SF-QA

Flickr30k

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (9)

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval

HADA: A Graph-based Amalgamation Framework in Image-text Retrieval

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval

VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words

Model	Paper	Recall@10	Date
BLIP-2 ViT-G (zero-shot, 1K test set)	BLIP-2: Bootstrapping Language-Image Pre-training…	98.10	2023-01-30
BLIP-2 ViT-L (zero-shot, 1K test set)	BLIP-2: Bootstrapping Language-Image Pre-training…	97.60	2023-01-30
MaMMUT (ours)	MaMMUT: A Simple Architecture for Joint Learning …	96.00	2023-03-29
HADA	HADA: A Graph-based Amalgamation Framework in Ima…	95.94	2023-01-11
ALBEF	HADA: A Graph-based Amalgamation Framework in Ima…	95.30	2023-01-11
UNITER	HADA: A Graph-based Amalgamation Framework in Ima…	94.08	2023-01-11
LGSGM	A Deep Local and Global Scene-Graph Matching for …	84.10	2021-06-04
GSMN	A Deep Local and Global Scene-Graph Matching for …	82.30	2021-06-04
VisualSparta	VisualSparta: An Embarrassingly Simple Approach t…	82.00	2021-01-01