ML Research Wiki / Benchmarks / Image-to-Text Retrieval / COCO (Common Objects in Context)

COCO (Common Objects in Context)

Image-to-Text Retrieval Benchmark

Performance Over Time

📊 Showing 9 results | 📏 Metric: Recall@1

Top Performing Models

Rank	Model	Paper	Recall@1	Date	Code
1	Oscar	Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks	99.80	2020-04-13	📦 rmokady/clip_prefix_caption 📦 microsoft/Oscar 📦 milvlg/rosita 📦 ThanThoai/Visual-Question-Answering_Vietnamese
2	BLIP-2 (ViT-G, fine-tuned)	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	98.50	2023-01-30	📦 huggingface/transformers 📦 salesforce/lavis 📦 thudm/visualglm-6b
3	ONE-PEACE (ViT-G, w/o ranking)	ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	98.30	2023-05-18	📦 modelscope/modelscope 📦 OFA-Sys/ONE-PEACE
4	BLIP-2 (ViT-L, fine-tuned)	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	98.00	2023-01-30	📦 huggingface/transformers 📦 salesforce/lavis 📦 thudm/visualglm-6b
5	Unicoder-VL	Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training	97.20	2019-08-16	-
6	IAIS	Learning Relation Alignment for Calibrated Cross-modal Retrieval	94.48	2021-05-28	📦 lancopku/IAIS
7	CLIP (zero-shot)	Learning Transferable Visual Models From Natural Language Supervision	88.10	2021-02-26	📦 openai/CLIP 📦 mlfoundations/open_clip 📦 towhee-io/towhee
8	DVSA	Deep Visual-Semantic Alignments for Generating Image Descriptions	74.80	2014-12-07	📦 VinitSR7/Image-Caption-Generation 📦 Lieberk/Paddle-AoA-Captioning 📦 souvikshanku/digit-captioning 📦 IzabelaKrupinska/PROJBAD
9	FLAVA (ViT-B, zero-shot)	FLAVA: A Foundational Language And Vision Alignment Model	42.74	2021-12-08	📦 facebookresearch/multimodal 📦 apsdehal/flava-tutorials 📦 social-ai-studio/matk 📦 2024-MindSpore-1/Code2

All Papers (9)

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

2020

Oscar

rmokady/clip_prefix_caption microsoft/Oscar

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 (ViT-G, fine-tuned)

huggingface/transformers salesforce/lavis

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

2023

ONE-PEACE (ViT-G, w/o ranking)

modelscope/modelscope OFA-Sys/ONE-PEACE

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 (ViT-L, fine-tuned)

huggingface/transformers salesforce/lavis

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

2019

Unicoder-VL

Learning Relation Alignment for Calibrated Cross-modal Retrieval

2021

IAIS

lancopku/IAIS

Learning Transferable Visual Models From Natural Language Supervision

2021

CLIP (zero-shot)

openai/CLIP mlfoundations/open_clip

Deep Visual-Semantic Alignments for Generating Image Descriptions

2014

DVSA

VinitSR7/Image-Caption-Generation Lieberk/Paddle-AoA-Captioning

FLAVA: A Foundational Language And Vision Alignment Model

2021

FLAVA (ViT-B, zero-shot)

facebookresearch/multimodal apsdehal/flava-tutorials

COCO (Common Objects in Context)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (9)

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

Learning Relation Alignment for Calibrated Cross-modal Retrieval

Learning Transferable Visual Models From Natural Language Supervision

Deep Visual-Semantic Alignments for Generating Image Descriptions

FLAVA: A Foundational Language And Vision Alignment Model

Model	Paper	Recall@1	Date
Oscar	Oscar: Object-Semantics Aligned Pre-training for …	99.80	2020-04-13
BLIP-2 (ViT-G, fine-tuned)	BLIP-2: Bootstrapping Language-Image Pre-training…	98.50	2023-01-30
ONE-PEACE (ViT-G, w/o ranking)	ONE-PEACE: Exploring One General Representation M…	98.30	2023-05-18
BLIP-2 (ViT-L, fine-tuned)	BLIP-2: Bootstrapping Language-Image Pre-training…	98.00	2023-01-30
Unicoder-VL	Unicoder-VL: A Universal Encoder for Vision and L…	97.20	2019-08-16
IAIS	Learning Relation Alignment for Calibrated Cross-…	94.48	2021-05-28
CLIP (zero-shot)	Learning Transferable Visual Models From Natural …	88.10	2021-02-26
DVSA	Deep Visual-Semantic Alignments for Generating Im…	74.80	2014-12-07
FLAVA (ViT-B, zero-shot)	FLAVA: A Foundational Language And Vision Alignme…	42.74	2021-12-08