ML Research Wiki / Benchmarks / Image Captioning / COCO (Common Objects in Context)

COCO (Common Objects in Context)

Image Captioning Benchmark

Performance Over Time

📊 Showing 16 results | 📏 Metric: CIDEr

Top Performing Models

Rank	Model	Paper	CIDEr	Date	Code
1	ExpansionNet v2	Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning	143.70	2022-08-13	📦 jchenghu/expansionnet_v2
2	M2 Transformer	Meshed-Memory Transformer for Image Captioning	131.20	2019-12-17	📦 aimagelab/meshed-memory-transformer 📦 Japanese-Image-Captioning/M2-transformer-for-Japanese
3	RDN	Reflective Decoding Network for Image Captioning	125.20	2019-08-30	-
4	Lyrics	Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects	121.10	2023-12-08	-
5	Flamingo (80B; 4-shot)	Retrieval-Augmented Multimodal Language Modeling	103.00	2022-11-22	-
6	RA-CM3 (2.7B)	Retrieval-Augmented Multimodal Language Modeling	89.10	2022-11-22	-
7	Flamingo (3B; 4-shot)	Retrieval-Augmented Multimodal Language Modeling	85.00	2022-11-22	-
8	Parti	Retrieval-Augmented Multimodal Language Modeling	83.90	2022-11-22	-
9	Vanilla CM3	Retrieval-Augmented Multimodal Language Modeling	71.90	2022-11-22	-
10	X-LXMERT	Retrieval-Augmented Multimodal Language Modeling	55.80	2022-11-22	-

All Papers (16)

Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning

2022

ExpansionNet v2

jchenghu/expansionnet_v2

Meshed-Memory Transformer for Image Captioning

2019

M2 Transformer

aimagelab/meshed-memory-transformer Japanese-Image-Captioning/M2-transformer-for-Japanese

Reflective Decoding Network for Image Captioning

2019

RDN

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects

2023

Lyrics

Retrieval-Augmented Multimodal Language Modeling

2022

Flamingo (80B; 4-shot)

Retrieval-Augmented Multimodal Language Modeling

2022

RA-CM3 (2.7B)

Retrieval-Augmented Multimodal Language Modeling

2022

Flamingo (3B; 4-shot)

Retrieval-Augmented Multimodal Language Modeling

2022

Parti

Retrieval-Augmented Multimodal Language Modeling

2022

Vanilla CM3

Retrieval-Augmented Multimodal Language Modeling

2022

X-LXMERT

Retrieval-Augmented Multimodal Language Modeling

2022

minDALL-E

UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

2020

UNIMO-large

PaddlePaddle/PaddleNLP PaddlePaddle/Research PaddlePaddle/Research

Retrieval-Augmented Multimodal Language Modeling

2022

ruDALL-E-XL

Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

2022

Bit Diffusion (20 steps)

lucidrains/imagen-pytorch google-research/pix2seq

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

2019

NIC (ResNet-50, CutMix)

rwightman/pytorch-image-models pytorch/vision

Retrieval-Augmented Multimodal Language Modeling

2022

DALL-E

COCO (Common Objects in Context)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (16)

Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning

Meshed-Memory Transformer for Image Captioning

Reflective Decoding Network for Image Captioning

Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects

Retrieval-Augmented Multimodal Language Modeling

Retrieval-Augmented Multimodal Language Modeling

Retrieval-Augmented Multimodal Language Modeling

Retrieval-Augmented Multimodal Language Modeling

Retrieval-Augmented Multimodal Language Modeling

Retrieval-Augmented Multimodal Language Modeling

Retrieval-Augmented Multimodal Language Modeling

UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

Retrieval-Augmented Multimodal Language Modeling

Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

Retrieval-Augmented Multimodal Language Modeling

Model	Paper	CIDEr	Date
ExpansionNet v2	Exploiting Multiple Sequence Lengths in Fast End …	143.70	2022-08-13
M2 Transformer	Meshed-Memory Transformer for Image Captioning	131.20	2019-12-17
RDN	Reflective Decoding Network for Image Captioning	125.20	2019-08-30
Lyrics	Lyrics: Boosting Fine-grained Language-Vision Ali…	121.10	2023-12-08
Flamingo (80B; 4-shot)	Retrieval-Augmented Multimodal Language Modeling	103.00	2022-11-22
RA-CM3 (2.7B)	Retrieval-Augmented Multimodal Language Modeling	89.10	2022-11-22
Flamingo (3B; 4-shot)	Retrieval-Augmented Multimodal Language Modeling	85.00	2022-11-22
Parti	Retrieval-Augmented Multimodal Language Modeling	83.90	2022-11-22
Vanilla CM3	Retrieval-Augmented Multimodal Language Modeling	71.90	2022-11-22
X-LXMERT	Retrieval-Augmented Multimodal Language Modeling	55.80	2022-11-22
minDALL-E	Retrieval-Augmented Multimodal Language Modeling	48.00	2022-11-22
UNIMO-large	UNIMO: Towards Unified-Modal Understanding and Ge…	39.60	2020-12-31
ruDALL-E-XL	Retrieval-Augmented Multimodal Language Modeling	38.70	2022-11-22
Bit Diffusion (20 steps)	Analog Bits: Generating Discrete Data using Diffu…	34.70	2022-08-08
NIC (ResNet-50, CutMix)	CutMix: Regularization Strategy to Train Strong C…	24.90	2019-05-13
DALL-E	Retrieval-Augmented Multimodal Language Modeling	20.20	2022-11-22