ML Research Wiki / Benchmarks / Image Captioning / COCO Captions

COCO Captions

Image Captioning Benchmark

Performance Over Time

📊 Showing 40 results | 📏 Metric: BLEU-4

Top Performing Models

Rank	Model	Paper	BLEU-4	Date	Code
1	VALOR 📚	VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	152.50	2023-04-17	📦 TXH-mercury/VALOR
2	VAST 📚	VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	149.00	2023-05-29	📦 TXH-mercury/VALOR 📦 txh-mercury/vast
3	Virtex (ResNet-101)	VirTex: Learning Visual Representations from Textual Annotations	94.00	2020-06-11	📦 kdexd/virtex 📦 mattdeitke/cvpr-buzz 📦 rahulvigneswaran/longtail-buzz
4	BLIP-FuseCap	FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions	78.50	2023-05-28	📦 RotsteinNoam/FuseCap
5	mPLUG	mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections	46.50	2022-05-24	📦 modelscope/modelscope 📦 alibaba/AliceMind 📦 x-plug/mplug
6	OFA	OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework	44.90	2022-02-07	📦 modelscope/modelscope 📦 ofa-sys/ofa 📦 JHKim-snu/GVCCI 📦 JHKim-snu/PGA
7	GIT	GIT: A Generative Image-to-text Transformer for Vision and Language	44.10	2022-05-27	📦 microsoft/GenerativeImage2Text
8	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	43.70	2023-01-30	📦 huggingface/transformers 📦 salesforce/lavis 📦 thudm/visualglm-6b
9	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	43.50	2023-01-30	📦 huggingface/transformers 📦 salesforce/lavis 📦 thudm/visualglm-6b
10	ExpansionNet v2 (No VL pretraining)	Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning	42.70	2022-08-13	📦 jchenghu/expansionnet_v2

All Papers (40)

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2023

VALOR

TXH-mercury/VALOR

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

2023

VAST

TXH-mercury/VALOR txh-mercury/vast

VirTex: Learning Visual Representations from Textual Annotations

2020

Virtex (ResNet-101)

kdexd/virtex mattdeitke/cvpr-buzz rahulvigneswaran/longtail-buzz

FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions

2023

BLIP-FuseCap

RotsteinNoam/FuseCap

mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections

2022

mPLUG

modelscope/modelscope alibaba/AliceMind x-plug/mplug

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

2022

OFA

modelscope/modelscope ofa-sys/ofa

GIT: A Generative Image-to-text Transformer for Vision and Language

2022

GIT

microsoft/GenerativeImage2Text

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 ViT-G OPT 2.7B (zero-shot)

huggingface/transformers salesforce/lavis

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 ViT-G OPT 6.7B (zero-shot)

huggingface/transformers salesforce/lavis

Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning

2022

ExpansionNet v2 (No VL pretraining)

jchenghu/expansionnet_v2

Scaling Up Vision-Language Pre-training for Image Captioning

2021

LEMON

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2 ViT-G FlanT5 XL (zero-shot)

huggingface/transformers salesforce/lavis

GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features

2022

GRIT (No VL pretraining - base)

davidnvq/grit pacman-ctm/thesis_code

Prompt Tuning for Generative Multimodal Pretrained Models

2022

Prompt Tuning

ofa-sys/ofa

Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

2020

Oscar

rmokady/clip_prefix_caption microsoft/Oscar

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

2022

Xmodal-Ctx

GT-RIPL/Xmodal-Ctx

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

2022

Xmodal-Ctx + OSCAR

GT-RIPL/Xmodal-Ctx

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

2021

X-VLM (base)

zengyan-97/x-vlm

VinVL: Revisiting Visual Representations in Vision-Language Models

2021

VinVL

microsoft/Oscar pzzhang/VinVL

CoCa: Contrastive Captioners are Image-Text Foundation Models

2022

CoCa

mlfoundations/open_clip facebookresearch/multimodal

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

2021

SimVLM

yulong-XJTU/SimVLM FerryHuang/SimVLM

Prismer: A Vision-Language Model with Multi-Task Experts

2023

Prismer

nvlabs/prismer KastanDay/video-pretrained-transformer

Position-guided Text Prompt for Vision-Language Pre-training

2022

PTP-BLIP (14M)

sail-sg/ptp

L-Verse: Bidirectional Generation Between Image and Text

2021

L-Verse

tgisaturday/L-Verse

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

2022

Xmodal-Ctx

GT-RIPL/Xmodal-Ctx

X-Linear Attention Networks for Image Captioning

2020

X-Transformer

jdai-cv/image-captioning Panda-Peter/image-captioning

Visual Commonsense R-CNN

2020

AoANet + VC

Wangt-CN/VC-R-CNN

A Better Variant of Self-Critical Sequence Training

2020

Transformer_NSC

ruotianluo/self-critical.pytorch

Meshed-Memory Transformer for Image Captioning

2019

Meshed-Memory Transformer

aimagelab/meshed-memory-transformer Japanese-Image-Captioning/M2-transformer-for-Japanese

Fine-grained Image Captioning with CLIP Reward

2022

CLIP Text Encoder (RL w/ CIDEr-reward)

j-min/clip-caption-reward

RefineCap: Concept-Aware Refinement for Image Captioning

2021

RefineCap (w/ REINFORCE)

Reflective Decoding Network for Image Captioning

2019

RDN

SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation

2022

SmallCapd=16, Large

ritaramo/smallcap

ClipCap: CLIP Prefix for Image Captioning

2021

ClipCap (Transformer)

rmokady/clip_prefix_caption Japanese-Image-Captioning/ClipCap-for-Japanese

ClipCap: CLIP Prefix for Image Captioning

2021

ClipCap (MLP + GPT2 tuning)

rmokady/clip_prefix_caption Japanese-Image-Captioning/ClipCap-for-Japanese

Text-Only Training for Image Captioning using Noise-Injected CLIP

2022

CapDec

davidhuji/capdec zelaki/wsac

From Captions to Visual Concepts and Back

2014

From Captions to Visual Concepts and Back

s-gupta/visual-concepts

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

2024

LaDiC

wangyuchi369/ladic

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation

2022

VLKD (ViT-B/16)

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation?

2024

LaDiC (ours, 30 steps)

wangyuchi369/ladic

Model	Paper	BLEU-4	Date
VALOR	VALOR: Vision-Audio-Language Omni-Perception Pret…	152.50	2023-04-17
VAST	VAST: A Vision-Audio-Subtitle-Text Omni-Modality …	149.00	2023-05-29
Virtex (ResNet-101)	VirTex: Learning Visual Representations from Text…	94.00	2020-06-11
BLIP-FuseCap	FuseCap: Leveraging Large Language Models for Enr…	78.50	2023-05-28
mPLUG	mPLUG: Effective and Efficient Vision-Language Le…	46.50	2022-05-24
OFA	OFA: Unifying Architectures, Tasks, and Modalitie…	44.90	2022-02-07
GIT	GIT: A Generative Image-to-text Transformer for V…	44.10	2022-05-27
BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLIP-2: Bootstrapping Language-Image Pre-training…	43.70	2023-01-30
BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLIP-2: Bootstrapping Language-Image Pre-training…	43.50	2023-01-30
ExpansionNet v2 (No VL pretraining)	Exploiting Multiple Sequence Lengths in Fast End …	42.70	2022-08-13
LEMON	Scaling Up Vision-Language Pre-training for Image…	42.60	2021-11-24
BLIP-2 ViT-G FlanT5 XL (zero-shot)	BLIP-2: Bootstrapping Language-Image Pre-training…	42.40	2023-01-30
GRIT (No VL pretraining - base)	GRIT: Faster and Better Image captioning Transfor…	42.40	2022-07-20
Prompt Tuning	Prompt Tuning for Generative Multimodal Pretraine…	41.81	2022-08-04
Oscar	Oscar: Object-Semantics Aligned Pre-training for …	41.70	2020-04-13
Xmodal-Ctx	Beyond a Pre-Trained Object Detector: Cross-Modal…	41.40	2022-05-09
Xmodal-Ctx + OSCAR	Beyond a Pre-Trained Object Detector: Cross-Modal…	41.30	2022-05-09
X-VLM (base)	Multi-Grained Vision Language Pre-Training: Align…	41.30	2021-11-16
VinVL	VinVL: Revisiting Visual Representations in Visio…	41.00	2021-01-02
CoCa	CoCa: Contrastive Captioners are Image-Text Found…	40.90	2022-05-04
SimVLM	SimVLM: Simple Visual Language Model Pretraining …	40.60	2021-08-24
Prismer	Prismer: A Vision-Language Model with Multi-Task …	40.40	2023-03-04
PTP-BLIP (14M)	Position-guided Text Prompt for Vision-Language P…	40.10	2022-12-19
L-Verse	L-Verse: Bidirectional Generation Between Image a…	39.90	2021-11-22
Xmodal-Ctx	Beyond a Pre-Trained Object Detector: Cross-Modal…	39.70	2022-05-09
X-Transformer	X-Linear Attention Networks for Image Captioning	39.70	2020-03-31
AoANet + VC	Visual Commonsense R-CNN	39.50	2020-02-27
Transformer_NSC	A Better Variant of Self-Critical Sequence Traini…	39.40	2020-03-22
Meshed-Memory Transformer	Meshed-Memory Transformer for Image Captioning	39.10	2019-12-17
CLIP Text Encoder (RL w/ CIDEr-reward)	Fine-grained Image Captioning with CLIP Reward	38.20	2022-05-26
RefineCap (w/ REINFORCE)	RefineCap: Concept-Aware Refinement for Image Cap…	37.80	2021-09-08
RDN	Reflective Decoding Network for Image Captioning	37.30	2019-08-30
SmallCapd=16, Large	SmallCap: Lightweight Image Captioning Prompted w…	37.20	2022-09-30
ClipCap (Transformer)	ClipCap: CLIP Prefix for Image Captioning	33.53	2021-11-18
ClipCap (MLP + GPT2 tuning)	ClipCap: CLIP Prefix for Image Captioning	32.15	2021-11-18
CapDec	Text-Only Training for Image Captioning using Noi…	26.40	2022-11-01
From Captions to Visual Concepts and Back	From Captions to Visual Concepts and Back	25.70	2014-11-18
LaDiC	LaDiC: Are Diffusion Models Really Inferior to Au…	22.40	2024-04-16
VLKD (ViT-B/16)	Enabling Multimodal Generation on CLIP via Vision…	16.70	2021-11-16
LaDiC (ours, 30 steps)	LaDiC: Are Diffusion Models Really Inferior to Au…	0.38	2024-04-16

COCO Captions

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (40)