ML Research Wiki / Benchmarks / Video Captioning / VATEX

VATEX

Video Captioning Benchmark

Performance Over Time

📊 Showing 8 results | 📏 Metric: BLEU-4

Top Performing Models

Rank	Model	Paper	BLEU-4	Date	Code
1	VALOR 📚	VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	45.60	2023-04-17	📦 TXH-mercury/VALOR
2	VAST 📚	VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	45.00	2023-05-29	📦 TXH-mercury/VALOR 📦 txh-mercury/vast
3	COSA 📚	COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	43.70	2023-06-15	📦 txh-mercury/cosa
4	VideoCoCa 📚	VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	39.70	2022-12-09	-
5	VASTA (Kinetics-backbone)	Diverse Video Captioning by Adaptive Spatio-temporal Attention	36.25	2022-08-19	📦 zohrehghaderi/vasta
6	CoCap (ViT/L14)	Accurate and Fast Compressed Video Captioning	35.80	2023-09-22	📦 acherstyx/CoCap
7	ORG-TRL 📚	Object Relational Graph with Teacher-Recommended Learning for Video Captioning	32.10	2020-02-26	-
8	NITS-VC	NITS-VC System for VATEX Video Captioning Challenge 2020	20.00	2020-06-07	-

All Papers (8)

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2023

VALOR

TXH-mercury/VALOR

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

2023

VAST

TXH-mercury/VALOR txh-mercury/vast

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

2023

COSA

txh-mercury/cosa

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

2022

VideoCoCa

Diverse Video Captioning by Adaptive Spatio-temporal Attention

2022

VASTA (Kinetics-backbone)

zohrehghaderi/vasta

Accurate and Fast Compressed Video Captioning

2023

CoCap (ViT/L14)

acherstyx/CoCap

Object Relational Graph with Teacher-Recommended Learning for Video Captioning

2020

ORG-TRL

NITS-VC System for VATEX Video Captioning Challenge 2020

2020

NITS-VC

VATEX

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (8)

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

Diverse Video Captioning by Adaptive Spatio-temporal Attention

Accurate and Fast Compressed Video Captioning

Object Relational Graph with Teacher-Recommended Learning for Video Captioning

NITS-VC System for VATEX Video Captioning Challenge 2020

Model	Paper	BLEU-4	Date
VALOR	VALOR: Vision-Audio-Language Omni-Perception Pret…	45.60	2023-04-17
VAST	VAST: A Vision-Audio-Subtitle-Text Omni-Modality …	45.00	2023-05-29
COSA	COSA: Concatenated Sample Pretrained Vision-Langu…	43.70	2023-06-15
VideoCoCa	VideoCoCa: Video-Text Modeling with Zero-Shot Tra…	39.70	2022-12-09
VASTA (Kinetics-backbone)	Diverse Video Captioning by Adaptive Spatio-tempo…	36.25	2022-08-19
CoCap (ViT/L14)	Accurate and Fast Compressed Video Captioning	35.80	2023-09-22
ORG-TRL	Object Relational Graph with Teacher-Recommended …	32.10	2020-02-26
NITS-VC	NITS-VC System for VATEX Video Captioning Challen…	20.00	2020-06-07