ML Research Wiki / Benchmarks / Dense Video Captioning / ActivityNet Captions

ActivityNet Captions

Dense Video Captioning Benchmark

Performance Over Time

📊 Showing 11 results | 📏 Metric: METEOR

Top Performing Models

Rank	Model	Paper	METEOR	Date	Code
1	CM²	Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval	55.21	2024-04-11	📦 ailab-kyunghee/cm2_dvc
2	Vid2Seq 📚	Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning	28.00	2023-02-27	📦 google-research/scenic 📦 antoyang/VidChapters 📦 KastanDay/video-pretrained-transformer
3	Bi-directional+intra captioning	Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning	11.28	2020-06-14	-
4	TSRM-CMG-HRNN+SCST	Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020	9.71	2020-06-21	📦 ttengwang/dense-video-captioning-pytorch
5	GVL	Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos	7.11	2023-03-11	📦 zjr2000/gvl
6	VTimeLLM	VTimeLLM: Empower LLM to Grasp Video Moments	5.80	2023-11-30	📦 huangb23/vtimellm
7	PDVC (TSP features, no SCST)	End-to-End Dense Video Captioning with Parallel Decoding	2.17	2021-08-17	📦 ttengwang/pdvc 📦 aim3-ruc/youmakeup_challenge2022
8	TSP	TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks	2.02	2020-11-23	📦 HumamAlwassel/TSP
9	BMT	A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer	1.88	2020-05-17	📦 v-iashin/video_features 📦 v-iashin/BMT
10	iPerceive (Chadha et al., 2020)	iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	1.29	2020-11-16	-

All Papers (11)

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

2024

CM²

ailab-kyunghee/cm2_dvc

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

2023

Vid2Seq

google-research/scenic antoyang/VidChapters KastanDay/video-pretrained-transformer

Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning

2020

Bi-directional+intra captioning

Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020

2020

TSRM-CMG-HRNN+SCST

ttengwang/dense-video-captioning-pytorch

Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos

2023

GVL

zjr2000/gvl

VTimeLLM: Empower LLM to Grasp Video Moments

2023

VTimeLLM

huangb23/vtimellm

End-to-End Dense Video Captioning with Parallel Decoding

2021

PDVC (TSP features, no SCST)

ttengwang/pdvc aim3-ruc/youmakeup_challenge2022

TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

2020

TSP

HumamAlwassel/TSP

A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer

2020

BMT

v-iashin/video_features v-iashin/BMT

iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

2020

iPerceive (Chadha et al., 2020)

Multi-modal Dense Video Captioning

2020

MDVC

v-iashin/video_features v-iashin/MDVC

ActivityNet Captions

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (11)

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning

Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020

Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos

VTimeLLM: Empower LLM to Grasp Video Moments

End-to-End Dense Video Captioning with Parallel Decoding

TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks

A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer

iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

Multi-modal Dense Video Captioning

Model	Paper	METEOR	Date
CM²	Do You Remember? Dense Video Captioning with Cros…	55.21	2024-04-11
Vid2Seq	Vid2Seq: Large-Scale Pretraining of a Visual Lang…	28.00	2023-02-27
Bi-directional+intra captioning	Team RUC_AIM3 Technical Report at Activitynet 202…	11.28	2020-06-14
TSRM-CMG-HRNN+SCST	Dense-Captioning Events in Videos: SYSU Submissio…	9.71	2020-06-21
GVL	Learning Grounded Vision-Language Representation …	7.11	2023-03-11
VTimeLLM	VTimeLLM: Empower LLM to Grasp Video Moments	5.80	2023-11-30
PDVC (TSP features, no SCST)	End-to-End Dense Video Captioning with Parallel D…	2.17	2021-08-17
TSP	TSP: Temporally-Sensitive Pretraining of Video En…	2.02	2020-11-23
BMT	A Better Use of Audio-Visual Cues: Dense Video Ca…	1.88	2020-05-17
iPerceive (Chadha et al., 2020)	iPerceive: Applying Common-Sense Reasoning to Mul…	1.29	2020-11-16
MDVC	Multi-modal Dense Video Captioning	1.07	2020-03-17