ML Research Wiki / Benchmarks / Zero-Shot Video Retrieval / MSVD

MSVD

Zero-Shot Video Retrieval Benchmark

Performance Over Time

📊 Showing 14 results | 📏 Metric: text-to-video R@1

Top Performing Models

Rank	Model	Paper	text-to-video R@1	Date	Code
1	InternVideo2-6B 📚	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	59.30	2024-03-22	📦 opengvlab/internvideo 📦 opengvlab/internvideo2
2	InternVideo2-1B 📚	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	58.10	2024-03-22	📦 opengvlab/internvideo 📦 opengvlab/internvideo2
3	VAST, HowToCaption-finetuned	HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	54.80	2023-10-07	📦 ninatu/howtocaption
4	LanguageBind(ViT-L/14) 📚	LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	54.10	2023-10-03	📦 PKU-YuanGroup/Video-LLaVA 📦 PKU-YuanGroup/MoE-LLaVA 📦 pku-yuangroup/languagebind
5	LanguageBind(ViT-H/14) 📚	LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment	53.90	2023-10-03	📦 PKU-YuanGroup/Video-LLaVA 📦 PKU-YuanGroup/MoE-LLaVA 📦 pku-yuangroup/languagebind
6	vid-TLDR (UMT-L) 📚	vid-TLDR: Training Free Token merging for Light-weight Video Transformer	50.00	2024-03-20	📦 mlvlab/vid-tldr
7	UMT-L (ViT-L/16) 📚	Unmasked Teacher: Towards Training-Efficient Video Foundation Models	49.00	2023-03-28	📦 opengvlab/unmasked_teacher
8	HowToCaption	HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	44.50	2023-10-07	📦 ninatu/howtocaption
9	MILES	MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval	44.40	2022-04-26	📦 tencentarc/mcq
10	Y. Ge et. al.	Bridging Video-text Retrieval with Multiple Choice Questions	43.60	2022-01-13	📦 towhee-io/towhee 📦 tencentarc/mcq

All Papers (14)

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

2024

InternVideo2-6B

opengvlab/internvideo opengvlab/internvideo2

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

2024

InternVideo2-1B

opengvlab/internvideo opengvlab/internvideo2

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale

2023

VAST, HowToCaption-finetuned

ninatu/howtocaption

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

2023

LanguageBind(ViT-L/14)

PKU-YuanGroup/Video-LLaVA PKU-YuanGroup/MoE-LLaVA

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

2023

LanguageBind(ViT-H/14)

PKU-YuanGroup/Video-LLaVA PKU-YuanGroup/MoE-LLaVA

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

2024

vid-TLDR (UMT-L)

mlvlab/vid-tldr

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

2023

UMT-L (ViT-L/16)

opengvlab/unmasked_teacher

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale

2023

HowToCaption

ninatu/howtocaption

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval

2022

MILES

tencentarc/mcq

Bridging Video-text Retrieval with Multiple Choice Questions

2022

Y. Ge et. al.

towhee-io/towhee tencentarc/mcq

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

2022

InternVideo

opengvlab/internvideo yingsen1/unimd

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

2021

CLIP4Clip

towhee-io/towhee ArrowLuo/CLIP4Clip

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

2022

LaT

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

2020

SSML

elad-amrani/ssml

MSVD

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (14)

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

LanguageBind: Extending Video-Language Pretraining to N-modality by Language-based Semantic Alignment

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval

Bridging Video-text Retrieval with Multiple Choice Questions

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

Model	Paper	text-to-video R@1	Date
InternVideo2-6B	InternVideo2: Scaling Foundation Models for Multi…	59.30	2024-03-22
InternVideo2-1B	InternVideo2: Scaling Foundation Models for Multi…	58.10	2024-03-22
VAST, HowToCaption-finetuned	HowToCaption: Prompting LLMs to Transform Video A…	54.80	2023-10-07
LanguageBind(ViT-L/14)	LanguageBind: Extending Video-Language Pretrainin…	54.10	2023-10-03
LanguageBind(ViT-H/14)	LanguageBind: Extending Video-Language Pretrainin…	53.90	2023-10-03
vid-TLDR (UMT-L)	vid-TLDR: Training Free Token merging for Light-w…	50.00	2024-03-20
UMT-L (ViT-L/16)	Unmasked Teacher: Towards Training-Efficient Vide…	49.00	2023-03-28
HowToCaption	HowToCaption: Prompting LLMs to Transform Video A…	44.50	2023-10-07
MILES	MILES: Visual BERT Pre-training with Injected Lan…	44.40	2022-04-26
Y. Ge et. al.	Bridging Video-text Retrieval with Multiple Choic…	43.60	2022-01-13
InternVideo	InternVideo: General Video Foundation Models via …	43.40	2022-12-06
CLIP4Clip	CLIP4Clip: An Empirical Study of CLIP for End to …	38.50	2021-04-18
LaT	LaT: Latent Translation with Cycle-Consistency fo…	36.90	2022-07-11
SSML	Noise Estimation Using Density Estimation for Sel…	13.66	2020-03-06