ML Research Wiki / Benchmarks / Video Retrieval / QuerYD

QuerYD

Video Retrieval Benchmark

Performance Over Time

📊 Showing 5 results | 📏 Metric: text-to-video R@1

Rank	Model	Paper	text-to-video R@1	Date	Code
1	TESTA (ViT-B/16) 📚	TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding	83.40	2023-10-29	📦 renshuhuai-andy/testa
2	LF-VILA 📚	Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning	69.70	2022-10-12	📦 microsoft/xpretrain
3	VINDLU 📚	VindLU: A Recipe for Effective Video-and-Language Pretraining	67.80	2022-12-09	📦 klauscc/vindlu
4	Frozen 📚	Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	53.80	2021-04-01	📦 towhee-io/towhee 📦 m-bain/webvid 📦 m-bain/frozen-in-time 📦 princetonvisualai/mqvr 📦 willard-yuan/video-text-retrieval-papers
5	QB-Norm+TT-CE+	Cross Modal Retrieval with Querybank Normalisation	15.10	2021-12-23	📦 ioanacroi/qb-norm

2023

TESTA (ViT-B/16)

renshuhuai-andy/testa

2022

LF-VILA

microsoft/xpretrain

2022

VINDLU

klauscc/vindlu

2021

Frozen

towhee-io/towhee m-bain/webvid

2021

QB-Norm+TT-CE+

ioanacroi/qb-norm

Model	Paper	text-to-video R@1	Date
TESTA (ViT-B/16)	TESTA: Temporal-Spatial Token Aggregation for Lon…	83.40	2023-10-29
LF-VILA	Long-Form Video-Language Pre-Training with Multim…	69.70	2022-10-12
VINDLU	VindLU: A Recipe for Effective Video-and-Language…	67.80	2022-12-09
Frozen	Frozen in Time: A Joint Video and Image Encoder f…	53.80	2021-04-01
QB-Norm+TT-CE+	Cross Modal Retrieval with Querybank Normalisation	15.10	2021-12-23