ML Research Wiki / Benchmarks / Video Retrieval / VATEX

VATEX

Video Retrieval Benchmark

Performance Over Time

📊 Showing 12 results | 📏 Metric: text-to-video R@1

Top Performing Models

Rank	Model	Paper	text-to-video R@1	Date	Code
1	GRAM 📚	Gramian Multimodal Representation Learning and Alignment	87.70	2024-12-16	📦 ispamm/GRAM 📦 luigisigillo/gwit
2	VAST 📚	VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	83.00	2023-05-29	📦 TXH-mercury/VALOR 📦 txh-mercury/vast
3	VALOR 📚	VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	78.50	2023-04-17	📦 TXH-mercury/VALOR
4	InternVideo2-6B 📚	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	75.50	2024-03-22	📦 opengvlab/internvideo 📦 opengvlab/internvideo2
5	Unmasked Teacher	Unmasked Teacher: Towards Training-Efficient Video Foundation Models	72.00	2023-03-28	📦 opengvlab/unmasked_teacher
6	InternVideo	InternVideo: General Video Foundation Models via Generative and Discriminative Learning	71.10	2022-12-06	📦 opengvlab/internvideo 📦 yingsen1/unimd
7	Side4Video	Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning	68.80	2023-11-27	📦 whwu95/ATM 📦 HJYao00/Side4Video
8	Cap4Video	Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?	66.60	2022-12-31	📦 whwu95/Cap4Video 📦 whwu95/text4vis 📦 whwu95/GPT4Vis 📦 whwu95/BIKE
9	TS2-Net	TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval	59.10	2022-07-16	📦 yuqi657/ts2_net
10	LAFF	Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval	59.10	2021-12-03	📦 ruc-aimc-lab/laff

All Papers (12)

Gramian Multimodal Representation Learning and Alignment

2024

GRAM

ispamm/GRAM luigisigillo/gwit

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

2023

VAST

TXH-mercury/VALOR txh-mercury/vast

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2023

VALOR

TXH-mercury/VALOR

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

2024

InternVideo2-6B

opengvlab/internvideo opengvlab/internvideo2

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

2023

Unmasked Teacher

opengvlab/unmasked_teacher

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

2022

InternVideo

opengvlab/internvideo yingsen1/unimd

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning

2023

Side4Video

whwu95/ATM HJYao00/Side4Video

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

2022

Cap4Video

whwu95/Cap4Video whwu95/text4vis

TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval

2022

TS2-Net

yuqi657/ts2_net

Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

2021

LAFF

ruc-aimc-lab/laff

Cross Modal Retrieval with Querybank Normalisation

2021

QB-Norm+CLIP2Video

ioanacroi/qb-norm

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

2021

CLIP2Video

CryhanFang/CLIP2Video

VATEX

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (12)

Gramian Multimodal Representation Learning and Alignment

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval

Lightweight Attentional Feature Fusion: A New Baseline for Text-to-Video Retrieval

Cross Modal Retrieval with Querybank Normalisation

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

Model	Paper	text-to-video R@1	Date
GRAM	Gramian Multimodal Representation Learning and Al…	87.70	2024-12-16
VAST	VAST: A Vision-Audio-Subtitle-Text Omni-Modality …	83.00	2023-05-29
VALOR	VALOR: Vision-Audio-Language Omni-Perception Pret…	78.50	2023-04-17
InternVideo2-6B	InternVideo2: Scaling Foundation Models for Multi…	75.50	2024-03-22
Unmasked Teacher	Unmasked Teacher: Towards Training-Efficient Vide…	72.00	2023-03-28
InternVideo	InternVideo: General Video Foundation Models via …	71.10	2022-12-06
Side4Video	Side4Video: Spatial-Temporal Side Network for Mem…	68.80	2023-11-27
Cap4Video	Cap4Video: What Can Auxiliary Captions Do for Tex…	66.60	2022-12-31
TS2-Net	TS2-Net: Token Shift and Selection Transformer fo…	59.10	2022-07-16
LAFF	Lightweight Attentional Feature Fusion: A New Bas…	59.10	2021-12-03
QB-Norm+CLIP2Video	Cross Modal Retrieval with Querybank Normalisation	58.80	2021-12-23
CLIP2Video	CLIP2Video: Mastering Video-Text Retrieval via Im…	57.30	2021-06-21