ML Research Wiki / Benchmarks / Visual Question Answering (VQA) / MSRVTT-QA

MSRVTT-QA

Visual Question Answering (VQA) Benchmark

Performance Over Time

📊 Showing 33 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	VLAB 📚	VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending	0.50	2023-05-22	-
2	MaMMUT 📚	MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks	0.50	2023-03-29	📦 lucidrains/mammut-pytorch
3	mPLUG-2 📚	mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	0.48	2023-02-01	📦 modelscope/modelscope 📦 x-plug/mplug-owl 📦 alibaba/AliceMind 📦 X-PLUG/mPLUG-2
4	MuLTI 📚	MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling	0.48	2023-03-10	-
5	Flamingo 📚	Flamingo: a Visual Language Model for Few-Shot Learning	0.47	2022-04-29	📦 mlfoundations/open_flamingo 📦 lucidrains/flamingo-pytorch 📦 unispac/visual-adversarial-examples-jailbreak-large-language-models 📦 doc-doc/NExT-OE 📦 happen2me/cross-gnn
6	InternVideo 📚	InternVideo: General Video Foundation Models via Generative and Discriminative Learning	0.47	2022-12-06	📦 opengvlab/internvideo 📦 yingsen1/unimd
7	UMT-L (ViT-L/16) 📚	Unmasked Teacher: Towards Training-Efficient Video Foundation Models	0.47	2023-03-28	📦 opengvlab/unmasked_teacher
8	FrozenBiLM+	Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models	0.47	2023-08-18	📦 mlvlab/ovqa
9	vid-TLDR (UMT-L) 📚	vid-TLDR: Training Free Token merging for Light-weight Video Transformer	0.47	2024-03-20	📦 mlvlab/vid-tldr
10	VideoCoCa 📚	VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	0.46	2022-12-09	-

All Papers (33)

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending

2023

VLAB

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

2023

MaMMUT

lucidrains/mammut-pytorch

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

2023

mPLUG-2

modelscope/modelscope x-plug/mplug-owl

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

2023

MuLTI

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

2022

InternVideo

opengvlab/internvideo yingsen1/unimd

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

2023

UMT-L (ViT-L/16)

opengvlab/unmasked_teacher

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

FrozenBiLM+

mlvlab/ovqa

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

2024

vid-TLDR (UMT-L)

mlvlab/vid-tldr

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

2022

VideoCoCa

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

2023

HBI

jpthu17/emcl jpthu17/diffusionret

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

2022

HiTeA

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

2022

EMCL-Net

jpthu17/emcl jpthu17/diffusionret

Video Question Answering with Iterative Video-Text Co-Tokenization

2022

Co-Tokenization

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

2022

X2-VLM (large)

zengyan-97/x-vlm zengyan-97/x2-vlm

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

2022

X2-VLM (base)

zengyan-97/x-vlm zengyan-97/x2-vlm

All in One: Exploring Unified Video-Language Pre-training

2022

All-in-one-B

showlab/all-in-one

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks

2022

OmniVL

Clover: Towards A Unified Video-Language Alignment and Fusion Model

2022

Clover

leeyn-43/clover

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

2023

AIO+MIF

declare-lab/sealing declare-lab/sas-vqa

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

2023

AIO+MDF

declare-lab/sealing declare-lab/sas-vqa

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

2023

GIT+MDF

declare-lab/sealing declare-lab/sas-vqa

Align and Prompt: Video-and-Language Pre-training with Entity Prompts

2021

ALPRO

salesforce/alpro

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

JustAsk+

mlvlab/ovqa

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

All-in-one+

mlvlab/ovqa

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

2021

CLIPBERT

jayleicn/ClipBERT

Hierarchical Conditional Relation Networks for Video Question Answering

2020

HCRN

thaolmk54/hcrn-videoqa

DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering

2021

DualVGR

MM-IR/DualVGR-VideoQA

Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

2019

HMEMA

fanchenyou/HME-VideoQA

Motion-Appearance Co-Memory Networks for Video Question Answering

2018

Co-Mem

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo (32-shot)

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

2017

ST-VQA

ahjeongseo/MASN-pytorch chaitanyadwivedii/3D-Attention-is-All-You-Need

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo (0-shot)

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

Model	Paper	Accuracy	Date
VLAB	VLAB: Enhancing Video Language Pre-training by Fe…	0.50	2023-05-22
MaMMUT	MaMMUT: A Simple Architecture for Joint Learning …	0.50	2023-03-29
mPLUG-2	mPLUG-2: A Modularized Multi-modal Foundation Mod…	0.48	2023-02-01
MuLTI	MuLTI: Efficient Video-and-Language Understanding…	0.48	2023-03-10
Flamingo	Flamingo: a Visual Language Model for Few-Shot Le…	0.47	2022-04-29
InternVideo	InternVideo: General Video Foundation Models via …	0.47	2022-12-06
UMT-L (ViT-L/16)	Unmasked Teacher: Towards Training-Efficient Vide…	0.47	2023-03-28
FrozenBiLM+	Open-vocabulary Video Question Answering: A New B…	0.47	2023-08-18
vid-TLDR (UMT-L)	vid-TLDR: Training Free Token merging for Light-w…	0.47	2024-03-20
VideoCoCa	VideoCoCa: Video-Text Modeling with Zero-Shot Tra…	0.46	2022-12-09
HBI	Video-Text as Game Players: Hierarchical Banzhaf …	0.46	2023-03-25
HiTeA	HiTeA: Hierarchical Temporal-Aware Video-Language…	0.46	2022-12-30
EMCL-Net	Expectation-Maximization Contrastive Learning for…	0.46	2022-11-21
Co-Tokenization	Video Question Answering with Iterative Video-Tex…	0.46	2022-08-01
X2-VLM (large)	X$^2$-VLM: All-In-One Pre-trained Model For Visio…	0.46	2022-11-22
X2-VLM (base)	X$^2$-VLM: All-In-One Pre-trained Model For Visio…	0.45	2022-11-22
All-in-one-B	All in One: Exploring Unified Video-Language Pre-…	0.44	2022-03-14
OmniVL	OmniVL:One Foundation Model for Image-Language an…	0.44	2022-09-15
Clover	Clover: Towards A Unified Video-Language Alignmen…	0.44	2022-07-16
AIO+MIF	Self-Adaptive Sampling for Efficient Video Questi…	0.44	2023-07-09
AIO+MDF	Self-Adaptive Sampling for Efficient Video Questi…	0.44	2023-07-09
GIT+MDF	Self-Adaptive Sampling for Efficient Video Questi…	0.42	2023-07-09
ALPRO	Align and Prompt: Video-and-Language Pre-training…	0.42	2021-12-17
JustAsk+	Open-vocabulary Video Question Answering: A New B…	0.42	2023-08-18
All-in-one+	Open-vocabulary Video Question Answering: A New B…	0.40	2023-08-18
CLIPBERT	Less is More: ClipBERT for Video-and-Language Lea…	0.37	2021-02-11
HCRN	Hierarchical Conditional Relation Networks for Vi…	0.36	2020-02-25
DualVGR	DualVGR: A Dual-Visual Graph Reasoning Unit for V…	0.36	2021-07-10
HMEMA	Heterogeneous Memory Enhanced Multimodal Attentio…	0.33	2019-04-08
Co-Mem	Motion-Appearance Co-Memory Networks for Video Qu…	0.32	2018-03-29
Flamingo (32-shot)	Flamingo: a Visual Language Model for Few-Shot Le…	0.31	2022-04-29
ST-VQA	TGIF-QA: Toward Spatio-Temporal Reasoning in Visu…	0.31	2017-04-14
Flamingo (0-shot)	Flamingo: a Visual Language Model for Few-Shot Le…	0.17	2022-04-29

MSRVTT-QA

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (33)

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

Flamingo: a Visual Language Model for Few-Shot Learning

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations

Video Question Answering with Iterative Video-Text Co-Tokenization

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

All in One: Exploring Unified Video-Language Pre-training

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks

Clover: Towards A Unified Video-Language Alignment and Fusion Model

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

Align and Prompt: Video-and-Language Pre-training with Entity Prompts

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Hierarchical Conditional Relation Networks for Video Question Answering

DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering

Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

Motion-Appearance Co-Memory Networks for Video Question Answering

Flamingo: a Visual Language Model for Few-Shot Learning

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

Flamingo: a Visual Language Model for Few-Shot Learning