ML Research Wiki / Benchmarks / Visual Question Answering (VQA) / MSVD-QA

MSVD-QA

Visual Question Answering (VQA) Benchmark

Performance Over Time

📊 Showing 35 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	VLAB 📚	VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending	0.61	2023-05-22	-
2	MA-LMM	MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding	0.61	2024-04-08	📦 boheumd/MA-LMM
3	MaMMUT (ours) 📚	MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks	0.60	2023-03-29	📦 lucidrains/mammut-pytorch
4	VALOR 📚	VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	0.60	2023-04-17	📦 TXH-mercury/VALOR
5	VAST 📚	VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	0.60	2023-05-29	📦 TXH-mercury/VALOR 📦 txh-mercury/vast
6	COSA 📚	COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	0.60	2023-06-15	📦 txh-mercury/cosa
7	mPLUG-2 📚	mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	0.58	2023-02-01	📦 modelscope/modelscope 📦 x-plug/mplug-owl 📦 alibaba/AliceMind 📦 X-PLUG/mPLUG-2
8	VideoCoCa 📚	VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	0.57	2022-12-09	-
9	GIT 📚	GIT: A Generative Image-to-text Transformer for Vision and Language	0.57	2022-05-27	📦 microsoft/GenerativeImage2Text
10	FrozenBiLM+	Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models	0.56	2023-08-18	📦 mlvlab/ovqa

All Papers (35)

VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending

2023

VLAB

MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

2024

MA-LMM

boheumd/MA-LMM

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

2023

MaMMUT (ours)

lucidrains/mammut-pytorch

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2023

VALOR

TXH-mercury/VALOR

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

2023

VAST

TXH-mercury/VALOR txh-mercury/vast

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

2023

COSA

txh-mercury/cosa

mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video

2023

mPLUG-2

modelscope/modelscope x-plug/mplug-owl

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

2022

VideoCoCa

GIT: A Generative Image-to-text Transformer for Vision and Language

2022

GIT

microsoft/GenerativeImage2Text

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

FrozenBiLM+

mlvlab/ovqa

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

2022

HiTeA

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

2022

InternVideo

opengvlab/internvideo yingsen1/unimd

Unmasked Teacher: Towards Training-Efficient Video Foundation Models

2023

UMT-L (ViT-L/16)

opengvlab/unmasked_teacher

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

2024

vid-TLDR (UMT-L)

mlvlab/vid-tldr

An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling

2022

VIOLETv2

tsujuifu/pytorch_empirical-mvm

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

2023

MuLTI

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

2022

X2-VLM (large)

zengyan-97/x-vlm zengyan-97/x2-vlm

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

2022

X2-VLM (base)

zengyan-97/x-vlm zengyan-97/x2-vlm

Clover: Towards A Unified Video-Language Alignment and Fusion Model

2022

Clover

leeyn-43/clover

MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models

2023

VIOLET + MELTR

mlvlab/MELTR

OmniVL:One Foundation Model for Image-Language and Video-Language Tasks

2022

OmniVL

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

VIOLET+

mlvlab/ovqa

Video Question Answering with Iterative Video-Text Co-Tokenization

2022

Co-Tokenization

All in One: Exploring Unified Video-Language Pre-training

2022

All-in-one-B

showlab/all-in-one

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

JustAsk+

mlvlab/ovqa

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

2023

GIT+MDF

declare-lab/sealing declare-lab/sas-vqa

Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models

2023

AIO+MIF

declare-lab/sealing declare-lab/sas-vqa

Align and Prompt: Video-and-Language Pre-training with Entity Prompts

2021

ALPRO

salesforce/alpro

Open-vocabulary Video Question Answering: A New Benchmark for Evaluating the Generalizability of Video Question Answering Models

2023

All-in-one+

mlvlab/ovqa

DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering

2021

DualVGR

MM-IR/DualVGR-VideoQA

Hierarchical Conditional Relation Networks for Video Question Answering

2020

HCRN

thaolmk54/hcrn-videoqa

Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning

2020

SSML

elad-amrani/ssml

Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering

2019

HMEMA

fanchenyou/HME-VideoQA

Motion-Appearance Co-Memory Networks for Video Question Answering

2018

Co-Mem

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering

2017

ST-VQA

ahjeongseo/MASN-pytorch chaitanyadwivedii/3D-Attention-is-All-You-Need

Model	Paper	Accuracy	Date
VLAB	VLAB: Enhancing Video Language Pre-training by Fe…	0.61	2023-05-22
MA-LMM	MA-LMM: Memory-Augmented Large Multimodal Model f…	0.61	2024-04-08
MaMMUT (ours)	MaMMUT: A Simple Architecture for Joint Learning …	0.60	2023-03-29
VALOR	VALOR: Vision-Audio-Language Omni-Perception Pret…	0.60	2023-04-17
VAST	VAST: A Vision-Audio-Subtitle-Text Omni-Modality …	0.60	2023-05-29
COSA	COSA: Concatenated Sample Pretrained Vision-Langu…	0.60	2023-06-15
mPLUG-2	mPLUG-2: A Modularized Multi-modal Foundation Mod…	0.58	2023-02-01
VideoCoCa	VideoCoCa: Video-Text Modeling with Zero-Shot Tra…	0.57	2022-12-09
GIT	GIT: A Generative Image-to-text Transformer for V…	0.57	2022-05-27
FrozenBiLM+	Open-vocabulary Video Question Answering: A New B…	0.56	2023-08-18
HiTeA	HiTeA: Hierarchical Temporal-Aware Video-Language…	0.56	2022-12-30
InternVideo	InternVideo: General Video Foundation Models via …	0.56	2022-12-06
UMT-L (ViT-L/16)	Unmasked Teacher: Towards Training-Efficient Vide…	0.55	2023-03-28
vid-TLDR (UMT-L)	vid-TLDR: Training Free Token merging for Light-w…	0.55	2024-03-20
VIOLETv2	An Empirical Study of End-to-End Video-Language T…	0.55	2022-09-04
MuLTI	MuLTI: Efficient Video-and-Language Understanding…	0.55	2023-03-10
X2-VLM (large)	X$^2$-VLM: All-In-One Pre-trained Model For Visio…	0.55	2022-11-22
X2-VLM (base)	X$^2$-VLM: All-In-One Pre-trained Model For Visio…	0.53	2022-11-22
Clover	Clover: Towards A Unified Video-Language Alignmen…	0.52	2022-07-16
VIOLET + MELTR	MELTR: Meta Loss Transformer for Learning to Fine…	0.52	2023-03-23
OmniVL	OmniVL:One Foundation Model for Image-Language an…	0.51	2022-09-15
VIOLET+	Open-vocabulary Video Question Answering: A New B…	0.50	2023-08-18
Co-Tokenization	Video Question Answering with Iterative Video-Tex…	0.49	2022-08-01
All-in-one-B	All in One: Exploring Unified Video-Language Pre-…	0.48	2022-03-14
JustAsk+	Open-vocabulary Video Question Answering: A New B…	0.48	2023-08-18
GIT+MDF	Self-Adaptive Sampling for Efficient Video Questi…	0.47	2023-07-09
AIO+MIF	Self-Adaptive Sampling for Efficient Video Questi…	0.47	2023-07-09
ALPRO	Align and Prompt: Video-and-Language Pre-training…	0.46	2021-12-17
All-in-one+	Open-vocabulary Video Question Answering: A New B…	0.44	2023-08-18
DualVGR	DualVGR: A Dual-Visual Graph Reasoning Unit for V…	0.39	2021-07-10
HCRN	Hierarchical Conditional Relation Networks for Vi…	0.36	2020-02-25
SSML	Noise Estimation Using Density Estimation for Sel…	0.35	2020-03-06
HMEMA	Heterogeneous Memory Enhanced Multimodal Attentio…	0.34	2019-04-08
Co-Mem	Motion-Appearance Co-Memory Networks for Video Qu…	0.32	2018-03-29
ST-VQA	TGIF-QA: Toward Spatio-Temporal Reasoning in Visu…	0.31	2017-04-14

MSVD-QA

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (35)