ML Research Wiki / Benchmarks / Video Question Answering / STAR Benchmark

STAR Benchmark

Video Question Answering Benchmark

Performance Over Time

📊 Showing 17 results | 📏 Metric: Average Accuracy

Top Performing Models

Rank	Model	Paper	Average Accuracy	Date	Code
1	VLAP (4 frames)	ViLA: Efficient Video-Language Alignment for Video Question Answering	67.10	2023-12-13	📦 xijun-cs/vila
2	LLaMA-VQA	Large Language Models are Temporal and Causal Reasoners for Video Question Answering	65.40	2023-10-24	📦 mlvlab/Flipped-VQA
3	SeViLA	Self-Chained Image-Language Model for Video Localization and Question Answering	64.90	2023-05-11	📦 yui010206/sevila
4	InternVideo	InternVideo: General Video Foundation Models via Generative and Discriminative Learning	58.70	2022-12-06	📦 opengvlab/internvideo 📦 yingsen1/unimd
5	GF(sup)	Glance and Focus: Memory Prompting for Multi-Event Video Question Answering	53.94	2024-01-03	📦 byz0e/glance-focus
6	GF(uns)	Glance and Focus: Memory Prompting for Multi-Event Video Question Answering	53.86	2024-01-03	📦 byz0e/glance-focus
7	MIST	MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering	51.13	2022-12-19	📦 showlab/mist
8	Temp[ATP]	Revisiting the "Video" in Video-Language Understanding	48.37	2022-06-03	📦 stanfordvl/atp-video-language
9	AnyMAL-70B (0-shot)	AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model	48.20	2023-09-27	📦 nokia-bell-labs/papagei-foundation-model
10	All-in-one	All in One: Exploring Unified Video-Language Pre-training	47.50	2022-03-14	📦 showlab/all-in-one

All Papers (17)

ViLA: Efficient Video-Language Alignment for Video Question Answering

2023

VLAP (4 frames)

xijun-cs/vila

Large Language Models are Temporal and Causal Reasoners for Video Question Answering

2023

LLaMA-VQA

mlvlab/Flipped-VQA

Self-Chained Image-Language Model for Video Localization and Question Answering

2023

SeViLA

yui010206/sevila

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

2022

InternVideo

opengvlab/internvideo yingsen1/unimd

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering

2024

GF(sup)

byz0e/glance-focus

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering

2024

GF(uns)

byz0e/glance-focus

MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering

2022

MIST

showlab/mist

Revisiting the "Video" in Video-Language Understanding

2022

Temp[ATP]

stanfordvl/atp-video-language

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

2023

AnyMAL-70B (0-shot)

nokia-bell-labs/papagei-foundation-model

All in One: Exploring Unified Video-Language Pre-training

2022

All-in-one

showlab/all-in-one

TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering

2024

TraveLER (0-shot)

traveler-framework/traveler

Self-Chained Image-Language Model for Video Localization and Question Answering

2023

SeViLA (0-shot)

yui010206/sevila

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo-9B (4-shot)

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo-80B (4-shot)

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo-9B (0-shot)

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

Flamingo: a Visual Language Model for Few-Shot Learning

2022

Flamingo-80B (0-shot)

mlfoundations/open_flamingo lucidrains/flamingo-pytorch

Learning Situation Hyper-Graphs for Video Question Answering

2023

SHG-VQA (trained from scratch)

aurooj/shg-vqa

STAR Benchmark

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (17)

ViLA: Efficient Video-Language Alignment for Video Question Answering

Large Language Models are Temporal and Causal Reasoners for Video Question Answering

Self-Chained Image-Language Model for Video Localization and Question Answering

InternVideo: General Video Foundation Models via Generative and Discriminative Learning

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering

Glance and Focus: Memory Prompting for Multi-Event Video Question Answering

MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering

Revisiting the "Video" in Video-Language Understanding

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

All in One: Exploring Unified Video-Language Pre-training

TraveLER: A Modular Multi-LMM Agent Framework for Video Question-Answering

Self-Chained Image-Language Model for Video Localization and Question Answering

Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo: a Visual Language Model for Few-Shot Learning

Learning Situation Hyper-Graphs for Video Question Answering

Model	Paper	Average Accuracy	Date
VLAP (4 frames)	ViLA: Efficient Video-Language Alignment for Vide…	67.10	2023-12-13
LLaMA-VQA	Large Language Models are Temporal and Causal Rea…	65.40	2023-10-24
SeViLA	Self-Chained Image-Language Model for Video Local…	64.90	2023-05-11
InternVideo	InternVideo: General Video Foundation Models via …	58.70	2022-12-06
GF(sup)	Glance and Focus: Memory Prompting for Multi-Even…	53.94	2024-01-03
GF(uns)	Glance and Focus: Memory Prompting for Multi-Even…	53.86	2024-01-03
MIST	MIST: Multi-modal Iterative Spatial-Temporal Tran…	51.13	2022-12-19
Temp[ATP]	Revisiting the "Video" in Video-Language Understa…	48.37	2022-06-03
AnyMAL-70B (0-shot)	AnyMAL: An Efficient and Scalable Any-Modality Au…	48.20	2023-09-27
All-in-one	All in One: Exploring Unified Video-Language Pre-…	47.50	2022-03-14
TraveLER (0-shot)	TraveLER: A Modular Multi-LMM Agent Framework for…	44.90	2024-04-01
SeViLA (0-shot)	Self-Chained Image-Language Model for Video Local…	44.60	2023-05-11
Flamingo-9B (4-shot)	Flamingo: a Visual Language Model for Few-Shot Le…	42.80	2022-04-29
Flamingo-80B (4-shot)	Flamingo: a Visual Language Model for Few-Shot Le…	42.40	2022-04-29
Flamingo-9B (0-shot)	Flamingo: a Visual Language Model for Few-Shot Le…	41.80	2022-04-29
Flamingo-80B (0-shot)	Flamingo: a Visual Language Model for Few-Shot Le…	39.70	2022-04-29
SHG-VQA (trained from scratch)	Learning Situation Hyper-Graphs for Video Questio…	39.47	2023-04-18