ML Research Wiki / Benchmarks / Visual Question Answering (VQA) / CLEVR

CLEVR

Visual Question Answering (VQA) Benchmark

Performance Over Time

📊 Showing 15 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	NS-VQA (1K programs)	Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding	99.80	2018-10-04	📦 kexinyi/ns-vqa 📦 nerdimite/neuro-symbolic-ai-soc
2	MDETR	MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	99.70	2021-04-26	📦 facebookresearch/multimodal 📦 ashkamath/mdetr 📦 thunlp/pevl 📦 b-faye/lightmdetr 📦 AleDella/mdter_eval
3	NeSyCoCo	NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization	99.70	2024-12-20	📦 hlr/nesycoco
4	OCCAM (ours)	Interpretable Visual Reasoning via Induced Symbolic Space	99.40	2020-11-23	📦 SHI-Labs/Interpretable-Visual-Reasoning
5	TbD + reg + hres	Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning	99.10	2018-03-14	📦 davidmascharka/tbd-nets
6	NS-CL	The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision	98.90	2019-04-26	📦 vacancy/NSCL-PyTorch-Release 📦 nerdimite/neuro-symbolic-ai-soc
7	MAC	Compositional Attention Networks for Machine Reasoning	98.90	2018-03-08	📦 stanfordnlp/mac-network 📦 rosinality/mac-network-pytorch 📦 Glaciohound/VCML
8	CNN + LSTM + RN + HAN	Learning Visual Question Answering by Bootstrapping Hard Attention	98.80	2018-08-01	📦 lienchibao1998/new
9	DDRprog*	DDRprog: A CLEVR Differentiable Dynamic Reasoning Programmer	98.30	2018-03-30	-
10	single-hop + LCGN (ours)	Language-Conditioned Graph Networks for Relational Reasoning	97.90	2019-05-10	📦 ronghanghu/lcgn

All Papers (15)

Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding

2018

NS-VQA (1K programs)

kexinyi/ns-vqa nerdimite/neuro-symbolic-ai-soc

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

2021

MDETR

facebookresearch/multimodal ashkamath/mdetr

NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization

2024

NeSyCoCo

hlr/nesycoco

Interpretable Visual Reasoning via Induced Symbolic Space

2020

OCCAM (ours)

SHI-Labs/Interpretable-Visual-Reasoning

Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning

2018

TbD + reg + hres

davidmascharka/tbd-nets

The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision

2019

NS-CL

vacancy/NSCL-PyTorch-Release nerdimite/neuro-symbolic-ai-soc

Compositional Attention Networks for Machine Reasoning

2018

MAC

stanfordnlp/mac-network rosinality/mac-network-pytorch

Learning Visual Question Answering by Bootstrapping Hard Attention

2018

CNN + LSTM + RN + HAN

lienchibao1998/new

DDRprog: A CLEVR Differentiable Dynamic Reasoning Programmer

2018

DDRprog*

Language-Conditioned Graph Networks for Relational Reasoning

2019

single-hop + LCGN (ours)

ronghanghu/lcgn

FiLM: Visual Reasoning with a General Conditioning Layer

2017

CNN+GRU+FiLM

kdaip/stabletts ethanjperez/film

Explainable and Explicit Visual Reasoning over Scene Graphs

2018

XNM-Det supervised

shijx12/XNM-Net shijx12/shijx12.github.io

Inferring and Executing Programs for Visual Reasoning

2017

IEP-700K

facebookresearch/clevr-iep ethanjperez/film

A simple neural network module for relational reasoning

2017

CNN + LSTM + RN

kimhc6028/relational-networks clvrai/relation-network-tensorflow

Question-Guided Hybrid Convolution for Visual Question Answering

2018

QGHC+Att+Concat

CLEVR

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (15)

Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

NeSyCoCo: A Neuro-Symbolic Concept Composer for Compositional Generalization

Interpretable Visual Reasoning via Induced Symbolic Space

Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning

The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision

Compositional Attention Networks for Machine Reasoning

Learning Visual Question Answering by Bootstrapping Hard Attention

DDRprog: A CLEVR Differentiable Dynamic Reasoning Programmer

Language-Conditioned Graph Networks for Relational Reasoning

FiLM: Visual Reasoning with a General Conditioning Layer

Explainable and Explicit Visual Reasoning over Scene Graphs

Inferring and Executing Programs for Visual Reasoning

A simple neural network module for relational reasoning

Question-Guided Hybrid Convolution for Visual Question Answering

Model	Paper	Accuracy	Date
NS-VQA (1K programs)	Neural-Symbolic VQA: Disentangling Reasoning from…	99.80	2018-10-04
MDETR	MDETR -- Modulated Detection for End-to-End Multi…	99.70	2021-04-26
NeSyCoCo	NeSyCoCo: A Neuro-Symbolic Concept Composer for C…	99.70	2024-12-20
OCCAM (ours)	Interpretable Visual Reasoning via Induced Symbol…	99.40	2020-11-23
TbD + reg + hres	Transparency by Design: Closing the Gap Between P…	99.10	2018-03-14
NS-CL	The Neuro-Symbolic Concept Learner: Interpreting …	98.90	2019-04-26
MAC	Compositional Attention Networks for Machine Reas…	98.90	2018-03-08
CNN + LSTM + RN + HAN	Learning Visual Question Answering by Bootstrappi…	98.80	2018-08-01
DDRprog*	DDRprog: A CLEVR Differentiable Dynamic Reasoning…	98.30	2018-03-30
single-hop + LCGN (ours)	Language-Conditioned Graph Networks for Relationa…	97.90	2019-05-10
CNN+GRU+FiLM	FiLM: Visual Reasoning with a General Conditionin…	97.70	2017-09-22
XNM-Det supervised	Explainable and Explicit Visual Reasoning over Sc…	97.70	2018-12-05
IEP-700K	Inferring and Executing Programs for Visual Reaso…	96.90	2017-05-10
CNN + LSTM + RN	A simple neural network module for relational rea…	95.50	2017-06-05
QGHC+Att+Concat	Question-Guided Hybrid Convolution for Visual Que…	65.90	2018-08-08