ML Research Wiki / Benchmarks / Visual Question Answering (VQA) / CLEVR-Humans

CLEVR-Humans

Visual Question Answering (VQA) Benchmark

Performance Over Time

📊 Showing 5 results | 📏 Metric: Accuracy

Rank	Model	Paper	Accuracy	Date	Code
1	MDETR	MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding	81.70	2021-04-26	📦 facebookresearch/multimodal 📦 ashkamath/mdetr 📦 thunlp/pevl 📦 b-faye/lightmdetr 📦 AleDella/mdter_eval
2	MAC	Compositional Attention Networks for Machine Reasoning	81.50	2018-03-08	📦 stanfordnlp/mac-network 📦 rosinality/mac-network-pytorch 📦 Glaciohound/VCML
3	CNN+GRU+FiLM	FiLM: Visual Reasoning with a General Conditioning Layer	75.90	2017-09-22	📦 kdaip/stabletts 📦 ethanjperez/film 📦 caffeinism/film-pytorch
4	NS-VQA (1K programs)	Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding	67.80	2018-10-04	📦 kexinyi/ns-vqa 📦 nerdimite/neuro-symbolic-ai-soc
5	IEP-18K	Inferring and Executing Programs for Visual Reasoning	66.60	2017-05-10	📦 facebookresearch/clevr-iep 📦 ethanjperez/film 📦 AlexKuhnle/film 📦 rs9000/VisualReasoning_MMnet 📦 bhanu77prakash/EDA-project

2021

MDETR

facebookresearch/multimodal ashkamath/mdetr

2018

MAC

stanfordnlp/mac-network rosinality/mac-network-pytorch

2017

CNN+GRU+FiLM

kdaip/stabletts ethanjperez/film

2018

NS-VQA (1K programs)

kexinyi/ns-vqa nerdimite/neuro-symbolic-ai-soc

2017

IEP-18K

facebookresearch/clevr-iep ethanjperez/film

Model	Paper	Accuracy	Date
MDETR	MDETR -- Modulated Detection for End-to-End Multi…	81.70	2021-04-26
MAC	Compositional Attention Networks for Machine Reas…	81.50	2018-03-08
CNN+GRU+FiLM	FiLM: Visual Reasoning with a General Conditionin…	75.90	2017-09-22
NS-VQA (1K programs)	Neural-Symbolic VQA: Disentangling Reasoning from…	67.80	2018-10-04
IEP-18K	Inferring and Executing Programs for Visual Reaso…	66.60	2017-05-10