ML Research Wiki / Benchmarks / Question Answering / SQA3D

SQA3D

Question Answering Benchmark

Performance Over Time

📊 Showing 7 results | 📏 Metric: AnswerExactMatch (Question Answering)

Top Performing Models

Rank	Model	Paper	AnswerExactMatch (Question Answering)	Date	Code
1	CREMA	CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion	54.60	2024-02-08	📦 Yui010206/CREMA
2	Situation3D	Situational Awareness Matters in 3D Vision Language Reasoning	52.60	2024-06-11	📦 YunzeMan/Situation3D
3	Lexicon3D	Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding	50.70	2024-09-05	📦 yunzeman/lexicon3d
4	LM4VisualEncoding	Frozen Transformers in Language Models Are Effective Visual Encoder Layers	48.09	2023-10-19	📦 ziqipang/lm4visualencoding 📦 zhixinlai/llmboostmedical
5	ScanQA (w/ auxiliary loss) 📚	SQA3D: Situated Question Answering in 3D Scenes	47.20	2022-10-14	📦 SilongYong/SQA3D
6	ScanQA	SQA3D: Situated Question Answering in 3D Scenes	46.58	2022-10-14	📦 SilongYong/SQA3D
7	MCAN	Deep Modular Co-Attention Networks for Visual Question Answering	43.42	2019-06-25	📦 MILVLG/mcan-vqa 📦 apugoneappu/ask_me_anything 📦 apugoneappu/vqa_visualise

All Papers (7)

CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion

2024

CREMA

Yui010206/CREMA

Situational Awareness Matters in 3D Vision Language Reasoning

2024

Situation3D

YunzeMan/Situation3D

Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding

2024

Lexicon3D

yunzeman/lexicon3d

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

2023

LM4VisualEncoding

ziqipang/lm4visualencoding zhixinlai/llmboostmedical

SQA3D: Situated Question Answering in 3D Scenes

2022

ScanQA (w/ auxiliary loss)

SilongYong/SQA3D

SQA3D: Situated Question Answering in 3D Scenes

2022

ScanQA

SilongYong/SQA3D

Deep Modular Co-Attention Networks for Visual Question Answering

2019

MCAN

MILVLG/mcan-vqa apugoneappu/ask_me_anything

SQA3D

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (7)

CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion

Situational Awareness Matters in 3D Vision Language Reasoning

Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding

Frozen Transformers in Language Models Are Effective Visual Encoder Layers

SQA3D: Situated Question Answering in 3D Scenes

SQA3D: Situated Question Answering in 3D Scenes

Deep Modular Co-Attention Networks for Visual Question Answering

Model	Paper	AnswerExactMatch (Question Answering)	Date
CREMA	CREMA: Generalizable and Efficient Video-Language…	54.60	2024-02-08
Situation3D	Situational Awareness Matters in 3D Vision Langua…	52.60	2024-06-11
Lexicon3D	Lexicon3D: Probing Visual Foundation Models for C…	50.70	2024-09-05
LM4VisualEncoding	Frozen Transformers in Language Models Are Effect…	48.09	2023-10-19
ScanQA (w/ auxiliary loss)	SQA3D: Situated Question Answering in 3D Scenes	47.20	2022-10-14
ScanQA	SQA3D: Situated Question Answering in 3D Scenes	46.58	2022-10-14
MCAN	Deep Modular Co-Attention Networks for Visual Que…	43.42	2019-06-25