ML Research Wiki / Benchmarks / Visual Question Answering (VQA) / InfiMM-Eval

InfiMM-Eval

Visual Question Answering (VQA) Benchmark

Performance Over Time

📊 Showing 14 results | 📏 Metric: Overall score

Top Performing Models

Rank	Model	Paper	Overall score	Date	Code
1	GPT-4V	GPT-4 Technical Report	77.88	2023-03-15	📦 openai/evals 📦 shmsw25/factscore 📦 unispac/visual-adversarial-examples-jailbreak-large-language-models
2	SPHINX v2	SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models	49.85	2023-11-13	📦 alpha-vllm/llama2-accessory
3	LLaVA-1.5	Improved Baselines with Visual Instruction Tuning	47.91	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
4	CogVLM-Chat	CogVLM: Visual Expert for Pretrained Language Models	47.88	2023-11-06	📦 thudm/cogvlm 📦 THUDM/CogAgent 📦 2024-MindSpore-1/Code2 📦 MS-P3/code5
5	LLaMA-Adapter V2	LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model	46.12	2023-04-28	📦 opengvlab/llama-adapter 📦 zrrskywalker/llama-adapter 📦 Mind23-2/MindCode-140
6	Qwen-VL-Chat	Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	44.39	2023-08-24	📦 qwenlm/qwen-vl 📦 brandon3964/multimodal-task-vector
7	InstructBLIP	InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning	37.76	2023-05-11	📦 salesforce/lavis 📦 tabtoyou/kollava 📦 pwc-1/Paper-9 📦 MS-P3/code3
8	Emu	Emu: Generative Pretraining in Multimodality	36.57	2023-07-11	📦 baaivision/emu 📦 doc-doc/NExT-OE
9	InternLM-XComposer-VL	InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition	35.97	2023-09-26	📦 internlm/internlm-xcomposer 📦 MindSpore-scientific-2/code-14 📦 MS-P3/code3
10	Otter	Otter: A Multi-Modal Model with In-Context Instruction Tuning	33.64	2023-05-05	📦 luodian/otter

All Papers (14)

GPT-4 Technical Report

2023

GPT-4V

openai/evals shmsw25/factscore

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

2023

SPHINX v2

alpha-vllm/llama2-accessory

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-1.5

huggingface/transformers haotian-liu/LLaVA

CogVLM: Visual Expert for Pretrained Language Models

2023

CogVLM-Chat

thudm/cogvlm THUDM/CogAgent

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

2023

LLaMA-Adapter V2

opengvlab/llama-adapter zrrskywalker/llama-adapter Mind23-2/MindCode-140

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023

Qwen-VL-Chat

qwenlm/qwen-vl brandon3964/multimodal-task-vector

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

2023

InstructBLIP

salesforce/lavis tabtoyou/kollava

Emu: Generative Pretraining in Multimodality

2023

Emu

baaivision/emu doc-doc/NExT-OE

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

2023

InternLM-XComposer-VL

internlm/internlm-xcomposer MindSpore-scientific-2/code-14 MS-P3/code3

Otter: A Multi-Modal Model with In-Context Instruction Tuning

2023

Otter

luodian/otter

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

2023

mPLUG-Owl2

x-plug/mplug-owl X-PLUG/mPLUG-Owl

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

2023

BLIP-2-OPT2.7B

huggingface/transformers salesforce/lavis

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

2023

MiniGPT-v2

vision-cair/minigpt-4 zyang1580/binllm

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

2023

OpenFlamingo-v2

mlfoundations/open_flamingo luodian/otter

InfiMM-Eval

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (14)

GPT-4 Technical Report

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Improved Baselines with Visual Instruction Tuning

CogVLM: Visual Expert for Pretrained Language Models

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

Emu: Generative Pretraining in Multimodality

InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

Otter: A Multi-Modal Model with In-Context Instruction Tuning

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

Model	Paper	Overall score	Date
GPT-4V	GPT-4 Technical Report	77.88	2023-03-15
SPHINX v2	SPHINX: The Joint Mixing of Weights, Tasks, and V…	49.85	2023-11-13
LLaVA-1.5	Improved Baselines with Visual Instruction Tuning	47.91	2023-10-05
CogVLM-Chat	CogVLM: Visual Expert for Pretrained Language Mod…	47.88	2023-11-06
LLaMA-Adapter V2	LLaMA-Adapter V2: Parameter-Efficient Visual Inst…	46.12	2023-04-28
Qwen-VL-Chat	Qwen-VL: A Versatile Vision-Language Model for Un…	44.39	2023-08-24
InstructBLIP	InstructBLIP: Towards General-purpose Vision-Lang…	37.76	2023-05-11
Emu	Emu: Generative Pretraining in Multimodality	36.57	2023-07-11
InternLM-XComposer-VL	InternLM-XComposer: A Vision-Language Large Model…	35.97	2023-09-26
Otter	Otter: A Multi-Modal Model with In-Context Instru…	33.64	2023-05-05
mPLUG-Owl2	mPLUG-Owl2: Revolutionizing Multi-modal Large Lan…	20.60	2023-11-07
BLIP-2-OPT2.7B	BLIP-2: Bootstrapping Language-Image Pre-training…	18.96	2023-01-30
MiniGPT-v2	MiniGPT-4: Enhancing Vision-Language Understandin…	13.28	2023-04-20
OpenFlamingo-v2	OpenFlamingo: An Open-Source Framework for Traini…	5.30	2023-08-02