ML Research Wiki / Benchmarks / Visual Question Answering / ViP-Bench

ViP-Bench

Visual Question Answering Benchmark

Performance Over Time

📊 Showing 13 results | 📏 Metric: GPT-4 score (bbox)

Top Performing Models

Rank	Model	Paper	GPT-4 score (bbox)	Date	Code
1	GPT-4V-turbo-detail:high (Visual Prompt)	GPT-4 Technical Report	60.70	2023-03-15	📦 openai/evals 📦 shmsw25/factscore 📦 unispac/visual-adversarial-examples-jailbreak-large-language-models
2	GPT-4V-turbo-detail:low (Visual Prompt)	GPT-4 Technical Report	52.80	2023-03-15	📦 openai/evals 📦 shmsw25/factscore 📦 unispac/visual-adversarial-examples-jailbreak-large-language-models
3	LLaVA-NeXT-Inst-IT-Qwen2-7B (Visual Prompt 📚	Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	50.50	2024-12-04	📦 inst-it/inst-it
4	ViP-LLaVA-13B (Visual Prompt)	Making Large Language Models Better Data Creators	48.30	2023-10-31	📦 microsoft/llm-data-creation
5	LLaVA-1.5-13B (Coordinates)	Improved Baselines with Visual Instruction Tuning	47.10	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
6	Qwen-VL-Chat (Coordinates)	Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	45.30	2023-08-24	📦 qwenlm/qwen-vl 📦 brandon3964/multimodal-task-vector
7	LLaVA-NeXT-Inst-IT-Vicuna-7B (Visual Prompt 📚	Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning	45.10	2024-12-04	📦 inst-it/inst-it
8	LLaVA-1.5-13B (Visual Prompt)	Improved Baselines with Visual Instruction Tuning	41.80	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
9	Qwen-VL-Chat (Visual Prompt)	Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	39.20	2023-08-24	📦 qwenlm/qwen-vl 📦 brandon3964/multimodal-task-vector
10	InstructBLIP-13B (Visual Prompt)	InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning	35.80	2023-05-11	📦 salesforce/lavis 📦 tabtoyou/kollava 📦 pwc-1/Paper-9 📦 MS-P3/code3

All Papers (13)

GPT-4 Technical Report

2023

GPT-4V-turbo-detail:high (Visual Prompt)

openai/evals shmsw25/factscore

GPT-4 Technical Report

2023

GPT-4V-turbo-detail:low (Visual Prompt)

openai/evals shmsw25/factscore

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

2024

LLaVA-NeXT-Inst-IT-Qwen2-7B (Visual Prompt

inst-it/inst-it

Making Large Language Models Better Data Creators

2023

ViP-LLaVA-13B (Visual Prompt)

microsoft/llm-data-creation

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-1.5-13B (Coordinates)

huggingface/transformers haotian-liu/LLaVA

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023

Qwen-VL-Chat (Coordinates)

qwenlm/qwen-vl brandon3964/multimodal-task-vector

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

2024

LLaVA-NeXT-Inst-IT-Vicuna-7B (Visual Prompt

inst-it/inst-it

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-1.5-13B (Visual Prompt)

huggingface/transformers haotian-liu/LLaVA

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023

Qwen-VL-Chat (Visual Prompt)

qwenlm/qwen-vl brandon3964/multimodal-task-vector

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

2023

InstructBLIP-13B (Visual Prompt)

salesforce/lavis tabtoyou/kollava

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

2023

GPT4ROI 7B (ROI)

jshilong/gpt4roi sunsmarterjie/chatterbox qiujihao19/artemis

Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

2023

Shikra-7B (Coordinates)

shikras/shikra

Kosmos-2: Grounding Multimodal Large Language Models to the World

2023

Kosmos-2 (Discrete Token)

microsoft/unilm rabiulcste/vqazero

ViP-Bench

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (13)

GPT-4 Technical Report

GPT-4 Technical Report

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

Making Large Language Models Better Data Creators

Improved Baselines with Visual Instruction Tuning

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Inst-IT: Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning

Improved Baselines with Visual Instruction Tuning

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

Kosmos-2: Grounding Multimodal Large Language Models to the World

Model	Paper	GPT-4 score (bbox)	Date
GPT-4V-turbo-detail:high (Visual Prompt)	GPT-4 Technical Report	60.70	2023-03-15
GPT-4V-turbo-detail:low (Visual Prompt)	GPT-4 Technical Report	52.80	2023-03-15
LLaVA-NeXT-Inst-IT-Qwen2-7B (Visual Prompt	Inst-IT: Boosting Multimodal Instance Understandi…	50.50	2024-12-04
ViP-LLaVA-13B (Visual Prompt)	Making Large Language Models Better Data Creators	48.30	2023-10-31
LLaVA-1.5-13B (Coordinates)	Improved Baselines with Visual Instruction Tuning	47.10	2023-10-05
Qwen-VL-Chat (Coordinates)	Qwen-VL: A Versatile Vision-Language Model for Un…	45.30	2023-08-24
LLaVA-NeXT-Inst-IT-Vicuna-7B (Visual Prompt	Inst-IT: Boosting Multimodal Instance Understandi…	45.10	2024-12-04
LLaVA-1.5-13B (Visual Prompt)	Improved Baselines with Visual Instruction Tuning	41.80	2023-10-05
Qwen-VL-Chat (Visual Prompt)	Qwen-VL: A Versatile Vision-Language Model for Un…	39.20	2023-08-24
InstructBLIP-13B (Visual Prompt)	InstructBLIP: Towards General-purpose Vision-Lang…	35.80	2023-05-11
GPT4ROI 7B (ROI)	GPT4RoI: Instruction Tuning Large Language Model …	35.10	2023-07-07
Shikra-7B (Coordinates)	Shikra: Unleashing Multimodal LLM's Referential D…	33.70	2023-06-27
Kosmos-2 (Discrete Token)	Kosmos-2: Grounding Multimodal Large Language Mod…	26.90	2023-06-26