ML Research Wiki / Benchmarks / MMR total / MRR-Benchmark

MRR-Benchmark

MMR total Benchmark

Performance Over Time

📊 Showing 13 results | 📏 Metric: Total Column Score

Top Performing Models

Rank	Model	Paper	Total Column Score	Date	Code
1	GPT-4o 📚	GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding	457.00	2024-06-14	-
2	GPT-4V 📚	The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)	415.00	2023-09-29	📦 qi-zhangyang/gemini-vs-gpt4v 📦 vista-h/gpt-4v_social_media
3	LLaVA-NEXT-34B 📚	Visual Instruction Tuning	412.00	2023-04-17	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
4	Phi-3-Vision 📚	Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone	397.00	2024-04-22	-
5	InternVL2-8B 📚	InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	368.00	2023-12-21	📦 opengvlab/internvl 📦 opengvlab/internvl-mmdetseg
6	Qwen-vl-max 📚	Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	366.00	2023-08-24	📦 qwenlm/qwen-vl 📦 brandon3964/multimodal-task-vector
7	LLaVA-NEXT-13B 📚	Visual Instruction Tuning	335.00	2023-04-17	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
8	Qwen-vl-plus 📚	Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	310.00	2023-08-24	📦 qwenlm/qwen-vl 📦 brandon3964/multimodal-task-vector
9	Idefics-2-8B 📚	What matters when building vision-language models?	256.00	2024-05-03	-
10	LLaVA-1.5-13B 📚	Visual Instruction Tuning	243.00	2023-04-17	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT

All Papers (13)

GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding

2024

GPT-4o

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

2023

GPT-4V

qi-zhangyang/gemini-vs-gpt4v vista-h/gpt-4v_social_media

Visual Instruction Tuning

2023

LLaVA-NEXT-34B

huggingface/transformers haotian-liu/LLaVA

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

2024

Phi-3-Vision

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

2023

InternVL2-8B

opengvlab/internvl opengvlab/internvl-mmdetseg

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023

Qwen-vl-max

qwenlm/qwen-vl brandon3964/multimodal-task-vector

Visual Instruction Tuning

2023

LLaVA-NEXT-13B

huggingface/transformers haotian-liu/LLaVA

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

2023

Qwen-vl-plus

qwenlm/qwen-vl brandon3964/multimodal-task-vector

What matters when building vision-language models?

2024

Idefics-2-8B

Visual Instruction Tuning

2023

LLaVA-1.5-13B

huggingface/transformers haotian-liu/LLaVA

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

2023

InternVL2-1B

opengvlab/internvl opengvlab/internvl-mmdetseg

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

2023

Monkey-Chat-7B

yuliang-liu/monkey

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

2023

Idefics-80B

huggingface/obelics MindSpore-scientific-2/code-14

MRR-Benchmark

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (13)

GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Visual Instruction Tuning

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

Visual Instruction Tuning

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

What matters when building vision-language models?

Visual Instruction Tuning

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Model	Paper	Total Column Score	Date
GPT-4o	GPT-4o: Visual perception performance of multimod…	457.00	2024-06-14
GPT-4V	The Dawn of LMMs: Preliminary Explorations with G…	415.00	2023-09-29
LLaVA-NEXT-34B	Visual Instruction Tuning	412.00	2023-04-17
Phi-3-Vision	Phi-3 Technical Report: A Highly Capable Language…	397.00	2024-04-22
InternVL2-8B	InternVL: Scaling up Vision Foundation Models and…	368.00	2023-12-21
Qwen-vl-max	Qwen-VL: A Versatile Vision-Language Model for Un…	366.00	2023-08-24
LLaVA-NEXT-13B	Visual Instruction Tuning	335.00	2023-04-17
Qwen-vl-plus	Qwen-VL: A Versatile Vision-Language Model for Un…	310.00	2023-08-24
Idefics-2-8B	What matters when building vision-language models?	256.00	2024-05-03
LLaVA-1.5-13B	Visual Instruction Tuning	243.00	2023-04-17
InternVL2-1B	InternVL: Scaling up Vision Foundation Models and…	237.00	2023-12-21
Monkey-Chat-7B	Monkey: Image Resolution and Text Label Are Impor…	214.00	2023-11-11
Idefics-80B	OBELICS: An Open Web-Scale Filtered Dataset of In…	139.00	2023-06-21