ML Research Wiki / Benchmarks / Referring expression generation / ColonINST-v1 (Unseen)

ColonINST-v1 (Unseen)

Referring expression generation Benchmark

Performance Over Time

📊 Showing 17 results | 📏 Metric: Accuray

Top Performing Models

Rank	Model	Paper	Accuray	Date	Code
1	ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	80.18	2024-10-22	📦 ai4colonoscopy/intelliscope
2	MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	78.03	2023-12-28	📦 meituan-automl/mobilevlm
3	LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	75.25	2023-06-01	📦 microsoft/LLaVA-Med
4	Bunny-v1.0-3B (w/ LoRA, w/ extra data)	Efficient Multimodal Learning from Data-centric Perspective	75.08	2024-02-18	📦 baai-dcai/bunny
5	LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	75.07	2023-06-01	📦 microsoft/LLaVA-Med
6	MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	74.30	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini
7	MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	73.14	2023-12-28	📦 meituan-automl/mobilevlm
8	LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	73.05	2023-06-01	📦 microsoft/LLaVA-Med
9	LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	72.88	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
10	MiniGPT-v2 (w/ LoRA, w/o extra data)	MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning	72.05	2023-10-14	📦 vision-cair/minigpt-4 📦 zebangcheng/emotion-llama

All Papers (17)

Frontiers in Intelligent Colonoscopy

2024

ColonGPT (w/ LoRA, w/o extra data)

ai4colonoscopy/intelliscope

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/ LoRA, w/ extra data)

meituan-automl/mobilevlm

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)

microsoft/LLaVA-Med

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/ extra data)

baai-dcai/bunny

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)

microsoft/LLaVA-Med

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/ extra data)

dvlab-research/MGM dvlab-research/minigemini

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/o LoRA, w/ extra data)

meituan-automl/mobilevlm

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)

microsoft/LLaVA-Med

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/o extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/ extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)

microsoft/LLaVA-Med

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/o extra data)

dvlab-research/MGM dvlab-research/minigemini

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/o extra data)

baai-dcai/bunny

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

ColonINST-v1 (Unseen)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (17)

Frontiers in Intelligent Colonoscopy

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Efficient Multimodal Learning from Data-centric Perspective

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Improved Baselines with Visual Instruction Tuning

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Improved Baselines with Visual Instruction Tuning

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Efficient Multimodal Learning from Data-centric Perspective

Visual Instruction Tuning

Visual Instruction Tuning

Model	Paper	Accuray	Date
ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	80.18	2024-10-22
MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	78.03	2023-12-28
LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	75.25	2023-06-01
Bunny-v1.0-3B (w/ LoRA, w/ extra data)	Efficient Multimodal Learning from Data-centric P…	75.08	2024-02-18
LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	75.07	2023-06-01
MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	74.30	2024-03-27
MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	73.14	2023-12-28
LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	73.05	2023-06-01
LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	72.88	2023-10-05
MiniGPT-v2 (w/ LoRA, w/o extra data)	MiniGPT-v2: large language model as a unified int…	72.05	2023-10-14
LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	70.38	2023-10-05
MiniGPT-v2 (w/ LoRA, w/ extra data)	MiniGPT-v2: large language model as a unified int…	70.23	2023-10-14
LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	70.00	2023-06-01
MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	69.81	2024-03-27
Bunny-v1.0-3B (w/ LoRA, w/o extra data)	Efficient Multimodal Learning from Data-centric P…	69.45	2024-02-18
LLaVA-v1 (w/ LoRA, w/o extra data)	Visual Instruction Tuning	68.11	2023-04-17
LLaVA-v1 (w/ LoRA, w/ extra data)	Visual Instruction Tuning	46.85	2023-04-17