ML Research Wiki / Benchmarks / Referring expression generation / ColonINST-v1 (Seen)

ColonINST-v1 (Seen)

Referring expression generation Benchmark

Performance Over Time

📊 Showing 17 results | 📏 Metric: Accuray

Top Performing Models

Rank	Model	Paper	Accuray	Date	Code
1	ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	99.96	2024-10-22	📦 ai4colonoscopy/intelliscope
2	LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	99.32	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
3	LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	99.30	2023-06-01	📦 microsoft/LLaVA-Med
4	MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	98.75	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini
5	LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	98.58	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
6	MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	98.17	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini
7	MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	97.87	2023-12-28	📦 meituan-automl/mobilevlm
8	MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	97.78	2023-12-28	📦 meituan-automl/mobilevlm
9	LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	97.74	2023-06-01	📦 microsoft/LLaVA-Med
10	LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	97.35	2023-06-01	📦 microsoft/LLaVA-Med

All Papers (17)

Frontiers in Intelligent Colonoscopy

2024

ColonGPT (w/ LoRA, w/o extra data)

ai4colonoscopy/intelliscope

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)

microsoft/LLaVA-Med

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/ extra data)

dvlab-research/MGM dvlab-research/minigemini

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/o extra data)

dvlab-research/MGM dvlab-research/minigemini

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/ LoRA, w/ extra data)

meituan-automl/mobilevlm

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/o LoRA, w/ extra data)

meituan-automl/mobilevlm

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)

microsoft/LLaVA-Med

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)

microsoft/LLaVA-Med

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/o extra data)

baai-dcai/bunny

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/ extra data)

baai-dcai/bunny

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/o extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)

microsoft/LLaVA-Med

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/ extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

ColonINST-v1 (Seen)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (17)

Frontiers in Intelligent Colonoscopy

Improved Baselines with Visual Instruction Tuning

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Improved Baselines with Visual Instruction Tuning

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Efficient Multimodal Learning from Data-centric Perspective

Efficient Multimodal Learning from Data-centric Perspective

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Visual Instruction Tuning

Visual Instruction Tuning

Model	Paper	Accuray	Date
ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	99.96	2024-10-22
LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	99.32	2023-10-05
LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	99.30	2023-06-01
MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	98.75	2024-03-27
LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	98.58	2023-10-05
MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	98.17	2024-03-27
MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	97.87	2023-12-28
MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	97.78	2023-12-28
LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	97.74	2023-06-01
LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	97.35	2023-06-01
Bunny-v1.0-3B (w/ LoRA, w/o extra data)	Efficient Multimodal Learning from Data-centric P…	96.61	2024-02-18
Bunny-v1.0-3B (w/ LoRA, w/ extra data)	Efficient Multimodal Learning from Data-centric P…	96.02	2024-02-18
MiniGPT-v2 (w/ LoRA, w/o extra data)	MiniGPT-v2: large language model as a unified int…	94.69	2023-10-14
LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	90.40	2023-06-01
MiniGPT-v2 (w/ LoRA, w/ extra data)	MiniGPT-v2: large language model as a unified int…	87.65	2023-10-14
LLaVA-v1 (w/ LoRA, w/ extra data)	Visual Instruction Tuning	86.87	2023-04-17
LLaVA-v1 (w/ LoRA, w/o extra data)	Visual Instruction Tuning	84.55	2023-04-17