ML Research Wiki / Benchmarks / Image Classification / ColonINST-v1 (Unseen)

ColonINST-v1 (Unseen)

Image Classification Benchmark

Performance Over Time

📊 Showing 17 results | 📏 Metric: Accuray

Top Performing Models

Rank	Model	Paper	Accuray	Date	Code
1	ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	83.24	2024-10-22	📦 ai4colonoscopy/intelliscope
2	LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	80.89	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
3	MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	80.44	2023-12-28	📦 meituan-automl/mobilevlm
4	Bunny-v1.0-3B (w/ LoRA, w/ extra data)	Efficient Multimodal Learning from Data-centric Perspective	79.50	2024-02-18	📦 baai-dcai/bunny
5	LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	79.24	2023-06-01	📦 microsoft/LLaVA-Med
6	LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	79.10	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
7	MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	78.99	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini
8	MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	78.75	2023-12-28	📦 meituan-automl/mobilevlm
9	MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	78.69	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini
10	LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	78.04	2023-06-01	📦 microsoft/LLaVA-Med

All Papers (17)

Frontiers in Intelligent Colonoscopy

2024

ColonGPT (w/ LoRA, w/o extra data)

ai4colonoscopy/intelliscope

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/ LoRA, w/ extra data)

meituan-automl/mobilevlm

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/ extra data)

baai-dcai/bunny

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)

microsoft/LLaVA-Med

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/o extra data)

dvlab-research/MGM dvlab-research/minigemini

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/o LoRA, w/ extra data)

meituan-automl/mobilevlm

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/ extra data)

dvlab-research/MGM dvlab-research/minigemini

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)

microsoft/LLaVA-Med

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/o extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)

microsoft/LLaVA-Med

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/ extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/o extra data)

baai-dcai/bunny

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)

microsoft/LLaVA-Med

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

ColonINST-v1 (Unseen)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (17)

Frontiers in Intelligent Colonoscopy

Improved Baselines with Visual Instruction Tuning

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

Efficient Multimodal Learning from Data-centric Perspective

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Improved Baselines with Visual Instruction Tuning

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Efficient Multimodal Learning from Data-centric Perspective

Visual Instruction Tuning

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Visual Instruction Tuning

Model	Paper	Accuray	Date
ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	83.24	2024-10-22
LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	80.89	2023-10-05
MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	80.44	2023-12-28
Bunny-v1.0-3B (w/ LoRA, w/ extra data)	Efficient Multimodal Learning from Data-centric P…	79.50	2024-02-18
LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	79.24	2023-06-01
LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	79.10	2023-10-05
MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	78.99	2024-03-27
MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	78.75	2023-12-28
MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	78.69	2024-03-27
LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	78.04	2023-06-01
MiniGPT-v2 (w/ LoRA, w/o extra data)	MiniGPT-v2: large language model as a unified int…	77.93	2023-10-14
LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	77.38	2023-06-01
MiniGPT-v2 (w/ LoRA, w/ extra data)	MiniGPT-v2: large language model as a unified int…	76.82	2023-10-14
Bunny-v1.0-3B (w/ LoRA, w/o extra data)	Efficient Multimodal Learning from Data-centric P…	75.50	2024-02-18
LLaVA-v1 (w/ LoRA, w/o extra data)	Visual Instruction Tuning	72.08	2023-04-17
LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	66.51	2023-06-01
LLaVA-v1 (w/ LoRA, w/ extra data)	Visual Instruction Tuning	42.17	2023-04-17