ML Research Wiki / Benchmarks / Image Classification / ColonINST-v1 (Seen)

ColonINST-v1 (Seen)

Image Classification Benchmark

Performance Over Time

📊 Showing 17 results | 📏 Metric: Accuray

Top Performing Models

Rank	Model	Paper	Accuray	Date	Code
1	ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	94.06	2024-10-22	📦 ai4colonoscopy/intelliscope
2	LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	93.84	2023-06-01	📦 microsoft/LLaVA-Med
3	MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	93.64	2023-12-28	📦 meituan-automl/mobilevlm
4	LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	93.62	2023-06-01	📦 microsoft/LLaVA-Med
5	LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day	93.52	2023-06-01	📦 microsoft/LLaVA-Med
6	LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	93.33	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
7	MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	93.24	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini
8	MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices	93.02	2023-12-28	📦 meituan-automl/mobilevlm
9	LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	92.97	2023-10-05	📦 huggingface/transformers 📦 haotian-liu/LLaVA 📦 LLaVA-VL/LLaVA-NeXT
10	MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	92.97	2024-03-27	📦 dvlab-research/MGM 📦 dvlab-research/minigemini

All Papers (17)

Frontiers in Intelligent Colonoscopy

2024

ColonGPT (w/ LoRA, w/o extra data)

ai4colonoscopy/intelliscope

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)

microsoft/LLaVA-Med

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/ LoRA, w/ extra data)

meituan-automl/mobilevlm

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)

microsoft/LLaVA-Med

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)

microsoft/LLaVA-Med

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/ extra data)

dvlab-research/MGM dvlab-research/minigemini

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

2023

MobileVLM-1.7B (w/o LoRA, w/ extra data)

meituan-automl/mobilevlm

Improved Baselines with Visual Instruction Tuning

2023

LLaVA-v1.5 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

2024

MGM-2B (w/o LoRA, w/o extra data)

dvlab-research/MGM dvlab-research/minigemini

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/ extra data)

baai-dcai/bunny

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/o extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

Efficient Multimodal Learning from Data-centric Perspective

2024

Bunny-v1.0-3B (w/ LoRA, w/o extra data)

baai-dcai/bunny

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

2023

MiniGPT-v2 (w/ LoRA, w/ extra data)

vision-cair/minigpt-4 zebangcheng/emotion-llama

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/ extra data)

huggingface/transformers haotian-liu/LLaVA

Visual Instruction Tuning

2023

LLaVA-v1 (w/ LoRA, w/o extra data)

huggingface/transformers haotian-liu/LLaVA

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

2023

LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)

microsoft/LLaVA-Med

ColonINST-v1 (Seen)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (17)

Frontiers in Intelligent Colonoscopy

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Improved Baselines with Visual Instruction Tuning

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices

Improved Baselines with Visual Instruction Tuning

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Efficient Multimodal Learning from Data-centric Perspective

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Efficient Multimodal Learning from Data-centric Perspective

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Visual Instruction Tuning

Visual Instruction Tuning

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Model	Paper	Accuray	Date
ColonGPT (w/ LoRA, w/o extra data)	Frontiers in Intelligent Colonoscopy	94.06	2024-10-22
LLaVA-Med-v1.0 (w/o LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	93.84	2023-06-01
MobileVLM-1.7B (w/ LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	93.64	2023-12-28
LLaVA-Med-v1.5 (w/ LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	93.62	2023-06-01
LLaVA-Med-v1.0 (w/o LoRA, w/o extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	93.52	2023-06-01
LLaVA-v1.5 (w/ LoRA, w/ extra data)	Improved Baselines with Visual Instruction Tuning	93.33	2023-10-05
MGM-2B (w/o LoRA, w/ extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	93.24	2024-03-27
MobileVLM-1.7B (w/o LoRA, w/ extra data)	MobileVLM : A Fast, Strong and Open Vision Langua…	93.02	2023-12-28
LLaVA-v1.5 (w/ LoRA, w/o extra data)	Improved Baselines with Visual Instruction Tuning	92.97	2023-10-05
MGM-2B (w/o LoRA, w/o extra data)	Mini-Gemini: Mining the Potential of Multi-modali…	92.97	2024-03-27
Bunny-v1.0-3B (w/ LoRA, w/ extra data)	Efficient Multimodal Learning from Data-centric P…	92.47	2024-02-18
MiniGPT-v2 (w/ LoRA, w/o extra data)	MiniGPT-v2: large language model as a unified int…	91.49	2023-10-14
Bunny-v1.0-3B (w/ LoRA, w/o extra data)	Efficient Multimodal Learning from Data-centric P…	91.16	2024-02-18
MiniGPT-v2 (w/ LoRA, w/ extra data)	MiniGPT-v2: large language model as a unified int…	90.00	2023-10-14
LLaVA-v1 (w/ LoRA, w/ extra data)	Visual Instruction Tuning	89.61	2023-04-17
LLaVA-v1 (w/ LoRA, w/o extra data)	Visual Instruction Tuning	87.86	2023-04-17
LLaVA-Med-v1.5 (w/ LoRA, w/ extra data)	LLaVA-Med: Training a Large Language-and-Vision A…	87.22	2023-06-01