ML Research Wiki / Benchmarks / Zero-Shot Transfer Image Classification / ObjectNet

ObjectNet

Zero-Shot Transfer Image Classification Benchmark

Performance Over Time

📊 Showing 9 results | 📏 Metric: Accuracy (Private)

Top Performing Models

Rank	Model	Paper	Accuracy (Private)	Date	Code
1	LiT-22B	Scaling Vision Transformers to 22 Billion Parameters	87.60	2023-02-10	📦 lucidrains/flash-cosine-sim-attention
2	LiT ViT-e	PaLI: A Jointly-Scaled Multilingual Language-Image Model	84.90	2022-09-14	📦 google-research/big_vision
3	CoCa	CoCa: Contrastive Captioners are Image-Text Foundation Models	82.70	2022-05-04	📦 mlfoundations/open_clip 📦 facebookresearch/multimodal 📦 lucidrains/CoCa-pytorch
4	EVA-CLIP-18B	EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters	82.20	2024-02-06	📦 baaivision/EVA 📦 baaivision/eva
5	LiT-tuning	LiT: Zero-Shot Transfer with Locked-image text Tuning	81.10	2021-11-15	📦 mlfoundations/open_clip 📦 google-research/vision_transformer 📦 google-research/big_vision 📦 laion-ai/clip_benchmark 📦 eify/clip_benchmark
6	InternVL-C	InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	80.60	2023-12-21	📦 opengvlab/internvl 📦 opengvlab/internvl-mmdetseg
7	EVA-CLIP-E/14+	EVA-CLIP: Improved Training Techniques for CLIP at Scale	79.60	2023-03-27	📦 baaivision/eva 📦 PaddlePaddle/PaddleMIX 📦 Yui010206/CREMA 📦 jaehong31/raccoon
8	CLIP	Learning Transferable Visual Models From Natural Language Supervision	72.30	2021-02-26	📦 openai/CLIP 📦 mlfoundations/open_clip 📦 towhee-io/towhee
9	PaLI	PaLI: A Jointly-Scaled Multilingual Language-Image Model	42.62	2022-09-14	📦 google-research/big_vision

All Papers (9)

Scaling Vision Transformers to 22 Billion Parameters

2023

LiT-22B

lucidrains/flash-cosine-sim-attention

PaLI: A Jointly-Scaled Multilingual Language-Image Model

2022

LiT ViT-e

google-research/big_vision

CoCa: Contrastive Captioners are Image-Text Foundation Models

2022

CoCa

mlfoundations/open_clip facebookresearch/multimodal

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

2024

EVA-CLIP-18B

baaivision/EVA baaivision/eva

LiT: Zero-Shot Transfer with Locked-image text Tuning

2021

LiT-tuning

mlfoundations/open_clip google-research/vision_transformer

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

2023

InternVL-C

opengvlab/internvl opengvlab/internvl-mmdetseg

EVA-CLIP: Improved Training Techniques for CLIP at Scale

2023

EVA-CLIP-E/14+

baaivision/eva PaddlePaddle/PaddleMIX

Learning Transferable Visual Models From Natural Language Supervision

2021

CLIP

openai/CLIP mlfoundations/open_clip

PaLI: A Jointly-Scaled Multilingual Language-Image Model

2022

PaLI

google-research/big_vision

ObjectNet

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (9)

Scaling Vision Transformers to 22 Billion Parameters

PaLI: A Jointly-Scaled Multilingual Language-Image Model

CoCa: Contrastive Captioners are Image-Text Foundation Models

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

LiT: Zero-Shot Transfer with Locked-image text Tuning

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

EVA-CLIP: Improved Training Techniques for CLIP at Scale

Learning Transferable Visual Models From Natural Language Supervision

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Model	Paper	Accuracy (Private)	Date
LiT-22B	Scaling Vision Transformers to 22 Billion Paramet…	87.60	2023-02-10
LiT ViT-e	PaLI: A Jointly-Scaled Multilingual Language-Imag…	84.90	2022-09-14
CoCa	CoCa: Contrastive Captioners are Image-Text Found…	82.70	2022-05-04
EVA-CLIP-18B	EVA-CLIP-18B: Scaling CLIP to 18 Billion Paramete…	82.20	2024-02-06
LiT-tuning	LiT: Zero-Shot Transfer with Locked-image text Tu…	81.10	2021-11-15
InternVL-C	InternVL: Scaling up Vision Foundation Models and…	80.60	2023-12-21
EVA-CLIP-E/14+	EVA-CLIP: Improved Training Techniques for CLIP a…	79.60	2023-03-27
CLIP	Learning Transferable Visual Models From Natural …	72.30	2021-02-26
PaLI	PaLI: A Jointly-Scaled Multilingual Language-Imag…	42.62	2022-09-14