ML Research Wiki / Benchmarks / Zero-Shot Transfer Image Classification / ImageNet-A

ImageNet-A

Zero-Shot Transfer Image Classification Benchmark

Performance Over Time

📊 Showing 12 results | 📏 Metric: Accuracy (Private)

Top Performing Models

Rank	Model	Paper	Accuracy (Private)	Date	Code
1	CoCa	CoCa: Contrastive Captioners are Image-Text Foundation Models	90.20	2022-05-04	📦 mlfoundations/open_clip 📦 facebookresearch/multimodal 📦 lucidrains/CoCa-pytorch
2	LiT-22B	Scaling Vision Transformers to 22 Billion Parameters	90.10	2023-02-10	📦 lucidrains/flash-cosine-sim-attention
3	LiT ViT-e	PaLI: A Jointly-Scaled Multilingual Language-Image Model	88.00	2022-09-14	📦 google-research/big_vision
4	EVA-CLIP-18B	EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters	87.30	2024-02-06	📦 baaivision/EVA 📦 baaivision/eva
5	BASIC	Combined Scaling for Zero-shot Transfer Learning	85.60	2021-11-19	-
6	InternVL-C	InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	83.80	2023-12-21	📦 opengvlab/internvl 📦 opengvlab/internvl-mmdetseg
7	EVA-CLIP-E/14+	EVA-CLIP: Improved Training Techniques for CLIP at Scale	82.10	2023-03-27	📦 baaivision/eva 📦 PaddlePaddle/PaddleMIX 📦 Yui010206/CREMA 📦 jaehong31/raccoon
8	LiT-tuning	LiT: Zero-Shot Transfer with Locked-image text Tuning	79.40	2021-11-15	📦 mlfoundations/open_clip 📦 google-research/vision_transformer 📦 google-research/big_vision 📦 laion-ai/clip_benchmark 📦 eify/clip_benchmark
9	CLIP	Learning Transferable Visual Models From Natural Language Supervision	77.20	2021-02-26	📦 openai/CLIP 📦 mlfoundations/open_clip 📦 towhee-io/towhee
10	ALIGN	Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	75.80	2021-02-11	📦 facebookresearch/metaclip 📦 kakaobrain/coyo-dataset 📦 MicPie/clasp 📦 willard-yuan/video-text-retrieval-papers 📦 pwc-1/Paper-8

All Papers (12)

CoCa: Contrastive Captioners are Image-Text Foundation Models

2022

CoCa

mlfoundations/open_clip facebookresearch/multimodal

Scaling Vision Transformers to 22 Billion Parameters

2023

LiT-22B

lucidrains/flash-cosine-sim-attention

PaLI: A Jointly-Scaled Multilingual Language-Image Model

2022

LiT ViT-e

google-research/big_vision

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

2024

EVA-CLIP-18B

baaivision/EVA baaivision/eva

Combined Scaling for Zero-shot Transfer Learning

2021

BASIC

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

2023

InternVL-C

opengvlab/internvl opengvlab/internvl-mmdetseg

EVA-CLIP: Improved Training Techniques for CLIP at Scale

2023

EVA-CLIP-E/14+

baaivision/eva PaddlePaddle/PaddleMIX

LiT: Zero-Shot Transfer with Locked-image text Tuning

2021

LiT-tuning

mlfoundations/open_clip google-research/vision_transformer

Learning Transferable Visual Models From Natural Language Supervision

2021

CLIP

openai/CLIP mlfoundations/open_clip

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

2021

ALIGN

facebookresearch/metaclip kakaobrain/coyo-dataset

AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

2022

AltCLIP

flagai-open/flagai pwc-1/Paper-8

PaLI: A Jointly-Scaled Multilingual Language-Image Model

2022

PaLI

google-research/big_vision

ImageNet-A

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (12)

CoCa: Contrastive Captioners are Image-Text Foundation Models

Scaling Vision Transformers to 22 Billion Parameters

PaLI: A Jointly-Scaled Multilingual Language-Image Model

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

Combined Scaling for Zero-shot Transfer Learning

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

EVA-CLIP: Improved Training Techniques for CLIP at Scale

LiT: Zero-Shot Transfer with Locked-image text Tuning

Learning Transferable Visual Models From Natural Language Supervision

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Model	Paper	Accuracy (Private)	Date
CoCa	CoCa: Contrastive Captioners are Image-Text Found…	90.20	2022-05-04
LiT-22B	Scaling Vision Transformers to 22 Billion Paramet…	90.10	2023-02-10
LiT ViT-e	PaLI: A Jointly-Scaled Multilingual Language-Imag…	88.00	2022-09-14
EVA-CLIP-18B	EVA-CLIP-18B: Scaling CLIP to 18 Billion Paramete…	87.30	2024-02-06
BASIC	Combined Scaling for Zero-shot Transfer Learning	85.60	2021-11-19
InternVL-C	InternVL: Scaling up Vision Foundation Models and…	83.80	2023-12-21
EVA-CLIP-E/14+	EVA-CLIP: Improved Training Techniques for CLIP a…	82.10	2023-03-27
LiT-tuning	LiT: Zero-Shot Transfer with Locked-image text Tu…	79.40	2021-11-15
CLIP	Learning Transferable Visual Models From Natural …	77.20	2021-02-26
ALIGN	Scaling Up Visual and Vision-Language Representat…	75.80	2021-02-11
AltCLIP	AltCLIP: Altering the Language Encoder in CLIP fo…	69.50	2022-11-12
PaLI	PaLI: A Jointly-Scaled Multilingual Language-Imag…	44.70	2022-09-14