ML Research Wiki / Benchmarks / Domain Generalization / ImageNet-A

ImageNet-A

Domain Generalization Benchmark

Performance Over Time

📊 Showing 39 results | 📏 Metric: Top-1 accuracy %

Top Performing Models

Rank	Model	Paper	Top-1 accuracy %	Date	Code
1	Model soups (BASIC-L) 📚	Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time	94.17	2022-03-10	📦 mlfoundations/model-soups 📦 Burf/ModelSoups 📦 facebookresearch/ModelRatatouille
2	Model soups (ViT-G/14) 📚	Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time	92.67	2022-03-10	📦 mlfoundations/model-soups 📦 Burf/ModelSoups 📦 facebookresearch/ModelRatatouille
3	µ2Net+ (ViT-L/16) 📚	A Continual Development Methodology for Large-scale Multitask Dynamic ML Systems	84.53	2022-09-15	📦 google-research/google-research
4	CAR-FT (CLIP, ViT-L/14@336px) 📚	Context-Aware Robust Fine-Tuning	81.50	2022-11-29	-
5	CAFormer-B36 (IN-21K, 384) 📚	MetaFormer Baselines for Vision	79.50	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
6	MAE (ViT-H, 448)	Masked Autoencoders Are Scalable Vision Learners	76.70	2021-11-11	📦 facebookresearch/mae 📦 lightly-ai/lightly 📦 open-mmlab/mmselfsup
7	FAN-Hybrid-L(IN-21K, 384) 📚	Understanding The Robustness in Vision Transformers	74.50	2022-04-26	📦 nvlabs/fan 📦 NVlabs/STL
8	ConvFormer-B36 (IN-21K, 384) 📚	MetaFormer Baselines for Vision	73.50	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
9	CAFormer-B36 (IN-21K) 📚	MetaFormer Baselines for Vision	69.40	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
10	ConvNeXt-XL (Im21k, 384) 📚	A ConvNet for the 2020s	69.30	2022-01-10	📦 keras-team/keras 📦 rwightman/pytorch-image-models 📦 pytorch/vision

All Papers (39)

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

2022

Model soups (BASIC-L)

mlfoundations/model-soups Burf/ModelSoups

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

2022

Model soups (ViT-G/14)

mlfoundations/model-soups Burf/ModelSoups

A Continual Development Methodology for Large-scale Multitask Dynamic ML Systems

2022

µ2Net+ (ViT-L/16)

google-research/google-research

Context-Aware Robust Fine-Tuning

2022

CAR-FT (CLIP, ViT-L/14@336px)

MetaFormer Baselines for Vision

2022

CAFormer-B36 (IN-21K, 384)

rwightman/pytorch-image-models facebookresearch/xformers

Masked Autoencoders Are Scalable Vision Learners

2021

MAE (ViT-H, 448)

facebookresearch/mae lightly-ai/lightly

Understanding The Robustness in Vision Transformers

2022

FAN-Hybrid-L(IN-21K, 384)

nvlabs/fan NVlabs/STL

MetaFormer Baselines for Vision

2022

ConvFormer-B36 (IN-21K, 384)

rwightman/pytorch-image-models facebookresearch/xformers

MetaFormer Baselines for Vision

2022

CAFormer-B36 (IN-21K)

rwightman/pytorch-image-models facebookresearch/xformers

A ConvNet for the 2020s

2022

ConvNeXt-XL (Im21k, 384)

keras-team/keras rwightman/pytorch-image-models

Enhance the Visual Representation via Discrete Adversarial Training

2022

MAE+DAT (ViT-H)

alibaba/easyrobust

MetaFormer Baselines for Vision

2022

ConvFormer-B36 (IN-21K)

rwightman/pytorch-image-models facebookresearch/xformers

Pyramid Adversarial Training Improves ViT Performance

2021

Pyramid Adversarial Training Improves ViT (Im21k)

google-research/scenic

MetaFormer Baselines for Vision

2022

CAFormer-B36 (384)

rwightman/pytorch-image-models facebookresearch/xformers

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

2023

TransNeXt-Base (IN-1K supervised, 384)

Westlake-AI/openmixup daishiresearch/transnext

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

2023

TransNeXt-Small (IN-1K supervised, 384)

Westlake-AI/openmixup daishiresearch/transnext

MetaFormer Baselines for Vision

2022

ConvFormer-B36 (384)

rwightman/pytorch-image-models facebookresearch/xformers

Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision

2022

SEER (RegNet10B)

facebookresearch/vissl

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

2023

TransNeXt-Base (IN-1K supervised, 224)

Westlake-AI/openmixup daishiresearch/transnext

MetaFormer Baselines for Vision

2022

CAFormer-B36

rwightman/pytorch-image-models facebookresearch/xformers

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

2023

TransNeXt-Small (IN-1K supervised, 224)

Westlake-AI/openmixup daishiresearch/transnext

Fully Attentional Networks with Self-emerging Token Labeling

2024

FAN-L-Hybrid+STL

NVlabs/STL

MetaFormer Baselines for Vision

2022

ConvFormer-B36

rwightman/pytorch-image-models facebookresearch/xformers

Pyramid Adversarial Training Improves ViT Performance

2021

Pyramid Adversarial Training Improves ViT (384x384)

google-research/scenic

Sequencer: Deep LSTM for Image Classification

2022

Sequencer2D-L

rwightman/pytorch-image-models timeseriesAI/tsai

Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models

2023

Discrete Adversarial Distillation (ViT-B/224)

lapisrocks/DiscreteAdversarialDistillation

Your Diffusion Model is Secretly a Zero-Shot Classifier

2023

Diffusion Classifier

diffusion-classifier/diffusion-classifier SamsungSAILMontreal/ForestDiffusion

Towards Robust Vision Transformer

2021

RVT-B*

alibaba/easyrobust vtddggg/Robust-Vision-Transformer

Towards Robust Vision Transformer

2021

RVT-S*

alibaba/easyrobust vtddggg/Robust-Vision-Transformer

Towards Robust Vision Transformer

2021

RVT-Ti*

alibaba/easyrobust vtddggg/Robust-Vision-Transformer

Global Filter Networks for Image Classification

2021

GFNet-S

raoyongming/GFNet liuruiyang98/Jittor-MLP

On Feature Normalization and Data Augmentation

2020

CutMix+MoEx (ResNet-50)

Boyiliee/MoEx

Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models

2023

Discrete Adversarial Distillation (ResNet-50)

lapisrocks/DiscreteAdversarialDistillation

CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features

2019

CutMix (ResNet-50)

rwightman/pytorch-image-models pytorch/vision

mixup: Beyond Empirical Risk Minimization

2017

Mixup (ResNet-50)

rwightman/pytorch-image-models pytorch/vision

Improved Regularization of Convolutional Neural Networks with Cutout

2017

Cutout (ResNet-50)

albumentations-team/albumentations PaddlePaddle/PaddleClas

Deep Residual Learning for Image Recognition

2015

ResNet-50 (300 Epochs)

tensorflow/models tensorflow/models

ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness

2018

Stylized ImageNet (ResNet-50)

rgeirhos/texture-vs-shape rgeirhos/Stylized-ImageNet

Natural Adversarial Examples

2019

ResNet-50

hendrycks/natural-adv-examples oskyhn/CNNs-Without-Borders zzzace2000/robust_cls_model

Model	Paper	Top-1 accuracy %	Date
Model soups (BASIC-L)	Model soups: averaging weights of multiple fine-t…	94.17	2022-03-10
Model soups (ViT-G/14)	Model soups: averaging weights of multiple fine-t…	92.67	2022-03-10
µ2Net+ (ViT-L/16)	A Continual Development Methodology for Large-sca…	84.53	2022-09-15
CAR-FT (CLIP, ViT-L/14@336px)	Context-Aware Robust Fine-Tuning	81.50	2022-11-29
CAFormer-B36 (IN-21K, 384)	MetaFormer Baselines for Vision	79.50	2022-10-24
MAE (ViT-H, 448)	Masked Autoencoders Are Scalable Vision Learners	76.70	2021-11-11
FAN-Hybrid-L(IN-21K, 384)	Understanding The Robustness in Vision Transforme…	74.50	2022-04-26
ConvFormer-B36 (IN-21K, 384)	MetaFormer Baselines for Vision	73.50	2022-10-24
CAFormer-B36 (IN-21K)	MetaFormer Baselines for Vision	69.40	2022-10-24
ConvNeXt-XL (Im21k, 384)	A ConvNet for the 2020s	69.30	2022-01-10
MAE+DAT (ViT-H)	Enhance the Visual Representation via Discrete Ad…	68.92	2022-09-16
ConvFormer-B36 (IN-21K)	MetaFormer Baselines for Vision	63.30	2022-10-24
Pyramid Adversarial Training Improves ViT (Im21k)	Pyramid Adversarial Training Improves ViT Perform…	62.44	2021-11-30
CAFormer-B36 (384)	MetaFormer Baselines for Vision	61.90	2022-10-24
TransNeXt-Base (IN-1K supervised, 384)	TransNeXt: Robust Foveal Visual Perception for Vi…	61.60	2023-11-28
TransNeXt-Small (IN-1K supervised, 384)	TransNeXt: Robust Foveal Visual Perception for Vi…	58.30	2023-11-28
ConvFormer-B36 (384)	MetaFormer Baselines for Vision	55.30	2022-10-24
SEER (RegNet10B)	Vision Models Are More Robust And Fair When Pretr…	52.70	2022-02-16
TransNeXt-Base (IN-1K supervised, 224)	TransNeXt: Robust Foveal Visual Perception for Vi…	50.60	2023-11-28
CAFormer-B36	MetaFormer Baselines for Vision	48.50	2022-10-24
TransNeXt-Small (IN-1K supervised, 224)	TransNeXt: Robust Foveal Visual Perception for Vi…	47.10	2023-11-28
FAN-L-Hybrid+STL	Fully Attentional Networks with Self-emerging Tok…	46.10	2024-01-08
ConvFormer-B36	MetaFormer Baselines for Vision	40.10	2022-10-24
Pyramid Adversarial Training Improves ViT (384x384)	Pyramid Adversarial Training Improves ViT Perform…	36.41	2021-11-30
Sequencer2D-L	Sequencer: Deep LSTM for Image Classification	35.50	2022-05-04
Discrete Adversarial Distillation (ViT-B/224)	Distilling Out-of-Distribution Robustness from Vi…	31.80	2023-11-02
Diffusion Classifier	Your Diffusion Model is Secretly a Zero-Shot Clas…	30.20	2023-03-28
RVT-B*	Towards Robust Vision Transformer	28.50	2021-05-17
RVT-S*	Towards Robust Vision Transformer	25.70	2021-05-17
RVT-Ti*	Towards Robust Vision Transformer	14.40	2021-05-17
GFNet-S	Global Filter Networks for Image Classification	14.30	2021-07-01
CutMix+MoEx (ResNet-50)	On Feature Normalization and Data Augmentation	8.40	2020-02-25
Discrete Adversarial Distillation (ResNet-50)	Distilling Out-of-Distribution Robustness from Vi…	7.70	2023-11-02
CutMix (ResNet-50)	CutMix: Regularization Strategy to Train Strong C…	7.30	2019-05-13
Mixup (ResNet-50)	mixup: Beyond Empirical Risk Minimization	6.60	2017-10-25
Cutout (ResNet-50)	Improved Regularization of Convolutional Neural N…	4.40	2017-08-15
ResNet-50 (300 Epochs)	Deep Residual Learning for Image Recognition	4.20	2015-12-10
Stylized ImageNet (ResNet-50)	ImageNet-trained CNNs are biased towards texture;…	2.30	2018-11-29
ResNet-50	Natural Adversarial Examples	0.00	2019-07-16

ImageNet-A

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (39)