ML Research Wiki / Benchmarks / Domain Generalization / ImageNet-Sketch

ImageNet-Sketch

Domain Generalization Benchmark

Performance Over Time

📊 Showing 20 results | 📏 Metric: Top-1 accuracy

Top Performing Models

Rank	Model	Paper	Top-1 accuracy	Date	Code
1	Model soups (BASIC-L) 📚	Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time	77.18	2022-03-10	📦 mlfoundations/model-soups 📦 Burf/ModelSoups 📦 facebookresearch/ModelRatatouille
2	Model soups (ViT-G/14) 📚	Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time	74.24	2022-03-10	📦 mlfoundations/model-soups 📦 Burf/ModelSoups 📦 facebookresearch/ModelRatatouille
3	CAR-FT (CLIP, ViT-L/14@336px) 📚	Context-Aware Robust Fine-Tuning	65.50	2022-11-29	-
4	ConvNeXt-XL (Im21k, 384) 📚	A ConvNet for the 2020s	55.00	2022-01-10	📦 keras-team/keras 📦 rwightman/pytorch-image-models 📦 pytorch/vision
5	CAFormer-B36 (IN21K, 384) 📚	MetaFormer Baselines for Vision	54.50	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
6	LLE (ViT-H/14, MAE, Edge Aug)	A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others	53.39	2022-12-09	📦 facebookresearch/Whac-A-Mole
7	ConvFormer-B36 (IN21K, 384) 📚	MetaFormer Baselines for Vision	52.90	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
8	CAFormer-B36 (IN21K) 📚	MetaFormer Baselines for Vision	52.80	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
9	ConvFormer-B36 (IN21K) 📚	MetaFormer Baselines for Vision	52.70	2022-10-24	📦 rwightman/pytorch-image-models 📦 facebookresearch/xformers 📦 sail-sg/poolformer
10	MAE (ViT-H, 448)	Masked Autoencoders Are Scalable Vision Learners	50.90	2021-11-11	📦 facebookresearch/mae 📦 lightly-ai/lightly 📦 open-mmlab/mmselfsup

All Papers (20)

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

2022

Model soups (BASIC-L)

mlfoundations/model-soups Burf/ModelSoups

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

2022

Model soups (ViT-G/14)

mlfoundations/model-soups Burf/ModelSoups

Context-Aware Robust Fine-Tuning

2022

CAR-FT (CLIP, ViT-L/14@336px)

A ConvNet for the 2020s

2022

ConvNeXt-XL (Im21k, 384)

keras-team/keras rwightman/pytorch-image-models

MetaFormer Baselines for Vision

2022

CAFormer-B36 (IN21K, 384)

rwightman/pytorch-image-models facebookresearch/xformers

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others

2022

LLE (ViT-H/14, MAE, Edge Aug)

facebookresearch/Whac-A-Mole

MetaFormer Baselines for Vision

2022

ConvFormer-B36 (IN21K, 384)

rwightman/pytorch-image-models facebookresearch/xformers

MetaFormer Baselines for Vision

2022

CAFormer-B36 (IN21K)

rwightman/pytorch-image-models facebookresearch/xformers

MetaFormer Baselines for Vision

2022

ConvFormer-B36 (IN21K)

rwightman/pytorch-image-models facebookresearch/xformers

Masked Autoencoders Are Scalable Vision Learners

2021

MAE (ViT-H, 448)

facebookresearch/mae lightly-ai/lightly

Enhance the Visual Representation via Discrete Adversarial Training

2022

MAE+DAT (ViT-H)

alibaba/easyrobust

Generalized Parametric Contrastive Learning

2022

GPaCo (ViT-L)

dvlab-research/parametric-contrastive-learning jiequancui/Parametric-Contrastive-Learning

Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models

2023

Discrete Adversarial Distillation (ViT-B, 224)

lapisrocks/DiscreteAdversarialDistillation

Pyramid Adversarial Training Improves ViT Performance

2021

Pyramid Adversarial Training Improves ViT (Im21k)

google-research/scenic

Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision

2022

SEER (RegNet10B)

facebookresearch/vissl

Discrete Representations Strengthen Vision Transformer Robustness

2021

DrViT

alibaba/easyrobust

MetaFormer Baselines for Vision

2022

CAFormer-B36

rwightman/pytorch-image-models facebookresearch/xformers

Pyramid Adversarial Training Improves ViT Performance

2021

Pyramid Adversarial Training Improves ViT

google-research/scenic

MetaFormer Baselines for Vision

2022

ConvFormer-B36

rwightman/pytorch-image-models facebookresearch/xformers

Sequencer: Deep LSTM for Image Classification

2022

Sequencer2D-L

rwightman/pytorch-image-models timeseriesAI/tsai

ImageNet-Sketch

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (20)

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Context-Aware Robust Fine-Tuning

A ConvNet for the 2020s

MetaFormer Baselines for Vision

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others

MetaFormer Baselines for Vision

MetaFormer Baselines for Vision

MetaFormer Baselines for Vision

Masked Autoencoders Are Scalable Vision Learners

Enhance the Visual Representation via Discrete Adversarial Training

Generalized Parametric Contrastive Learning

Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models

Pyramid Adversarial Training Improves ViT Performance

Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision

Discrete Representations Strengthen Vision Transformer Robustness

MetaFormer Baselines for Vision

Pyramid Adversarial Training Improves ViT Performance

MetaFormer Baselines for Vision

Sequencer: Deep LSTM for Image Classification

Model	Paper	Top-1 accuracy	Date
Model soups (BASIC-L)	Model soups: averaging weights of multiple fine-t…	77.18	2022-03-10
Model soups (ViT-G/14)	Model soups: averaging weights of multiple fine-t…	74.24	2022-03-10
CAR-FT (CLIP, ViT-L/14@336px)	Context-Aware Robust Fine-Tuning	65.50	2022-11-29
ConvNeXt-XL (Im21k, 384)	A ConvNet for the 2020s	55.00	2022-01-10
CAFormer-B36 (IN21K, 384)	MetaFormer Baselines for Vision	54.50	2022-10-24
LLE (ViT-H/14, MAE, Edge Aug)	A Whac-A-Mole Dilemma: Shortcuts Come in Multiple…	53.39	2022-12-09
ConvFormer-B36 (IN21K, 384)	MetaFormer Baselines for Vision	52.90	2022-10-24
CAFormer-B36 (IN21K)	MetaFormer Baselines for Vision	52.80	2022-10-24
ConvFormer-B36 (IN21K)	MetaFormer Baselines for Vision	52.70	2022-10-24
MAE (ViT-H, 448)	Masked Autoencoders Are Scalable Vision Learners	50.90	2021-11-11
MAE+DAT (ViT-H)	Enhance the Visual Representation via Discrete Ad…	50.03	2022-09-16
GPaCo (ViT-L)	Generalized Parametric Contrastive Learning	48.30	2022-09-26
Discrete Adversarial Distillation (ViT-B, 224)	Distilling Out-of-Distribution Robustness from Vi…	46.10	2023-11-02
Pyramid Adversarial Training Improves ViT (Im21k)	Pyramid Adversarial Training Improves ViT Perform…	46.03	2021-11-30
SEER (RegNet10B)	Vision Models Are More Robust And Fair When Pretr…	45.60	2022-02-16
DrViT	Discrete Representations Strengthen Vision Transf…	44.72	2021-11-20
CAFormer-B36	MetaFormer Baselines for Vision	42.50	2022-10-24
Pyramid Adversarial Training Improves ViT	Pyramid Adversarial Training Improves ViT Perform…	41.04	2021-11-30
ConvFormer-B36	MetaFormer Baselines for Vision	39.50	2022-10-24
Sequencer2D-L	Sequencer: Deep LSTM for Image Classification	35.80	2022-05-04