ML Research Wiki / Benchmarks / Audio Tagging / AudioSet

AudioSet

Audio Tagging Benchmark

Performance Over Time

📊 Showing 9 results | 📏 Metric: mean average precision

Top Performing Models

Rank	Model	Paper	mean average precision	Date	Code
1	CAV-MAE (Audio-Visual) 📚	Contrastive Audio-Visual Masked Autoencoder	0.51	2022-10-02	📦 yuangongnd/cav-mae
2	mn40_as (Ensemble) 📚	Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation	0.50	2022-11-09	📦 fschmid56/efficientat 📦 fschmid56/efficientat_hear
3	PaSST 📚	Efficient Training of Audio Transformers with Patchout	0.50	2021-10-11	📦 kkoutini/passt 📦 kkoutini/passt_hear21
4	DyMN-L (Audio-Only, Single) 📚	Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models	0.49	2023-10-24	📦 fschmid56/efficientat
5	Audio Spectrogram Transformer 📚	AST: Audio Spectrogram Transformer	0.49	2021-04-05	📦 YuanGongND/ast 📦 nttcslab/composing-general-audio-repr 📦 pxaris/ccml 📦 cgaroufis/msspt 📦 pwc-1/Paper-8
6	mn40_as (Single) 📚	Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation	0.48	2022-11-09	📦 fschmid56/efficientat 📦 fschmid56/efficientat_hear
7	PSLA 📚	PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation	0.47	2021-02-02	📦 YuanGongND/psla
8	ST-SED 📚	Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data	0.47	2021-12-15	📦 RetroCirce/Zero_Shot_Audio_Source_Separation
9	CAV-MAE (Audio-Only) 📚	Contrastive Audio-Visual Masked Autoencoder	0.47	2022-10-02	📦 yuangongnd/cav-mae

All Papers (9)

Contrastive Audio-Visual Masked Autoencoder

2022

CAV-MAE (Audio-Visual)

yuangongnd/cav-mae

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

2022

mn40_as (Ensemble)

fschmid56/efficientat fschmid56/efficientat_hear

Efficient Training of Audio Transformers with Patchout

2021

PaSST

kkoutini/passt kkoutini/passt_hear21

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models

2023

DyMN-L (Audio-Only, Single)

fschmid56/efficientat

AST: Audio Spectrogram Transformer

2021

Audio Spectrogram Transformer

YuanGongND/ast nttcslab/composing-general-audio-repr

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

2022

mn40_as (Single)

fschmid56/efficientat fschmid56/efficientat_hear

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

2021

PSLA

YuanGongND/psla

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data

2021

ST-SED

RetroCirce/Zero_Shot_Audio_Source_Separation

Contrastive Audio-Visual Masked Autoencoder

2022

CAV-MAE (Audio-Only)

yuangongnd/cav-mae

AudioSet

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (9)

Contrastive Audio-Visual Masked Autoencoder

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

Efficient Training of Audio Transformers with Patchout

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models

AST: Audio Spectrogram Transformer

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data

Contrastive Audio-Visual Masked Autoencoder

Model	Paper	mean average precision	Date
CAV-MAE (Audio-Visual)	Contrastive Audio-Visual Masked Autoencoder	0.51	2022-10-02
mn40_as (Ensemble)	Efficient Large-scale Audio Tagging via Transform…	0.50	2022-11-09
PaSST	Efficient Training of Audio Transformers with Pat…	0.50	2021-10-11
DyMN-L (Audio-Only, Single)	Dynamic Convolutional Neural Networks as Efficien…	0.49	2023-10-24
Audio Spectrogram Transformer	AST: Audio Spectrogram Transformer	0.49	2021-04-05
mn40_as (Single)	Efficient Large-scale Audio Tagging via Transform…	0.48	2022-11-09
PSLA	PSLA: Improving Audio Tagging with Pretraining, S…	0.47	2021-02-02
ST-SED	Zero-shot Audio Source Separation through Query-b…	0.47	2021-12-15
CAV-MAE (Audio-Only)	Contrastive Audio-Visual Masked Autoencoder	0.47	2022-10-02