ML Research Wiki / Benchmarks / Audio Classification / AudioSet

AudioSet

Audio Classification Benchmark

Performance Over Time

📊 Showing 43 results | 📏 Metric: Test mAP

Top Performing Models

Rank	Model	Paper	Test mAP	Date	Code
1	OmniVec 📚	OmniVec: Learning robust representations with cross modal sharing	0.55	2023-11-07	-
2	EquiAV	EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning	0.55	2024-03-14	📦 jongsuk1/equiav
3	Audiovisual Masked Autoencoder (Audiovisual, Single)	Audiovisual Masked Autoencoders	0.52	2022-12-09	📦 google-research/scenic 📦 google-research/scenic
4	CAV-MAE (Audio-Visual) 📚	Contrastive Audio-Visual Masked Autoencoder	0.51	2022-10-02	📦 yuangongnd/cav-mae
5	BEATs (Audio-only, Ensemble)	BEATs: Audio Pre-Training with Acoustic Tokenizers	0.51	2022-12-18	📦 microsoft/unilm 📦 Yui010206/CREMA 📦 qingyuliu0521/icsd 📦 phuriches/genrepasd
6	UAVM (Audio + Video) 📚	UAVM: Towards Unifying Audio and Visual Models	0.50	2022-07-29	📦 YuanGongND/uavm
7	SSLAM (Audio-Only, Single)	SSLAM: Enhancing Self-Supervised Models with Audio Mixtures for Polyphonic Soundscapes	0.50	2025-06-13	📦 ta012/SSLAM
8	mn40_as (Ensemble) 📚	Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation	0.50	2022-11-09	📦 fschmid56/efficientat 📦 fschmid56/efficientat_hear
9	ATST-C2F(Single)	Self-supervised Audio Teacher-Student Transformer for Both Clip-level and Frame-level Tasks	0.50	2023-06-07	📦 Audio-WestlakeU/ATST-SED 📦 audio-westlakeu/audiossl
10	MBT (AS-500K training + Video) 📚	Attention Bottlenecks for Multimodal Fusion	0.50	2021-06-30	📦 google-research/scenic

All Papers (43)

OmniVec: Learning robust representations with cross modal sharing

2023

OmniVec

EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning

2024

EquiAV

jongsuk1/equiav

Audiovisual Masked Autoencoders

2022

Audiovisual Masked Autoencoder (Audiovisual, Single)

google-research/scenic google-research/scenic

Contrastive Audio-Visual Masked Autoencoder

2022

CAV-MAE (Audio-Visual)

yuangongnd/cav-mae

BEATs: Audio Pre-Training with Acoustic Tokenizers

2022

BEATs (Audio-only, Ensemble)

microsoft/unilm Yui010206/CREMA

UAVM: Towards Unifying Audio and Visual Models

2022

UAVM (Audio + Video)

YuanGongND/uavm

SSLAM: Enhancing Self-Supervised Models with Audio Mixtures for Polyphonic Soundscapes

2025

SSLAM (Audio-Only, Single)

ta012/SSLAM

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

2022

mn40_as (Ensemble)

fschmid56/efficientat fschmid56/efficientat_hear

Self-supervised Audio Teacher-Student Transformer for Both Clip-level and Frame-level Tasks

2023

ATST-C2F(Single)

Audio-WestlakeU/ATST-SED audio-westlakeu/audiossl

Attention Bottlenecks for Multimodal Fusion

2021

MBT (AS-500K training + Video)

google-research/scenic

Efficient Training of Audio Transformers with Patchout

2021

PaSST (Ensemble)

kkoutini/passt kkoutini/passt_hear21

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models

2023

DyMN-L (Audio-Only, Single)

fschmid56/efficientat

M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP

2025

M2D2

nttcslab/m2d nttcslab/eval-audio-repr

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

2022

HTS-AT (Ensemble)

retrocirce/hts-audio-transformer

BEATs: Audio Pre-Training with Acoustic Tokenizers

2022

BEATs (Audio-only, Single)

microsoft/unilm Yui010206/CREMA

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer

2024

EAT

cwx-worst-one/eat

AST: Audio Spectrogram Transformer

2021

AST (Ensemble)

YuanGongND/ast nttcslab/composing-general-audio-repr

M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation

2024

M2D-CLAP/0.7

nttcslab/m2d nttcslab/eval-audio-repr

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework

2024

M2D-AS/0.7

nttcslab/m2d nttcslab/eval-audio-repr

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

2022

mn40_as (Single)

fschmid56/efficientat fschmid56/efficientat_hear

Self-supervised Audio Teacher-Student Transformer for Both Clip-level and Frame-level Tasks

2023

ATST-Frame

Audio-WestlakeU/ATST-SED audio-westlakeu/audiossl

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework

2024

M2D/0.7

nttcslab/m2d nttcslab/eval-audio-repr

Play It Back: Iterative Attention for Audio Recognition

2022

PlayItBackX3

alexandrosstergiou/PlayItBack

DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners

2024

DASS-Medium (Audio-only, single)

Saurabhbhati/DASS

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

2021

PSLA (Ensemble)

YuanGongND/psla

DASS: Distilled Audio State Space Models Are Stronger and More Duration-Scalable Learners

2024

DASS-Small (Audio-only, single)

Saurabhbhati/DASS

Efficient Training of Audio Transformers with Patchout

2021

PaSST-S (Single)

kkoutini/passt kkoutini/passt_hear21

Contrastive Audio-Visual Masked Autoencoder

2022

CAV-MAE (Audio-Only)

yuangongnd/cav-mae

Audiovisual Masked Autoencoders

2022

Audiovisual Masked Autoencoder (Audio-only, Single)

google-research/scenic google-research/scenic

Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data

2020

AudioVisual Fusion Net

AST: Audio Spectrogram Transformer

2021

AST (Single)

YuanGongND/ast nttcslab/composing-general-audio-repr

Perceiver: General Perception with Iterative Attention

2021

Perceiver

deepmind/deepmind-research towhee-io/towhee

PSLA: Improving Audio Tagging with Pretraining, Sampling, Labeling, and Aggregation

2021

PSLA (Single)

YuanGongND/psla

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

2022

EAT-M

Alibaba-MIIL/AudioClassfication

Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks

2021

Conformer (AS-2M)

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

2022

EAT-S

Alibaba-MIIL/AudioClassfication

A Sequential Self Teaching Approach for Improving Generalization in Sound Event Recognition

2020

WEANet-SUSTAIN

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

2021

VATT-Base

google-research/google-research akashe/ProgrammingInterview

Multi-Format Contrastive Learning of Audio Representations

2021

Multi-Format Contrastive

Self-Supervised MultiModal Versatile Networks

2020

MMV

deepmind/deepmind-research

Contrastive Audio-Visual Masked Autoencoder

2022

CAV-MAE (Visual-Only)

yuangongnd/cav-mae

Look, Listen and Learn

2017

L3

marl/l3embedding

Unsupervised Learning of Semantic Audio Representations

2017

Triplet

Model	Paper	Test mAP	Date
OmniVec	OmniVec: Learning robust representations with cro…	0.55	2023-11-07
EquiAV	EquiAV: Leveraging Equivariance for Audio-Visual …	0.55	2024-03-14
Audiovisual Masked Autoencoder (Audiovisual, Single)	Audiovisual Masked Autoencoders	0.52	2022-12-09
CAV-MAE (Audio-Visual)	Contrastive Audio-Visual Masked Autoencoder	0.51	2022-10-02
BEATs (Audio-only, Ensemble)	BEATs: Audio Pre-Training with Acoustic Tokenizers	0.51	2022-12-18
UAVM (Audio + Video)	UAVM: Towards Unifying Audio and Visual Models	0.50	2022-07-29
SSLAM (Audio-Only, Single)	SSLAM: Enhancing Self-Supervised Models with Audi…	0.50	2025-06-13
mn40_as (Ensemble)	Efficient Large-scale Audio Tagging via Transform…	0.50	2022-11-09
ATST-C2F(Single)	Self-supervised Audio Teacher-Student Transformer…	0.50	2023-06-07
MBT (AS-500K training + Video)	Attention Bottlenecks for Multimodal Fusion	0.50	2021-06-30
PaSST (Ensemble)	Efficient Training of Audio Transformers with Pat…	0.50	2021-10-11
DyMN-L (Audio-Only, Single)	Dynamic Convolutional Neural Networks as Efficien…	0.49	2023-10-24
M2D2	M2D2: Exploring General-purpose Audio-Language Re…	0.49	2025-03-28
HTS-AT (Ensemble)	HTS-AT: A Hierarchical Token-Semantic Audio Trans…	0.49	2022-02-02
BEATs (Audio-only, Single)	BEATs: Audio Pre-Training with Acoustic Tokenizers	0.49	2022-12-18
EAT	EAT: Self-Supervised Pre-Training with Efficient …	0.49	2024-01-07
AST (Ensemble)	AST: Audio Spectrogram Transformer	0.49	2021-04-05
M2D-CLAP/0.7	M2D-CLAP: Masked Modeling Duo Meets CLAP for Lear…	0.49	2024-06-04
M2D-AS/0.7	Masked Modeling Duo: Towards a Universal Audio Pr…	0.49	2024-04-09
mn40_as (Single)	Efficient Large-scale Audio Tagging via Transform…	0.48	2022-11-09
ATST-Frame	Self-supervised Audio Teacher-Student Transformer…	0.48	2023-06-07
M2D/0.7	Masked Modeling Duo: Towards a Universal Audio Pr…	0.48	2024-04-09
PlayItBackX3	Play It Back: Iterative Attention for Audio Recog…	0.48	2022-10-20
DASS-Medium (Audio-only, single)	DASS: Distilled Audio State Space Models Are Stro…	0.48	2024-07-04
PSLA (Ensemble)	PSLA: Improving Audio Tagging with Pretraining, S…	0.47	2021-02-02
DASS-Small (Audio-only, single)	DASS: Distilled Audio State Space Models Are Stro…	0.47	2024-07-04
PaSST-S (Single)	Efficient Training of Audio Transformers with Pat…	0.47	2021-10-11
CAV-MAE (Audio-Only)	Contrastive Audio-Visual Masked Autoencoder	0.47	2022-10-02
Audiovisual Masked Autoencoder (Audio-only, Single)	Audiovisual Masked Autoencoders	0.47	2022-12-09
AudioVisual Fusion Net	Large Scale Audiovisual Learning of Sounds with W…	0.46	2020-05-29
AST (Single)	AST: Audio Spectrogram Transformer	0.46	2021-04-05
Perceiver	Perceiver: General Perception with Iterative Atte…	0.45	2021-03-04
PSLA (Single)	PSLA: Improving Audio Tagging with Pretraining, S…	0.44	2021-02-02
EAT-M	End-to-End Audio Strikes Back: Boosting Augmentat…	0.43	2022-04-25
Conformer (AS-2M)	Conformer-Based Self-Supervised Learning for Non-…	0.41	2021-10-14
EAT-S	End-to-End Audio Strikes Back: Boosting Augmentat…	0.41	2022-04-25
WEANet-SUSTAIN	A Sequential Self Teaching Approach for Improving…	0.40	2020-06-30
VATT-Base	VATT: Transformers for Multimodal Self-Supervised…	0.39	2021-04-22
Multi-Format Contrastive	Multi-Format Contrastive Learning of Audio Repres…	0.38	2021-03-11
MMV	Self-Supervised MultiModal Versatile Networks	0.31	2020-06-29
CAV-MAE (Visual-Only)	Contrastive Audio-Visual Masked Autoencoder	0.26	2022-10-02
L3	Look, Listen and Learn	0.25	2017-05-23
Triplet	Unsupervised Learning of Semantic Audio Represent…	0.24	2017-11-06

AudioSet

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (43)