ML Research Wiki / Benchmarks / Audio Classification / ESC-50

ESC-50

Audio Classification Benchmark

Performance Over Time

📊 Showing 26 results | 📏 Metric: Top-1 Accuracy

Top Performing Models

Rank	Model	Paper	Top-1 Accuracy	Date	Code
1	InternVideo2 📚	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	98.60	2024-03-22	📦 opengvlab/internvideo 📦 opengvlab/internvideo2
2	M2D2 AS+ 📚	M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	98.50	2025-03-28	📦 nttcslab/m2d 📦 nttcslab/eval-audio-repr
3	OmniVec 📚	OmniVec: Learning robust representations with cross modal sharing	98.40	2023-11-07	-
4	BEATs 📚	BEATs: Audio Pre-Training with Acoustic Tokenizers	98.10	2022-12-18	📦 microsoft/unilm 📦 Yui010206/CREMA 📦 qingyuliu0521/icsd 📦 phuriches/genrepasd
5	mn40_as 📚	Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation	97.45	2022-11-09	📦 fschmid56/efficientat 📦 fschmid56/efficientat_hear
6	DyMN-L 📚	Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models	97.40	2023-10-24	📦 fschmid56/efficientat
7	M2D-CLAP/0.7 📚	M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation	97.40	2024-06-04	📦 nttcslab/m2d 📦 nttcslab/eval-audio-repr
8	M2D-AS/0.7 📚	Masked Modeling Duo: Towards a Universal Audio Pre-training Framework	97.20	2024-04-09	📦 nttcslab/m2d 📦 nttcslab/eval-audio-repr
9	HTS-AT 📚	HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection	97.00	2022-02-02	📦 retrocirce/hts-audio-transformer
10	EAT-M 📚	End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network	96.30	2022-04-25	📦 Alibaba-MIIL/AudioClassfication

All Papers (26)

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

2024

InternVideo2

opengvlab/internvideo opengvlab/internvideo2

M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP

2025

M2D2 AS+

nttcslab/m2d nttcslab/eval-audio-repr

OmniVec: Learning robust representations with cross modal sharing

2023

OmniVec

BEATs: Audio Pre-Training with Acoustic Tokenizers

2022

BEATs

microsoft/unilm Yui010206/CREMA

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

2022

mn40_as

fschmid56/efficientat fschmid56/efficientat_hear

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models

2023

DyMN-L

fschmid56/efficientat

M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation

2024

M2D-CLAP/0.7

nttcslab/m2d nttcslab/eval-audio-repr

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework

2024

M2D-AS/0.7

nttcslab/m2d nttcslab/eval-audio-repr

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

2022

HTS-AT

retrocirce/hts-audio-transformer

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

2022

EAT-M

Alibaba-MIIL/AudioClassfication

LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging

2025

LHGNN

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework

2024

M2D/0.7

nttcslab/m2d nttcslab/eval-audio-repr

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer

2024

EAT

cwx-worst-one/eat

AST: Audio Spectrogram Transformer

2021

Audio Spectrogram Transformer

YuanGongND/ast nttcslab/composing-general-audio-repr

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

2022

EAT-S

Alibaba-MIIL/AudioClassfication

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

2025

MATPAC (SSL model, linear eval)

aurianworld/matpac

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

2022

EAT-S (scratch)

Alibaba-MIIL/AudioClassfication

Learning Rate Curriculum

2022

SepTr + LeRaC

croitorualin/lerac

SepTr: Separable Transformer for Audio Spectrogram Processing

2022

SepTr

ristea/septr

Multi-Format Contrastive Learning of Audio Representations

2021

Multi-Format Contrastive

Audio-Visual Instance Discrimination with Cross-Modal Agreement

2020

AVID

facebookresearch/AVID-CMA

Environmental Sound Classification on the Edge: A Pipeline for Deep Acoustic Networks on Extremely Resource-Constrained Devices

2021

ACDNet

mohaimenz/acdnet

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

2019

XDC

HumamAlwassel/XDC

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

2019

XDC

HumamAlwassel/XDC

Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization

2018

AVTS

Look, Listen and Learn

2017

L3

marl/l3embedding

ESC-50

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (26)

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP

OmniVec: Learning robust representations with cross modal sharing

BEATs: Audio Pre-Training with Acoustic Tokenizers

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models

M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

LHGNN: Local-Higher Order Graph Neural Networks For Audio Classification and Tagging

Masked Modeling Duo: Towards a Universal Audio Pre-training Framework

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer

AST: Audio Spectrogram Transformer

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

End-to-End Audio Strikes Back: Boosting Augmentations Towards An Efficient Audio Classification Network

Learning Rate Curriculum

SepTr: Separable Transformer for Audio Spectrogram Processing

Multi-Format Contrastive Learning of Audio Representations

Audio-Visual Instance Discrimination with Cross-Modal Agreement

Environmental Sound Classification on the Edge: A Pipeline for Deep Acoustic Networks on Extremely Resource-Constrained Devices

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization

Look, Listen and Learn

Model	Paper	Top-1 Accuracy	Date
InternVideo2	InternVideo2: Scaling Foundation Models for Multi…	98.60	2024-03-22
M2D2 AS+	M2D2: Exploring General-purpose Audio-Language Re…	98.50	2025-03-28
OmniVec	OmniVec: Learning robust representations with cro…	98.40	2023-11-07
BEATs	BEATs: Audio Pre-Training with Acoustic Tokenizers	98.10	2022-12-18
mn40_as	Efficient Large-scale Audio Tagging via Transform…	97.45	2022-11-09
DyMN-L	Dynamic Convolutional Neural Networks as Efficien…	97.40	2023-10-24
M2D-CLAP/0.7	M2D-CLAP: Masked Modeling Duo Meets CLAP for Lear…	97.40	2024-06-04
M2D-AS/0.7	Masked Modeling Duo: Towards a Universal Audio Pr…	97.20	2024-04-09
HTS-AT	HTS-AT: A Hierarchical Token-Semantic Audio Trans…	97.00	2022-02-02
EAT-M	End-to-End Audio Strikes Back: Boosting Augmentat…	96.30	2022-04-25
LHGNN	LHGNN: Local-Higher Order Graph Neural Networks F…	96.20	2025-01-07
M2D/0.7	Masked Modeling Duo: Towards a Universal Audio Pr…	96.00	2024-04-09
EAT	EAT: Self-Supervised Pre-Training with Efficient …	96.00	2024-01-07
Audio Spectrogram Transformer	AST: Audio Spectrogram Transformer	95.70	2021-04-05
EAT-S	End-to-End Audio Strikes Back: Boosting Augmentat…	95.25	2022-04-25
MATPAC (SSL model, linear eval)	Masked Latent Prediction and Classification for S…	93.50	2025-02-17
EAT-S (scratch)	End-to-End Audio Strikes Back: Boosting Augmentat…	92.15	2022-04-25
SepTr + LeRaC	Learning Rate Curriculum	91.58	2022-05-18
SepTr	SepTr: Separable Transformer for Audio Spectrogra…	91.13	2022-03-17
Multi-Format Contrastive	Multi-Format Contrastive Learning of Audio Repres…	90.50	2021-03-11
AVID	Audio-Visual Instance Discrimination with Cross-M…	89.20	2020-04-27
ACDNet	Environmental Sound Classification on the Edge: A…	87.10	2021-03-05
XDC	Self-Supervised Learning by Cross-Modal Audio-Vid…	85.40	2019-11-28
XDC	Self-Supervised Learning by Cross-Modal Audio-Vid…	84.80	2019-11-28
AVTS	Cooperative Learning of Audio and Video Models fr…	82.30	2018-06-30
L3	Look, Listen and Learn	79.30	2017-05-23