ML Research Wiki / Benchmarks / Speech Separation / WHAMR!

WHAMR!

Speech Separation Benchmark

Performance Over Time

📊 Showing 17 results | 📏 Metric: SI-SDRi

Top Performing Models

Rank	Model	Paper	SI-SDRi	Date	Code
1	TF-Locoformer (M)	TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	18.50	2024-08-06	📦 merlresearch/tf-locoformer
2	TF-Locoformer (S)	TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement	17.40	2024-08-06	📦 merlresearch/tf-locoformer
3	SepReformer-L + DM	Separate and Reconstruct: Asymmetric Encoder-Decoder for Speech Separation	17.10	2024-06-10	📦 dmlguq456/SepReformer
4	MossFormer (L) + DM	MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions	16.30	2023-02-23	📦 modelscope/ClearerVoice-Studio 📦 alibabasglab/mossformer
5	TD-Conformer (XL) + DM	On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments	14.60	2023-10-09	📦 jwr1995/pubsep
6	Improved Sudo rm -rf (U=36)	Compute and memory efficient universal sound source separation	13.50	2021-03-03	📦 etzinis/sudo_rm_rf 📦 etzinis/unsup_speech_enh_adaptation 📦 udase-chime2023/baseline
7	TD-Conformer (L) + DM	On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments	13.40	2023-10-09	📦 jwr1995/pubsep
8	Wavesplit	Wavesplit: End-to-End Speech Separation by Speaker Clustering	13.20	2020-02-20	-
9	DPTNET - SRSSN	Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain	12.30	2021-10-10	-
10	DPRNN - SRSSN	Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain	12.30	2021-10-10	-

All Papers (17)

TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement

2024

TF-Locoformer (M)

merlresearch/tf-locoformer

TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement

2024

TF-Locoformer (S)

merlresearch/tf-locoformer

Separate and Reconstruct: Asymmetric Encoder-Decoder for Speech Separation

2024

SepReformer-L + DM

dmlguq456/SepReformer

MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions

2023

MossFormer (L) + DM

modelscope/ClearerVoice-Studio alibabasglab/mossformer

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

2023

TD-Conformer (XL) + DM

jwr1995/pubsep

Compute and memory efficient universal sound source separation

2021

Improved Sudo rm -rf (U=36)

etzinis/sudo_rm_rf etzinis/unsup_speech_enh_adaptation udase-chime2023/baseline

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

2023

TD-Conformer (L) + DM

jwr1995/pubsep

Wavesplit: End-to-End Speech Separation by Speaker Clustering

2020

Wavesplit

Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain

2021

DPTNET - SRSSN

Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain

2021

DPRNN - SRSSN

Voice Separation with an Unknown Number of Multiple Speakers

2020

VSUNOS

facebookresearch/svoice muhammad-ahmed-ghani/svoice_demo

Sudo rm -rf: Efficient Networks for Universal Audio Source Separation

2020

Sudo rm -rf (U=16)

mpariente/asteroid etzinis/sudo_rm_rf

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

2023

TD-Confomer (M) + DM

jwr1995/pubsep

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation

2022

Deformable TCN + Dynamic Mixing

jwr1995/dtcn jwr1995/pubsep

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

2023

TD-Confomer (S)

jwr1995/pubsep

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation

2022

Deformable TCN + Shared Weights + Dynamic Mixing

jwr1995/dtcn jwr1995/pubsep

WHAM!: Extending Speech Separation to Noisy Environments

2019

Bi-LSTM-TASNET

AkojimaSLP/Neural-mask-estimation

WHAMR!

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (17)

TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement

TF-Locoformer: Transformer with Local Modeling by Convolution for Speech Separation and Enhancement

Separate and Reconstruct: Asymmetric Encoder-Decoder for Speech Separation

MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-Head Transformer with Convolution-Augmented Joint Self-Attentions

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

Compute and memory efficient universal sound source separation

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

Wavesplit: End-to-End Speech Separation by Speaker Clustering

Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain

Stepwise-Refining Speech Separation Network via Fine-Grained Encoding in High-order Latent Domain

Voice Separation with an Unknown Number of Multiple Speakers

Sudo rm -rf: Efficient Networks for Universal Audio Source Separation

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation

On Time Domain Conformer Models for Monaural Speech Separation in Noisy Reverberant Acoustic Environments

Deformable Temporal Convolutional Networks for Monaural Noisy Reverberant Speech Separation

WHAM!: Extending Speech Separation to Noisy Environments

Model	Paper	SI-SDRi	Date
TF-Locoformer (M)	TF-Locoformer: Transformer with Local Modeling by…	18.50	2024-08-06
TF-Locoformer (S)	TF-Locoformer: Transformer with Local Modeling by…	17.40	2024-08-06
SepReformer-L + DM	Separate and Reconstruct: Asymmetric Encoder-Deco…	17.10	2024-06-10
MossFormer (L) + DM	MossFormer: Pushing the Performance Limit of Mona…	16.30	2023-02-23
TD-Conformer (XL) + DM	On Time Domain Conformer Models for Monaural Spee…	14.60	2023-10-09
Improved Sudo rm -rf (U=36)	Compute and memory efficient universal sound sour…	13.50	2021-03-03
TD-Conformer (L) + DM	On Time Domain Conformer Models for Monaural Spee…	13.40	2023-10-09
Wavesplit	Wavesplit: End-to-End Speech Separation by Speake…	13.20	2020-02-20
DPTNET - SRSSN	Stepwise-Refining Speech Separation Network via F…	12.30	2021-10-10
DPRNN - SRSSN	Stepwise-Refining Speech Separation Network via F…	12.30	2021-10-10
VSUNOS	Voice Separation with an Unknown Number of Multip…	12.20	2020-02-29
Sudo rm -rf (U=16)	Sudo rm -rf: Efficient Networks for Universal Aud…	12.10	2020-07-14
TD-Confomer (M) + DM	On Time Domain Conformer Models for Monaural Spee…	12.00	2023-10-09
Deformable TCN + Dynamic Mixing	Deformable Temporal Convolutional Networks for Mo…	11.10	2022-10-27
TD-Confomer (S)	On Time Domain Conformer Models for Monaural Spee…	10.50	2023-10-09
Deformable TCN + Shared Weights + Dynamic Mixing	Deformable Temporal Convolutional Networks for Mo…	10.10	2022-10-27
Bi-LSTM-TASNET	WHAM!: Extending Speech Separation to Noisy Envir…	9.20	2019-07-02