ML Research Wiki / Benchmarks / Automatic Speech Recognition (ASR) / LRS2

LRS2

Automatic Speech Recognition (ASR) Benchmark

Performance Over Time

📊 Showing 9 results | 📏 Metric: Test WER

Top Performing Models

Rank	Model	Paper	Test WER	Date	Code
1	TM-CTC	Deep Audio-Visual Speech Recognition	10.10	2018-09-06	📦 lordmartian/deep_avsr 📦 smeetrs/deep_avsr 📦 exgc/avmust-ted 📦 amitai1992/AutomatedLipReading
2	TM-seq2seq	Deep Audio-Visual Speech Recognition	9.70	2018-09-06	📦 lordmartian/deep_avsr 📦 smeetrs/deep_avsr 📦 exgc/avmust-ted 📦 amitai1992/AutomatedLipReading
3	CTC/attention	Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	8.20	2018-09-28	-
4	LF-MMI TDNN	Audio-visual Recognition of Overlapped speech for the LRS2 dataset	6.70	2020-01-06	-
5	Whisper-LLaMA	Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition	6.60	2023-10-10	📦 srijith-rkr/whispering-llama
6	End2end Conformer	End-to-end Audio-visual Speech Recognition with Conformers	3.90	2021-02-12	📦 zziz/pwc 📦 mpc001/Visual_Speech_Recognition_for_Multiple_Languages 📦 mpc001/auto_avsr
7	MoCo + wav2vec (w/o extLM)	Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	2.70	2022-02-24	📦 lumia-group/leveraging-self-supervised-learning-for-avsr
8	CTC/Attention 📚	Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels	1.50	2023-03-25	📦 mpc001/auto_avsr 📦 umbertocappellazzo/llama-avsr
9	Whisper 📚	Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation	1.30	2024-06-14	📦 roudimit/whisper-flamingo

All Papers (9)

Deep Audio-Visual Speech Recognition

2018

TM-CTC

lordmartian/deep_avsr smeetrs/deep_avsr

Deep Audio-Visual Speech Recognition

2018

TM-seq2seq

lordmartian/deep_avsr smeetrs/deep_avsr

Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture

2018

CTC/attention

Audio-visual Recognition of Overlapped speech for the LRS2 dataset

2020

LF-MMI TDNN

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition

2023

Whisper-LLaMA

srijith-rkr/whispering-llama

End-to-end Audio-visual Speech Recognition with Conformers

2021

End2end Conformer

zziz/pwc mpc001/Visual_Speech_Recognition_for_Multiple_Languages mpc001/auto_avsr

Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition

2022

MoCo + wav2vec (w/o extLM)

lumia-group/leveraging-self-supervised-learning-for-avsr

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

2023

CTC/Attention

mpc001/auto_avsr umbertocappellazzo/llama-avsr

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

2024

Whisper

roudimit/whisper-flamingo

LRS2

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (9)

Deep Audio-Visual Speech Recognition

Deep Audio-Visual Speech Recognition

Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture

Audio-visual Recognition of Overlapped speech for the LRS2 dataset

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition

End-to-end Audio-visual Speech Recognition with Conformers

Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

Model	Paper	Test WER	Date
TM-CTC	Deep Audio-Visual Speech Recognition	10.10	2018-09-06
TM-seq2seq	Deep Audio-Visual Speech Recognition	9.70	2018-09-06
CTC/attention	Audio-Visual Speech Recognition With A Hybrid CTC…	8.20	2018-09-28
LF-MMI TDNN	Audio-visual Recognition of Overlapped speech for…	6.70	2020-01-06
Whisper-LLaMA	Whispering LLaMA: A Cross-Modal Generative Error …	6.60	2023-10-10
End2end Conformer	End-to-end Audio-visual Speech Recognition with C…	3.90	2021-02-12
MoCo + wav2vec (w/o extLM)	Leveraging Unimodal Self-Supervised Learning for …	2.70	2022-02-24
CTC/Attention	Auto-AVSR: Audio-Visual Speech Recognition with A…	1.50	2023-03-25
Whisper	Whisper-Flamingo: Integrating Visual Features int…	1.30	2024-06-14