ML Research Wiki / Benchmarks / Lipreading / LRS2

LRS2

Lipreading Benchmark

Performance Over Time

📊 Showing 18 results | 📏 Metric: Word Error Rate (WER)

Top Performing Models

Rank	Model	Paper	Word Error Rate (WER)	Date	Code
1	LIBS	Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers	65.29	2019-11-26	📦 zju-vipa/KamalEngine
2	TM-CTC + extLM 📚	Deep Audio-Visual Speech Recognition	54.70	2018-09-06	📦 lordmartian/deep_avsr 📦 smeetrs/deep_avsr 📦 exgc/avmust-ted 📦 amitai1992/AutomatedLipReading
3	CTC + KD ASR 📚	ASR is all you need: cross-modal distillation for lip reading	53.20	2019-11-28	-
4	Hybrid CTC / Attention	Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture	50.00	2018-09-28	-
5	LF-MMI TDNN 📚	Audio-visual Recognition of Overlapped speech for the LRS2 dataset	48.86	2020-01-06	-
6	TM-seq2seq + extLM 📚	Deep Audio-Visual Speech Recognition	48.30	2018-09-06	📦 lordmartian/deep_avsr 📦 smeetrs/deep_avsr 📦 exgc/avmust-ted 📦 amitai1992/AutomatedLipReading
7	Multi-head Visual-Audio Memory 📚	Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading	44.50	2022-04-04	📦 ms-dot-k/Multi-head-Visual-Audio-Memory
8	MoCo + wav2vec (w/o extLM)	Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition	43.20	2022-02-24	📦 lumia-group/leveraging-self-supervised-learning-for-avsr
9	Hybrid CTC / Attention	End-to-end Audio-visual Speech Recognition with Conformers	39.10	2021-02-12	📦 zziz/pwc 📦 mpc001/Visual_Speech_Recognition_for_Multiple_Languages 📦 mpc001/auto_avsr
10	CTC/Attention	Visual Speech Recognition for Multiple Languages in the Wild	32.90	2022-02-26	📦 mpc001/Visual_Speech_Recognition_for_Multiple_Languages 📦 david-gimeno/lip-rtve

All Papers (18)

Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers

2019

LIBS

zju-vipa/KamalEngine

Deep Audio-Visual Speech Recognition

2018

TM-CTC + extLM

lordmartian/deep_avsr smeetrs/deep_avsr

ASR is all you need: cross-modal distillation for lip reading

2019

CTC + KD ASR

Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture

2018

Hybrid CTC / Attention

Audio-visual Recognition of Overlapped speech for the LRS2 dataset

2020

LF-MMI TDNN

Deep Audio-Visual Speech Recognition

2018

TM-seq2seq + extLM

lordmartian/deep_avsr smeetrs/deep_avsr

Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading

2022

Multi-head Visual-Audio Memory

ms-dot-k/Multi-head-Visual-Audio-Memory

Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition

2022

MoCo + wav2vec (w/o extLM)

lumia-group/leveraging-self-supervised-learning-for-avsr

End-to-end Audio-visual Speech Recognition with Conformers

2021

Hybrid CTC / Attention

zziz/pwc mpc001/Visual_Speech_Recognition_for_Multiple_Languages mpc001/auto_avsr

Visual Speech Recognition for Multiple Languages in the Wild

2022

CTC/Attention

mpc001/Visual_Speech_Recognition_for_Multiple_Languages david-gimeno/lip-rtve

Sub-word Level Lip Reading With Visual Attention

2021

VTP

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

2024

SyncVSR

KAIST-AILab/SyncVSR

Visual Speech Recognition for Multiple Languages in the Wild

2022

CTC/Attention (LRW+LRS2/3+AVSpeech)

mpc001/Visual_Speech_Recognition_for_Multiple_Languages david-gimeno/lip-rtve

Sub-word Level Lip Reading With Visual Attention

2021

VTP (more data)

Jointly Learning Visual and Auditory Speech Representations from Raw Data

2022

RAVEn Large

ahaliassos/raven

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

2024

SyncVSR

KAIST-AILab/SyncVSR

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs

2024

USR

ahaliassos/usr

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

2023

Auto-AVSR

mpc001/auto_avsr umbertocappellazzo/llama-avsr

LRS2

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (18)

Hearing Lips: Improving Lip Reading by Distilling Speech Recognizers

Deep Audio-Visual Speech Recognition

ASR is all you need: cross-modal distillation for lip reading

Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture

Audio-visual Recognition of Overlapped speech for the LRS2 dataset

Deep Audio-Visual Speech Recognition

Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading

Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition

End-to-end Audio-visual Speech Recognition with Conformers

Visual Speech Recognition for Multiple Languages in the Wild

Sub-word Level Lip Reading With Visual Attention

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Visual Speech Recognition for Multiple Languages in the Wild

Sub-word Level Lip Reading With Visual Attention

Jointly Learning Visual and Auditory Speech Representations from Raw Data

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

Model	Paper	Word Error Rate (WER)	Date
LIBS	Hearing Lips: Improving Lip Reading by Distilling…	65.29	2019-11-26
TM-CTC + extLM	Deep Audio-Visual Speech Recognition	54.70	2018-09-06
CTC + KD ASR	ASR is all you need: cross-modal distillation for…	53.20	2019-11-28
Hybrid CTC / Attention	Audio-Visual Speech Recognition With A Hybrid CTC…	50.00	2018-09-28
LF-MMI TDNN	Audio-visual Recognition of Overlapped speech for…	48.86	2020-01-06
TM-seq2seq + extLM	Deep Audio-Visual Speech Recognition	48.30	2018-09-06
Multi-head Visual-Audio Memory	Distinguishing Homophenes Using Multi-Head Visual…	44.50	2022-04-04
MoCo + wav2vec (w/o extLM)	Leveraging Unimodal Self-Supervised Learning for …	43.20	2022-02-24
Hybrid CTC / Attention	End-to-end Audio-visual Speech Recognition with C…	39.10	2021-02-12
CTC/Attention	Visual Speech Recognition for Multiple Languages …	32.90	2022-02-26
VTP	Sub-word Level Lip Reading With Visual Attention	28.90	2021-10-14
SyncVSR	SyncVSR: Data-Efficient Visual Speech Recognition…	28.90	2024-06-18
CTC/Attention (LRW+LRS2/3+AVSpeech)	Visual Speech Recognition for Multiple Languages …	25.50	2022-02-26
VTP (more data)	Sub-word Level Lip Reading With Visual Attention	22.60	2021-10-14
RAVEn Large	Jointly Learning Visual and Auditory Speech Repre…	18.60	2022-12-12
SyncVSR	SyncVSR: Data-Efficient Visual Speech Recognition…	16.50	2024-06-18
USR	Unified Speech Recognition: A Single Model for Au…	15.40	2024-11-04
Auto-AVSR	Auto-AVSR: Audio-Visual Speech Recognition with A…	14.60	2023-03-25