ML Research Wiki / Benchmarks / Lipreading / LRS3-TED

LRS3-TED

Lipreading Benchmark

Performance Over Time

📊 Showing 20 results | 📏 Metric: Word Error Rate (WER)

Top Performing Models

Rank	Model	Paper	Word Error Rate (WER)	Date	Code
1	CTC + KD 📚	ASR is all you need: cross-modal distillation for lip reading	59.80	2019-11-28	-
2	TM-seq2seq 📚	Deep Audio-Visual Speech Recognition	58.90	2018-09-06	📦 lordmartian/deep_avsr 📦 smeetrs/deep_avsr 📦 exgc/avmust-ted 📦 amitai1992/AutomatedLipReading
3	EG-seq2seq	Discriminative Multi-modality Speech Recognition	57.80	2020-05-12	📦 JackSyu/Discriminative-Multi-modality-Speech-Recognition 📦 JackSyu/AE-MSR
4	CTC-V2P 📚	Large-Scale Visual Speech Recognition	55.10	2018-07-13	-
5	Hyb + Conformer 📚	End-to-end Audio-visual Speech Recognition with Conformers	43.30	2021-02-12	📦 zziz/pwc 📦 mpc001/Visual_Speech_Recognition_for_Multiple_Languages 📦 mpc001/auto_avsr
6	VTP 📚	Sub-word Level Lip Reading With Visual Attention	40.60	2021-10-14	-
7	RNN-T 📚	Recurrent Neural Network Transducer for Audio-Visual Speech Recognition	33.60	2019-11-08	📦 around-star/Speech-Recognition
8	CTC/Attention (LRW+LRS2/3+AVSpeech) 📚	Visual Speech Recognition for Multiple Languages in the Wild	31.50	2022-02-26	📦 mpc001/Visual_Speech_Recognition_for_Multiple_Languages 📦 david-gimeno/lip-rtve
9	SyncVSR	SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization	31.20	2024-06-18	📦 KAIST-AILab/SyncVSR
10	VTP (more data) 📚	Sub-word Level Lip Reading With Visual Attention	30.70	2021-10-14	-

All Papers (20)

ASR is all you need: cross-modal distillation for lip reading

2019

CTC + KD

Deep Audio-Visual Speech Recognition

2018

TM-seq2seq

lordmartian/deep_avsr smeetrs/deep_avsr

Discriminative Multi-modality Speech Recognition

2020

EG-seq2seq

JackSyu/Discriminative-Multi-modality-Speech-Recognition JackSyu/AE-MSR

Large-Scale Visual Speech Recognition

2018

CTC-V2P

End-to-end Audio-visual Speech Recognition with Conformers

2021

Hyb + Conformer

zziz/pwc mpc001/Visual_Speech_Recognition_for_Multiple_Languages mpc001/auto_avsr

Sub-word Level Lip Reading With Visual Attention

2021

VTP

Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

2019

RNN-T

around-star/Speech-Recognition

Visual Speech Recognition for Multiple Languages in the Wild

2022

CTC/Attention (LRW+LRS2/3+AVSpeech)

mpc001/Visual_Speech_Recognition_for_Multiple_Languages david-gimeno/lip-rtve

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

2024

SyncVSR

KAIST-AILab/SyncVSR

Sub-word Level Lip Reading With Visual Attention

2021

VTP (more data)

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction

2022

AV-HuBERT Large

facebookresearch/av_hubert guxm2021/MM_ALT

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models

2025

DistillAV

jxzhanggg/DistillAV

Relaxed Attention for Transformer Models

2022

AV-HuBERT Large + Relaxed Attention + LM

Oguzhanercan/Vision-Transformers

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

2024

VSP-LLM

sally-sh/vsp-llm

Jointly Learning Visual and Auditory Speech Representations from Raw Data

2022

RAVEn Large

ahaliassos/raven

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs

2024

USR (self-supervised)

ahaliassos/usr

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

2024

SyncVSR

KAIST-AILab/SyncVSR

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs

2024

USR (self + semi-supervised)

ahaliassos/usr

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

2023

Auto-AVSR

mpc001/auto_avsr umbertocappellazzo/llama-avsr

Conformers are All You Need for Visual Speech Recognition

2023

LP + Conformer

LRS3-TED

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (20)

ASR is all you need: cross-modal distillation for lip reading

Deep Audio-Visual Speech Recognition

Discriminative Multi-modality Speech Recognition

Large-Scale Visual Speech Recognition

End-to-end Audio-visual Speech Recognition with Conformers

Sub-word Level Lip Reading With Visual Attention

Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

Visual Speech Recognition for Multiple Languages in the Wild

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Sub-word Level Lip Reading With Visual Attention

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models

Relaxed Attention for Transformer Models

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing

Jointly Learning Visual and Auditory Speech Representations from Raw Data

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

Conformers are All You Need for Visual Speech Recognition

Model	Paper	Word Error Rate (WER)	Date
CTC + KD	ASR is all you need: cross-modal distillation for…	59.80	2019-11-28
TM-seq2seq	Deep Audio-Visual Speech Recognition	58.90	2018-09-06
EG-seq2seq	Discriminative Multi-modality Speech Recognition	57.80	2020-05-12
CTC-V2P	Large-Scale Visual Speech Recognition	55.10	2018-07-13
Hyb + Conformer	End-to-end Audio-visual Speech Recognition with C…	43.30	2021-02-12
VTP	Sub-word Level Lip Reading With Visual Attention	40.60	2021-10-14
RNN-T	Recurrent Neural Network Transducer for Audio-Vis…	33.60	2019-11-08
CTC/Attention (LRW+LRS2/3+AVSpeech)	Visual Speech Recognition for Multiple Languages …	31.50	2022-02-26
SyncVSR	SyncVSR: Data-Efficient Visual Speech Recognition…	31.20	2024-06-18
VTP (more data)	Sub-word Level Lip Reading With Visual Attention	30.70	2021-10-14
AV-HuBERT Large	Learning Audio-Visual Speech Representation by Ma…	26.90	2022-01-05
DistillAV	Audio-Visual Representation Learning via Knowledg…	26.20	2025-02-09
AV-HuBERT Large + Relaxed Attention + LM	Relaxed Attention for Transformer Models	25.51	2022-09-20
VSP-LLM	Where Visual Speech Meets Language: VSP-LLM Frame…	25.40	2024-02-23
RAVEn Large	Jointly Learning Visual and Auditory Speech Repre…	23.40	2022-12-12
USR (self-supervised)	Unified Speech Recognition: A Single Model for Au…	22.30	2024-11-04
SyncVSR	SyncVSR: Data-Efficient Visual Speech Recognition…	21.50	2024-06-18
USR (self + semi-supervised)	Unified Speech Recognition: A Single Model for Au…	21.50	2024-11-04
Auto-AVSR	Auto-AVSR: Audio-Visual Speech Recognition with A…	19.10	2023-03-25
LP + Conformer	Conformers are All You Need for Visual Speech Rec…	12.80	2023-02-17