ML Research Wiki / Benchmarks / Audio-Visual Speech Recognition / LRS3-TED

LRS3-TED

Audio-Visual Speech Recognition Benchmark

Performance Over Time

📊 Showing 12 results | 📏 Metric: Word Error Rate (WER)

Top Performing Models

Rank	Model	Paper	Word Error Rate (WER)	Date	Code
1	TM-seq2seq 📚	Deep Audio-Visual Speech Recognition	7.20	2018-09-06	📦 lordmartian/deep_avsr 📦 smeetrs/deep_avsr 📦 exgc/avmust-ted 📦 amitai1992/AutomatedLipReading
2	EG-seq2seq 📚	Discriminative Multi-modality Speech Recognition	6.80	2020-05-12	📦 JackSyu/Discriminative-Multi-modality-Speech-Recognition 📦 JackSyu/AE-MSR
3	RNN-T 📚	Recurrent Neural Network Transducer for Audio-Visual Speech Recognition	4.50	2019-11-08	📦 around-star/Speech-Recognition
4	Hyb-Conformer	End-to-end Audio-visual Speech Recognition with Conformers	2.30	2021-02-12	📦 zziz/pwc 📦 mpc001/Visual_Speech_Recognition_for_Multiple_Languages 📦 mpc001/auto_avsr
5	Zero-AVSR 📚	Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations	1.50	2025-03-08	📦 JeongHun0716/zero-avsr
6	AV-HuBERT Large 📚	Robust Self-Supervised Audio-Visual Speech Recognition	1.40	2022-01-05	📦 facebookresearch/av_hubert
7	RAVEn Large 📚	Jointly Learning Visual and Auditory Speech Representations from Raw Data	1.40	2022-12-12	📦 ahaliassos/raven
8	DistillAV 📚	Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models	1.30	2025-02-09	📦 jxzhanggg/DistillAV
9	CTC/Attention 📚	Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels	0.90	2023-03-25	📦 mpc001/auto_avsr 📦 umbertocappellazzo/llama-avsr
10	Llama-AVSR 📚	Large Language Models are Strong Audio-Visual Speech Recognition Learners	0.77	2024-09-18	📦 umbertocappellazzo/llama-avsr

All Papers (12)

Deep Audio-Visual Speech Recognition

2018

TM-seq2seq

lordmartian/deep_avsr smeetrs/deep_avsr

Discriminative Multi-modality Speech Recognition

2020

EG-seq2seq

JackSyu/Discriminative-Multi-modality-Speech-Recognition JackSyu/AE-MSR

Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

2019

RNN-T

around-star/Speech-Recognition

End-to-end Audio-visual Speech Recognition with Conformers

2021

Hyb-Conformer

zziz/pwc mpc001/Visual_Speech_Recognition_for_Multiple_Languages mpc001/auto_avsr

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

2025

Zero-AVSR

JeongHun0716/zero-avsr

Robust Self-Supervised Audio-Visual Speech Recognition

2022

AV-HuBERT Large

facebookresearch/av_hubert

Jointly Learning Visual and Auditory Speech Representations from Raw Data

2022

RAVEn Large

ahaliassos/raven

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models

2025

DistillAV

jxzhanggg/DistillAV

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

2023

CTC/Attention

mpc001/auto_avsr umbertocappellazzo/llama-avsr

Large Language Models are Strong Audio-Visual Speech Recognition Learners

2024

Llama-AVSR

umbertocappellazzo/llama-avsr

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

2024

Whisper-Flamingo

roudimit/whisper-flamingo

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens

2025

MMS-LLaMA

JeongHun0716/MMS-LLaMA

LRS3-TED

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (12)

Deep Audio-Visual Speech Recognition

Discriminative Multi-modality Speech Recognition

Recurrent Neural Network Transducer for Audio-Visual Speech Recognition

End-to-end Audio-visual Speech Recognition with Conformers

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations

Robust Self-Supervised Audio-Visual Speech Recognition

Jointly Learning Visual and Auditory Speech Representations from Raw Data

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models

Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels

Large Language Models are Strong Audio-Visual Speech Recognition Learners

Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation

MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens

Model	Paper	Word Error Rate (WER)	Date
TM-seq2seq	Deep Audio-Visual Speech Recognition	7.20	2018-09-06
EG-seq2seq	Discriminative Multi-modality Speech Recognition	6.80	2020-05-12
RNN-T	Recurrent Neural Network Transducer for Audio-Vis…	4.50	2019-11-08
Hyb-Conformer	End-to-end Audio-visual Speech Recognition with C…	2.30	2021-02-12
Zero-AVSR	Zero-AVSR: Zero-Shot Audio-Visual Speech Recognit…	1.50	2025-03-08
AV-HuBERT Large	Robust Self-Supervised Audio-Visual Speech Recogn…	1.40	2022-01-05
RAVEn Large	Jointly Learning Visual and Auditory Speech Repre…	1.40	2022-12-12
DistillAV	Audio-Visual Representation Learning via Knowledg…	1.30	2025-02-09
CTC/Attention	Auto-AVSR: Audio-Visual Speech Recognition with A…	0.90	2023-03-25
Llama-AVSR	Large Language Models are Strong Audio-Visual Spe…	0.77	2024-09-18
Whisper-Flamingo	Whisper-Flamingo: Integrating Visual Features int…	0.76	2024-06-14
MMS-LLaMA	MMS-LLaMA: Efficient LLM-based Audio-Visual Speec…	0.74	2025-03-14