ML Research Wiki / Benchmarks / Scene Text Recognition / SVT

SVT

Scene Text Recognition Benchmark

Performance Over Time

📊 Showing 34 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	CLIP4STR-H (DFN-5B) 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	99.10	2023-05-23	📦 VamosC/CLIP4STR
2	DTrOCR 105M	DTrOCR: Decoder-only Transformer for Optical Character Recognition	98.90	2023-08-30	📦 arvindrajan92/DTrOCR
3	CLIP4STR-B* 📚	An Empirical Study of Scaling Law for OCR	98.76	2023-12-29	📦 large-ocr-model/large-ocr-model.github.io
4	MGP-STR 📚	Multi-Granularity Prediction for Scene Text Recognition	98.60	2022-09-08	📦 alibabaresearch/advancedliteratemachinery 📦 AlibabaResearch/AdvancedLiterateMachinery 📦 topdu/openocr
5	CLIP4STR-L (DataComp-1B) 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	98.60	2023-05-23	📦 VamosC/CLIP4STR
6	CPPD 📚	Context Perception Parallel Decoder for Scene Text Recognition	98.50	2023-07-23	📦 PaddlePaddle/PaddleOCR 📦 topdu/openocr
7	CLIP4STR-L 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	98.50	2023-05-23	📦 VamosC/CLIP4STR
8	CLIP4STR-B 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	98.30	2023-05-23	📦 VamosC/CLIP4STR
9	CCD-ViT-Base(ARD_2.8M) 📚	Self-supervised Character-to-Character Distillation for Text Recognition	97.80	2022-11-01	📦 tongkunguan/ccd
10	CCD-ViT-Small(ARD_2.8M) 📚	Self-supervised Character-to-Character Distillation for Text Recognition	96.40	2022-11-01	📦 tongkunguan/ccd

All Papers (34)

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-H (DFN-5B)

VamosC/CLIP4STR

DTrOCR: Decoder-only Transformer for Optical Character Recognition

2023

DTrOCR 105M

arvindrajan92/DTrOCR

An Empirical Study of Scaling Law for OCR

2023

CLIP4STR-B*

large-ocr-model/large-ocr-model.github.io

Multi-Granularity Prediction for Scene Text Recognition

2022

MGP-STR

alibabaresearch/advancedliteratemachinery AlibabaResearch/AdvancedLiterateMachinery topdu/openocr

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-L (DataComp-1B)

VamosC/CLIP4STR

Context Perception Parallel Decoder for Scene Text Recognition

2023

CPPD

PaddlePaddle/PaddleOCR topdu/openocr

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-L

VamosC/CLIP4STR

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-B

VamosC/CLIP4STR

Self-supervised Character-to-Character Distillation for Text Recognition

2022

CCD-ViT-Base(ARD_2.8M)

tongkunguan/ccd

Self-supervised Character-to-Character Distillation for Text Recognition

2022

CCD-ViT-Small(ARD_2.8M)

tongkunguan/ccd

Self-supervised Character-to-Character Distillation for Text Recognition

2022

CCD-ViT-Tiny(ARD_2.8M)

tongkunguan/ccd

Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

2021

S-GTR

adeline-cs/GTR

Self-supervised Implicit Glyph Attention for Text Recognition

2022

SIGA_T

tongkunguan/siga

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

2021

MATRN

topdu/openocr byeonghu-na/matrn wp03052/MATRN

Why You Should Try the Real Data for the Scene Text Recognition

2021

Yet Another Text Recognizer

openvinotoolkit/training_extensions

TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition

2023

NRTR+TPS++

simplify23/tps_pp

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

2021

CDistNet (Ours)

topdu/openocr simplify23/CDistNet chibohe/CdistNet-pytorch

DiffusionSTR: Diffusion Model for Scene Text Recognition

2023

DiffusionSTR

Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition

2021

RCEED

Mona9955/RCEED-ICDAR2021

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

2020

SRN

PaddlePaddle/PaddleOCR topdu/openocr Media-Smart/vedastr

On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

2019

SATRN

Media-Smart/vedastr clovaai/SATRN

Revisiting Classification Perspective on Scene Text Recognition

2021

CSTR

Media-Smart/vedastr

TextScanner: Reading Characters in Order for Robust Scene Text Recognition

2019

TextScanner

SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

2020

SEED

PaddlePaddle/PaddleOCR topdu/openocr Pay20Y/SEED

Decoupled Attention Network for Text Recognition

2019

DAN

topdu/openocr Canjie-Luo/Scene-Text-Image-Transformer

SAFL: A Self-Attention Scene Text Recognizer with Focal Loss

2022

SAFL

ICMLA-SAFL/SAFL_pytorch

Vision Transformer for Fast and Efficient Scene Text Recognition

2021

ViTSTR

PaddlePaddle/PaddleOCR roatienza/deep-text-recognition-benchmark Eom-taeseon/CV_SceneTextRecognition

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

2019

Baek et al.

clovaai/deep-text-recognition-benchmark roatienza/deep-text-recognition-benchmark

Scene Text Recognition from Two-Dimensional Perspective

2018

CA-FCN

Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition

2018

SAR

PaddlePaddle/PaddleOCR mindee/doctr

Robust Scene Text Recognition with Automatic Rectification

2016

RARE

PaddlePaddle/PaddleOCR WarBean/tps_stn_pytorch

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

2015

CRNN

PaddlePaddle/PaddleOCR JaidedAI/EasyOCR

Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

2014

CHAR

bupt-ai-cz/Meta-SelfLearning

Scene Text Recognition with Permuted Autoregressive Sequence Models

2022

PARSeq

topdu/openocr baudm/parseq

Model	Paper	Accuracy	Date
CLIP4STR-H (DFN-5B)	CLIP4STR: A Simple Baseline for Scene Text Recogn…	99.10	2023-05-23
DTrOCR 105M	DTrOCR: Decoder-only Transformer for Optical Char…	98.90	2023-08-30
CLIP4STR-B*	An Empirical Study of Scaling Law for OCR	98.76	2023-12-29
MGP-STR	Multi-Granularity Prediction for Scene Text Recog…	98.60	2022-09-08
CLIP4STR-L (DataComp-1B)	CLIP4STR: A Simple Baseline for Scene Text Recogn…	98.60	2023-05-23
CPPD	Context Perception Parallel Decoder for Scene Tex…	98.50	2023-07-23
CLIP4STR-L	CLIP4STR: A Simple Baseline for Scene Text Recogn…	98.50	2023-05-23
CLIP4STR-B	CLIP4STR: A Simple Baseline for Scene Text Recogn…	98.30	2023-05-23
CCD-ViT-Base(ARD_2.8M)	Self-supervised Character-to-Character Distillati…	97.80	2022-11-01
CCD-ViT-Small(ARD_2.8M)	Self-supervised Character-to-Character Distillati…	96.40	2022-11-01
CCD-ViT-Tiny(ARD_2.8M)	Self-supervised Character-to-Character Distillati…	96.00	2022-11-01
S-GTR	Visual Semantics Allow for Textual Reasoning Bett…	95.80	2021-12-24
SIGA_T	Self-supervised Implicit Glyph Attention for Text…	95.10	2022-03-07
MATRN	Multi-modal Text Recognition Networks: Interactiv…	95.00	2021-11-30
Yet Another Text Recognizer	Why You Should Try the Real Data for the Scene Te…	94.70	2021-07-29
NRTR+TPS++	TPS++: Attention-Enhanced Thin-Plate Spline for S…	94.60	2023-05-09
CDistNet (Ours)	CDistNet: Perceiving Multi-Domain Character Dista…	93.82	2021-11-22
DiffusionSTR	DiffusionSTR: Diffusion Model for Scene Text Reco…	93.60	2023-06-29
RCEED	Representation and Correlation Enhanced Encoder-D…	91.80	2021-06-13
SRN	Towards Accurate Scene Text Recognition with Sema…	91.50	2020-03-27
SATRN	On Recognizing Texts of Arbitrary Shapes with 2D …	91.30	2019-10-10
CSTR	Revisiting Classification Perspective on Scene Te…	90.60	2021-02-22
TextScanner	TextScanner: Reading Characters in Order for Robu…	90.10	2019-12-28
SEED	SEED: Semantics Enhanced Encoder-Decoder Framewor…	89.60	2020-05-22
DAN	Decoupled Attention Network for Text Recognition	89.20	2019-12-21
SAFL	SAFL: A Self-Attention Scene Text Recognizer with…	88.60	2022-01-01
ViTSTR	Vision Transformer for Fast and Efficient Scene T…	87.70	2021-05-18
Baek et al.	What Is Wrong With Scene Text Recognition Model C…	87.50	2019-04-03
CA-FCN	Scene Text Recognition from Two-Dimensional Persp…	86.40	2018-09-18
SAR	Show, Attend and Read: A Simple and Strong Baseli…	84.50	2018-11-02
RARE	Robust Scene Text Recognition with Automatic Rect…	81.90	2016-03-12
CRNN	An End-to-End Trainable Neural Network for Image-…	80.80	2015-07-21
CHAR	Synthetic Data and Artificial Neural Networks for…	68.00	2014-06-09
PARSeq	Scene Text Recognition with Permuted Autoregressi…		2022-07-14

SVT

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (34)

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

DTrOCR: Decoder-only Transformer for Optical Character Recognition

An Empirical Study of Scaling Law for OCR

Multi-Granularity Prediction for Scene Text Recognition

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Context Perception Parallel Decoder for Scene Text Recognition

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Self-supervised Character-to-Character Distillation for Text Recognition

Self-supervised Character-to-Character Distillation for Text Recognition

Self-supervised Character-to-Character Distillation for Text Recognition

Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

Self-supervised Implicit Glyph Attention for Text Recognition

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

Why You Should Try the Real Data for the Scene Text Recognition

TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

DiffusionSTR: Diffusion Model for Scene Text Recognition

Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition

Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

Revisiting Classification Perspective on Scene Text Recognition

TextScanner: Reading Characters in Order for Robust Scene Text Recognition

SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition

Decoupled Attention Network for Text Recognition

SAFL: A Self-Attention Scene Text Recognizer with Focal Loss

Vision Transformer for Fast and Efficient Scene Text Recognition

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

Scene Text Recognition from Two-Dimensional Perspective

Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition

Robust Scene Text Recognition with Automatic Rectification

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

Scene Text Recognition with Permuted Autoregressive Sequence Models