ML Research Wiki / Benchmarks / Scene Text Recognition / IIIT5k

IIIT5k

Scene Text Recognition Benchmark

Performance Over Time

📊 Showing 16 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	CLIP4STR-L (DataComp-1B) 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	99.60	2023-05-23	📦 VamosC/CLIP4STR
2	DTrOCR 105M	DTrOCR: Decoder-only Transformer for Optical Character Recognition	99.60	2023-08-30	📦 arvindrajan92/DTrOCR
3	CLIP4STR-L 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	99.50	2023-05-23	📦 VamosC/CLIP4STR
4	CLIP4STR-B (DataComp-1B) 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	99.50	2023-05-23	📦 VamosC/CLIP4STR
5	CPPD 📚	Context Perception Parallel Decoder for Scene Text Recognition	99.30	2023-07-23	📦 PaddlePaddle/PaddleOCR 📦 topdu/openocr
6	CLIP4STR-B 📚	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	99.20	2023-05-23	📦 VamosC/CLIP4STR
7	MGP-STR 📚	Multi-Granularity Prediction for Scene Text Recognition	98.80	2022-09-08	📦 alibabaresearch/advancedliteratemachinery 📦 AlibabaResearch/AdvancedLiterateMachinery 📦 topdu/openocr
8	CCD-ViT-Small(ARD_2.8M) 📚	Self-supervised Character-to-Character Distillation for Text Recognition	98.00	2022-11-01	📦 tongkunguan/ccd
9	CCD-ViT-Base(ARD_2.8M) 📚	Self-supervised Character-to-Character Distillation for Text Recognition	98.00	2022-11-01	📦 tongkunguan/ccd
10	S-GTR 📚	Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition	97.50	2021-12-24	📦 adeline-cs/GTR

All Papers (16)

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-L (DataComp-1B)

VamosC/CLIP4STR

DTrOCR: Decoder-only Transformer for Optical Character Recognition

2023

DTrOCR 105M

arvindrajan92/DTrOCR

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-L

VamosC/CLIP4STR

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-B (DataComp-1B)

VamosC/CLIP4STR

Context Perception Parallel Decoder for Scene Text Recognition

2023

CPPD

PaddlePaddle/PaddleOCR topdu/openocr

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

2023

CLIP4STR-B

VamosC/CLIP4STR

Multi-Granularity Prediction for Scene Text Recognition

2022

MGP-STR

alibabaresearch/advancedliteratemachinery AlibabaResearch/AdvancedLiterateMachinery topdu/openocr

Self-supervised Character-to-Character Distillation for Text Recognition

2022

CCD-ViT-Small(ARD_2.8M)

tongkunguan/ccd

Self-supervised Character-to-Character Distillation for Text Recognition

2022

CCD-ViT-Base(ARD_2.8M)

tongkunguan/ccd

Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

2021

S-GTR

adeline-cs/GTR

DiffusionSTR: Diffusion Model for Scene Text Recognition

2023

DiffusionSTR

Self-supervised Character-to-Character Distillation for Text Recognition

2022

CCD-ViT-Tiny(ARD_2.8M)

tongkunguan/ccd

Self-supervised Implicit Glyph Attention for Text Recognition

2022

SIGA_S

tongkunguan/siga

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

2021

MATRN

topdu/openocr byeonghu-na/matrn wp03052/MATRN

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

2021

CDistNet (Ours)

topdu/openocr simplify23/CDistNet chibohe/CdistNet-pytorch

Scene Text Recognition with Permuted Autoregressive Sequence Models

2022

PARSeq

topdu/openocr baudm/parseq

IIIT5k

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (16)

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

DTrOCR: Decoder-only Transformer for Optical Character Recognition

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Context Perception Parallel Decoder for Scene Text Recognition

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Multi-Granularity Prediction for Scene Text Recognition

Self-supervised Character-to-Character Distillation for Text Recognition

Self-supervised Character-to-Character Distillation for Text Recognition

Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition

DiffusionSTR: Diffusion Model for Scene Text Recognition

Self-supervised Character-to-Character Distillation for Text Recognition

Self-supervised Implicit Glyph Attention for Text Recognition

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

Scene Text Recognition with Permuted Autoregressive Sequence Models

Model	Paper	Accuracy	Date
CLIP4STR-L (DataComp-1B)	CLIP4STR: A Simple Baseline for Scene Text Recogn…	99.60	2023-05-23
DTrOCR 105M	DTrOCR: Decoder-only Transformer for Optical Char…	99.60	2023-08-30
CLIP4STR-L	CLIP4STR: A Simple Baseline for Scene Text Recogn…	99.50	2023-05-23
CLIP4STR-B (DataComp-1B)	CLIP4STR: A Simple Baseline for Scene Text Recogn…	99.50	2023-05-23
CPPD	Context Perception Parallel Decoder for Scene Tex…	99.30	2023-07-23
CLIP4STR-B	CLIP4STR: A Simple Baseline for Scene Text Recogn…	99.20	2023-05-23
MGP-STR	Multi-Granularity Prediction for Scene Text Recog…	98.80	2022-09-08
CCD-ViT-Small(ARD_2.8M)	Self-supervised Character-to-Character Distillati…	98.00	2022-11-01
CCD-ViT-Base(ARD_2.8M)	Self-supervised Character-to-Character Distillati…	98.00	2022-11-01
S-GTR	Visual Semantics Allow for Textual Reasoning Bett…	97.50	2021-12-24
DiffusionSTR	DiffusionSTR: Diffusion Model for Scene Text Reco…	97.30	2023-06-29
CCD-ViT-Tiny(ARD_2.8M)	Self-supervised Character-to-Character Distillati…	97.10	2022-11-01
SIGA_S	Self-supervised Implicit Glyph Attention for Text…	96.90	2022-03-07
MATRN	Multi-modal Text Recognition Networks: Interactiv…	96.60	2021-11-30
CDistNet (Ours)	CDistNet: Perceiving Multi-Domain Character Dista…	96.57	2021-11-22
PARSeq	Scene Text Recognition with Permuted Autoregressi…		2022-07-14