ML Research Wiki / Benchmarks / Text-to-Image Generation / COCO (Common Objects in Context)

COCO (Common Objects in Context)

Text-to-Image Generation Benchmark

Performance Over Time

📊 Showing 69 results | 📏 Metric: FID

Top Performing Models

Rank	Model	Paper	FID	Date	Code
1	RAT-Diffusion 📚	Data Extrapolation for Text-to-image Generation on Small Datasets	5.00	2024-10-02	📦 senmaoy/RAT-Diffusion
2	Re-Imagen (Finetuned)	Re-Imagen: Retrieval-Augmented Text-to-Image Generator	5.25	2022-09-29	-
3	U-ViT-S/2-Deep	All are Worth Words: A ViT Backbone for Diffusion Models	5.48	2022-09-25	📦 baofff/U-ViT 📦 PaddlePaddle/PaddleMIX 📦 sndnyang/Diffusion_ViT
4	GLIGEN (fine-tuned, Detection + Caption data)	GLIGEN: Open-Set Grounded Text-to-Image Generation	5.61	2023-01-17	📦 gligen/GLIGEN
5	GLIGEN (fine-tuned, Detection data only)	GLIGEN: Open-Set Grounded Text-to-Image Generation	5.82	2023-01-17	📦 gligen/GLIGEN
6	U-ViT-S/2	All are Worth Words: A ViT Backbone for Diffusion Models	5.95	2022-09-25	📦 baofff/U-ViT 📦 PaddlePaddle/PaddleMIX 📦 sndnyang/Diffusion_ViT
7	ConPreDiff	Improving Diffusion-Based Image Synthesis with Context Prediction	6.21	2024-01-04	-
8	TLDM	Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders	6.29	2022-02-19	📦 jegzheng/truncated-diffusion-probabilistic-models
9	GLIGEN (fine-tuned, Grounding data)	GLIGEN: Open-Set Grounded Text-to-Image Generation	6.38	2023-01-17	📦 gligen/GLIGEN
10	RAPHAEL (zero-shot)	RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths	6.61	2023-05-29	📦 lucidrains/soft-moe-pytorch

All Papers (69)

Data Extrapolation for Text-to-image Generation on Small Datasets

2024

RAT-Diffusion

senmaoy/RAT-Diffusion

Re-Imagen: Retrieval-Augmented Text-to-Image Generator

2022

Re-Imagen (Finetuned)

All are Worth Words: A ViT Backbone for Diffusion Models

2022

U-ViT-S/2-Deep

baofff/U-ViT PaddlePaddle/PaddleMIX sndnyang/Diffusion_ViT

GLIGEN: Open-Set Grounded Text-to-Image Generation

2023

GLIGEN (fine-tuned, Detection + Caption data)

gligen/GLIGEN

GLIGEN: Open-Set Grounded Text-to-Image Generation

2023

GLIGEN (fine-tuned, Detection data only)

gligen/GLIGEN

All are Worth Words: A ViT Backbone for Diffusion Models

2022

U-ViT-S/2

baofff/U-ViT PaddlePaddle/PaddleMIX sndnyang/Diffusion_ViT

Improving Diffusion-Based Image Synthesis with Context Prediction

2024

ConPreDiff

Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders

2022

TLDM

jegzheng/truncated-diffusion-probabilistic-models

GLIGEN: Open-Set Grounded Text-to-Image Generation

2023

GLIGEN (fine-tuned, Grounding data)

gligen/GLIGEN

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

2023

RAPHAEL (zero-shot)

lucidrains/soft-moe-pytorch

ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion Model with Knowledge-Enhanced Mixture-of-Denoising-Experts

2022

ERNIE-ViLG 2.0 (zero-shot)

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE-ViLG

Re-Imagen: Retrieval-Augmented Text-to-Image Generator

2022

Re-Imagen

eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers

2022

eDiff-I (zero-shot)

cloneofsimo/paint-with-words-sd cross-domain-compositing/cross-domain-compositing

Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for Text-to-Image Generation

2022

Swinv2-Imagen

Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

2022

Imagen (zero-shot)

lucidrains/imagen-pytorch deep-floyd/if

Scaling up GANs for Text-to-Image Synthesis

2023

GigaGAN (Zero-shot, 64x64)

lucidrains/gigagan-pytorch

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

2023

StyleGAN-T (Zero-shot, 64x64)

autonomousvision/stylegan-t

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

2022

Make-a-Scene (unfiltered)

CasualGANPapers/Make-A-Scene

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

2023

Kandinsky

ai-forever/Kandinsky-2

LAFITE: Towards Language-Free Training for Text-to-Image Generation

2021

Lafite

drboog/Lafite drboog/Shifted_Diffusion oxygenlu/ratlip

Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation

2024

SiD-LSG (Data-free distillation, zero-shot FID)

mingyuanzhou/sid mingyuanzhou/sid-lsg

Simple diffusion: End-to-end diffusion for high resolution images

2023

simple diffusion (U-ViT)

fashn-AI/tryondiffusion

Scaling up GANs for Text-to-Image Synthesis

2023

GigaGAN (Zero-shot, 256x256)

lucidrains/gigagan-pytorch

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

XMC-GAN (256 x 256)

lucidrains/nuwa-pytorch

Cross-Modal Contrastive Learning for Text-to-Image Generation

2021

XMC-GAN

google-research/xmcgan_image_generation

ChatPainter: Improving Text to Image Generation using Dialogue

2018

ChatPainter

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks

2020

StackGAN + VICTR

usydnlp/VICTR

Hierarchical Text-Conditional Image Generation with CLIP Latents

2022

DALL-E 2

lucidrains/DALLE2-pytorch facebookresearch/multimodal

Shifted Diffusion for Text-to-image Generation

2022

Corgi-Semi

drboog/Shifted_Diffusion

Shifted Diffusion for Text-to-image Generation

2022

Corgi

drboog/Shifted_Diffusion

TR0N: Translator Networks for 0-Shot Plug-and-Play Conditional Generation

2023

TR0N (StyleGAN-XL, LAION2BCLIP, BLIP-2, zero-shot)

layer6ai-labs/fusemix layer6ai-labs/tr0n

Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

2022

Make-a-Scene (unfiltered)

CasualGANPapers/Make-A-Scene

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models

2021

GLIDE (zero-shot)

openai/glide-text2im ermongroup/SDEdit

KNN-Diffusion: Image Generation via Large-Scale Retrieval

2022

KNN-Diffusion

GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis

2023

GALIP (CC12m)

tobran/DF-GAN tobran/galip

High-Resolution Image Synthesis with Latent Diffusion Models

2021

Latent Diffusion (LDM-KL-8-G)

compvis/stable-diffusion labmlai/annotated_deep_learning_paper_implementations

Retrieval-Augmented Multimodal Language Modeling

2022

Stable Diffusion

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

NÜWA (256 x 256)

lucidrains/nuwa-pytorch

Vector Quantized Diffusion Model for Text-to-Image Synthesis

2021

VQ-Diffusion-F

microsoft/vq-diffusion cientgu/vq-diffusion

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

2023

StyleGAN-T (Zero-shot, 256x256)

autonomousvision/stylegan-t

Recurrent Affine Transformation for Text-to-image Synthesis

2022

RAT-GAN

senmaoy/recurrent-affine-transformation-for-text-to-image-synthesis senmaoy/RAT-Diffusion

ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation

2021

ERNIE-ViLG

PaddlePaddle/PaddleNLP PaddlePaddle/FleetX

Retrieval-Augmented Multimodal Language Modeling

2022

RA-CM3 (2.7B)

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

2022

CogView2(6B, Finetuned)

thudm/cogview2

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

DF-GAN (256 x 256)

lucidrains/nuwa-pytorch

Vector Quantized Diffusion Model for Text-to-Image Synthesis

2021

VQ-Diffusion-B

microsoft/vq-diffusion cientgu/vq-diffusion

Improving Text-to-Image Synthesis Using Contrastive Learning

2021

DM-GAN+CL

huiyegit/T2I_CL

FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization

2021

FuseDream (few-shot, k=5)

gnobitab/fusedream

FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization

2021

FuseDream (k=5, 256)

gnobitab/fusedream

FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization

2021

FuseDream (k=10, 256)

gnobitab/fusedream

Improving Text-to-Image Synthesis Using Contrastive Learning

2021

AttnGAN+CL

huiyegit/T2I_CL

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

2022

CogView2(6B, Finetuned)

thudm/cogview2

Semantic Object Accuracy for Generative Text-to-Image Synthesis

2019

OP-GAN

tohinz/multiple-objects-gan tohinz/semantic-object-accuracy-for-generative-text-to-image-synthesis

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

DM-GAN (256 x 256)

lucidrains/nuwa-pytorch

LAFITE: Towards Language-Free Training for Text-to-Image Generation

2021

Lafite (zero-shot)

drboog/Lafite drboog/Shifted_Diffusion oxygenlu/ratlip

CogView: Mastering Text-to-Image Generation via Transformers

2021

CogView

thudm/visualglm-6b THUDM/CogView

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

CogView (256 x 256)

lucidrains/nuwa-pytorch

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

DALL-E (256 x 256)

lucidrains/nuwa-pytorch

Retrieval-Augmented Multimodal Language Modeling

2022

DALL-E (12B)

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks

2020

AttnGAN + VICTR

usydnlp/VICTR

Retrieval-Augmented Multimodal Language Modeling

2022

Vanilla CM3

VICTR: Visual Information Captured Text Representation for Text-to-Image Multimodal Tasks

2020

DM-GAN + VICTR

usydnlp/VICTR

DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis

2019

DM-GAN

MinfengZhu/DM-GAN senmaoy/recurrent-affine-transformation-for-text-to-image-synthesis

Generating Multiple Objects at Spatially Distinct Locations

2019

AttnGAN + OP

tohinz/multiple-objects-gan

NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion

2021

AttnGAN (256 x 256)

lucidrains/nuwa-pytorch

L-Verse: Bidirectional Generation Between Image and Text

2021

L-Verse-CC

tgisaturday/L-Verse

L-Verse: Bidirectional Generation Between Image and Text

2021

L-Verse

tgisaturday/L-Verse

Generating Multiple Objects at Spatially Distinct Locations

2019

StackGAN + OP

tohinz/multiple-objects-gan

StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks

2017

StackGAN-v1

hanzhanggit/StackGAN taoxugit/AttnGAN

Model	Paper	FID	Date
RAT-Diffusion	Data Extrapolation for Text-to-image Generation o…	5.00	2024-10-02
Re-Imagen (Finetuned)	Re-Imagen: Retrieval-Augmented Text-to-Image Gene…	5.25	2022-09-29
U-ViT-S/2-Deep	All are Worth Words: A ViT Backbone for Diffusion…	5.48	2022-09-25
GLIGEN (fine-tuned, Detection + Caption data)	GLIGEN: Open-Set Grounded Text-to-Image Generation	5.61	2023-01-17
GLIGEN (fine-tuned, Detection data only)	GLIGEN: Open-Set Grounded Text-to-Image Generation	5.82	2023-01-17
U-ViT-S/2	All are Worth Words: A ViT Backbone for Diffusion…	5.95	2022-09-25
ConPreDiff	Improving Diffusion-Based Image Synthesis with Co…	6.21	2024-01-04
TLDM	Truncated Diffusion Probabilistic Models and Diff…	6.29	2022-02-19
GLIGEN (fine-tuned, Grounding data)	GLIGEN: Open-Set Grounded Text-to-Image Generation	6.38	2023-01-17
RAPHAEL (zero-shot)	RAPHAEL: Text-to-Image Generation via Large Mixtu…	6.61	2023-05-29
ERNIE-ViLG 2.0 (zero-shot)	ERNIE-ViLG 2.0: Improving Text-to-Image Diffusion…	6.75	2022-10-27
Re-Imagen	Re-Imagen: Retrieval-Augmented Text-to-Image Gene…	6.88	2022-09-29
eDiff-I (zero-shot)	eDiff-I: Text-to-Image Diffusion Models with an E…	6.95	2022-11-02
Swinv2-Imagen	Swinv2-Imagen: Hierarchical Vision Transformer Di…	7.21	2022-10-18
Imagen (zero-shot)	Photorealistic Text-to-Image Diffusion Models wit…	7.27	2022-05-23
GigaGAN (Zero-shot, 64x64)	Scaling up GANs for Text-to-Image Synthesis	7.28	2023-03-09
StyleGAN-T (Zero-shot, 64x64)	StyleGAN-T: Unlocking the Power of GANs for Fast …	7.30	2023-01-23
Make-a-Scene (unfiltered)	Make-A-Scene: Scene-Based Text-to-Image Generatio…	7.55	2022-03-24
Kandinsky	Kandinsky: an Improved Text-to-Image Synthesis wi…	8.03	2023-10-05
Lafite	LAFITE: Towards Language-Free Training for Text-t…	8.12	2021-11-27
SiD-LSG (Data-free distillation, zero-shot FID)	Long and Short Guidance in Score identity Distill…	8.15	2024-06-03
simple diffusion (U-ViT)	Simple diffusion: End-to-end diffusion for high r…	8.30	2023-01-26
GigaGAN (Zero-shot, 256x256)	Scaling up GANs for Text-to-Image Synthesis	9.09	2023-03-09
XMC-GAN (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	9.30	2021-11-24
XMC-GAN	Cross-Modal Contrastive Learning for Text-to-Imag…	9.33	2021-01-12
ChatPainter	ChatPainter: Improving Text to Image Generation u…	9.74	2018-02-22
StackGAN + VICTR	VICTR: Visual Information Captured Text Represent…	10.38	2020-10-07
DALL-E 2	Hierarchical Text-Conditional Image Generation wi…	10.39	2022-04-13
Corgi-Semi	Shifted Diffusion for Text-to-image Generation	10.60	2022-11-24
Corgi	Shifted Diffusion for Text-to-image Generation	10.88	2022-11-24
TR0N (StyleGAN-XL, LAION2BCLIP, BLIP-2, zero-shot)	TR0N: Translator Networks for 0-Shot Plug-and-Pla…	10.90	2023-04-26
Make-a-Scene (unfiltered)	Make-A-Scene: Scene-Based Text-to-Image Generatio…	11.84	2022-03-24
GLIDE (zero-shot)	GLIDE: Towards Photorealistic Image Generation an…	12.24	2021-12-20
KNN-Diffusion	KNN-Diffusion: Image Generation via Large-Scale R…	12.50	2022-04-06
GALIP (CC12m)	GALIP: Generative Adversarial CLIPs for Text-to-I…	12.54	2023-01-30
Latent Diffusion (LDM-KL-8-G)	High-Resolution Image Synthesis with Latent Diffu…	12.63	2021-12-20
Stable Diffusion	Retrieval-Augmented Multimodal Language Modeling	12.63	2022-11-22
NÜWA (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	12.90	2021-11-24
VQ-Diffusion-F	Vector Quantized Diffusion Model for Text-to-Imag…	13.86	2021-11-29
StyleGAN-T (Zero-shot, 256x256)	StyleGAN-T: Unlocking the Power of GANs for Fast …	13.90	2023-01-23
RAT-GAN	Recurrent Affine Transformation for Text-to-image…	14.60	2022-04-22
ERNIE-ViLG	ERNIE-ViLG: Unified Generative Pre-training for B…	14.70	2021-12-31
RA-CM3 (2.7B)	Retrieval-Augmented Multimodal Language Modeling	15.70	2022-11-22
CogView2(6B, Finetuned)	CogView2: Faster and Better Text-to-Image Generat…	17.70	2022-04-28
DF-GAN (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	18.70	2021-11-24
VQ-Diffusion-B	Vector Quantized Diffusion Model for Text-to-Imag…	19.75	2021-11-29
DM-GAN+CL	Improving Text-to-Image Synthesis Using Contrasti…	20.79	2021-07-06
FuseDream (few-shot, k=5)	FuseDream: Training-Free Text-to-Image Generation…	21.16	2021-12-02
FuseDream (k=5, 256)	FuseDream: Training-Free Text-to-Image Generation…	21.16	2021-12-02
FuseDream (k=10, 256)	FuseDream: Training-Free Text-to-Image Generation…	21.89	2021-12-02
AttnGAN+CL	Improving Text-to-Image Synthesis Using Contrasti…	23.93	2021-07-06
CogView2(6B, Finetuned)	CogView2: Faster and Better Text-to-Image Generat…	24.00	2022-04-28
OP-GAN	Semantic Object Accuracy for Generative Text-to-I…	24.70	2019-10-29
DM-GAN (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	26.00	2021-11-24
Lafite (zero-shot)	LAFITE: Towards Language-Free Training for Text-t…	26.94	2021-11-27
CogView	CogView: Mastering Text-to-Image Generation via T…	27.10	2021-05-26
CogView (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	27.10	2021-11-24
DALL-E (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	27.50	2021-11-24
DALL-E (12B)	Retrieval-Augmented Multimodal Language Modeling	28.00	2022-11-22
AttnGAN + VICTR	VICTR: Visual Information Captured Text Represent…	29.26	2020-10-07
Vanilla CM3	Retrieval-Augmented Multimodal Language Modeling	29.50	2022-11-22
DM-GAN + VICTR	VICTR: Visual Information Captured Text Represent…	32.37	2020-10-07
DM-GAN	DM-GAN: Dynamic Memory Generative Adversarial Net…	32.64	2019-04-02
AttnGAN + OP	Generating Multiple Objects at Spatially Distinct…	33.35	2019-01-03
AttnGAN (256 x 256)	NÜWA: Visual Synthesis Pre-training for Neural vi…	35.20	2021-11-24
L-Verse-CC	L-Verse: Bidirectional Generation Between Image a…	37.20	2021-11-22
L-Verse	L-Verse: Bidirectional Generation Between Image a…	45.80	2021-11-22
StackGAN + OP	Generating Multiple Objects at Spatially Distinct…	55.30	2019-01-03
StackGAN-v1	StackGAN++: Realistic Image Synthesis with Stacke…	74.05	2017-10-19

COCO (Common Objects in Context)

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (69)