ML Research Wiki / Benchmarks / Text-to-Image Generation / GenEval

GenEval

Text-to-Image Generation Benchmark

Performance Over Time

📊 Showing 20 results | 📏 Metric: Overall

Top Performing Models

Rank	Model	Paper	Overall	Date	Code
1	SD3.5-Medium+Flow-GRPO	Flow-GRPO: Training Flow Matching Models via Online RL	0.95	2025-05-08	📦 yifan123/flow_grpo
2	UniWorld-V1 (Rewrite)	UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation	0.84	2025-06-03	📦 PKU-YuanGroup/UniWorld-V1 📦 pku-yuangroup/imgedit
3	MindOmni	MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO	0.83	2025-05-19	📦 easonxiao-888/mindomni
4	UniWorld-V1	UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation	0.80	2025-06-03	📦 PKU-YuanGroup/UniWorld-V1 📦 pku-yuangroup/imgedit
5	SANA-1.5 4.8B (+ Inference Scaling)	SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer	0.80	2025-01-30	📦 NVlabs/Sana
6	Janus-Pro-7B	Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling	0.80	2025-01-29	📦 deepseek-ai/janus
7	MetaQuery-XL (Rewrite)	Transfer between Modalities with MetaQueries	0.80	2025-04-08	-
8	Show-o [xie2024show] PARM It. DPO PARM	Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step	0.77	2025-01-23	📦 ziyuguo99/image-generation-cot 📦 caraj7/t2i-r1
9	Show-o [xie2024show] Ft. ORM It. DPO Ft. ORM	Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step	0.75	2025-01-23	📦 ziyuguo99/image-generation-cot 📦 caraj7/t2i-r1
10	Janus-Pro-1B	Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling	0.73	2025-01-29	📦 deepseek-ai/janus

All Papers (20)

Flow-GRPO: Training Flow Matching Models via Online RL

2025

SD3.5-Medium+Flow-GRPO

yifan123/flow_grpo

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

2025

UniWorld-V1 (Rewrite)

PKU-YuanGroup/UniWorld-V1 pku-yuangroup/imgedit

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

2025

MindOmni

easonxiao-888/mindomni

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

2025

UniWorld-V1

PKU-YuanGroup/UniWorld-V1 pku-yuangroup/imgedit

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

2025

SANA-1.5 4.8B (+ Inference Scaling)

NVlabs/Sana

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

2025

Janus-Pro-7B

deepseek-ai/janus

Transfer between Modalities with MetaQueries

2025

MetaQuery-XL (Rewrite)

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

2025

Show-o [xie2024show] PARM It. DPO PARM

ziyuguo99/image-generation-cot caraj7/t2i-r1

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

2025

Show-o [xie2024show] Ft. ORM It. DPO Ft. ORM

ziyuguo99/image-generation-cot caraj7/t2i-r1

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

2025

Janus-Pro-1B

deepseek-ai/janus

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

2025

Lumina-Image 2.0

alpha-vllm/lumina-image-2.0

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

2025

SANA-1.5 4.8B

NVlabs/Sana

Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

2024

Fluid (10.5B)

xianfengwu01/lightgen

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

2024

Und. and Gen. Show-o (Ours)

showlab/show-o

Emu3: Next-Token Prediction is All You Need

2024

Emu3

baaivision/emu3 flagopen/flagscale

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

2024

SnapGen

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

2024

JanusFlow

deepseek-ai/janus

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

2024

PixArt-Σ

PixArt-alpha/PixArt-sigma mindspore-lab/mindone

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

2025

DiffMoE-E16-T2I-Flow (w SFT)

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

2024

PIXART-δ

PixArt-alpha/PixArt-alpha

GenEval

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (20)

Flow-GRPO: Training Flow Matching Models via Online RL

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

Transfer between Modalities with MetaQueries

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Emu3: Next-Token Prediction is All You Need

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

Model	Paper	Overall	Date
SD3.5-Medium+Flow-GRPO	Flow-GRPO: Training Flow Matching Models via Onli…	0.95	2025-05-08
UniWorld-V1 (Rewrite)	UniWorld-V1: High-Resolution Semantic Encoders fo…	0.84	2025-06-03
MindOmni	MindOmni: Unleashing Reasoning Generation in Visi…	0.83	2025-05-19
UniWorld-V1	UniWorld-V1: High-Resolution Semantic Encoders fo…	0.80	2025-06-03
SANA-1.5 4.8B (+ Inference Scaling)	SANA 1.5: Efficient Scaling of Training-Time and …	0.80	2025-01-30
Janus-Pro-7B	Janus-Pro: Unified Multimodal Understanding and G…	0.80	2025-01-29
MetaQuery-XL (Rewrite)	Transfer between Modalities with MetaQueries	0.80	2025-04-08
Show-o [xie2024show] PARM It. DPO PARM	Can We Generate Images with CoT? Let's Verify and…	0.77	2025-01-23
Show-o [xie2024show] Ft. ORM It. DPO Ft. ORM	Can We Generate Images with CoT? Let's Verify and…	0.75	2025-01-23
Janus-Pro-1B	Janus-Pro: Unified Multimodal Understanding and G…	0.73	2025-01-29
Lumina-Image 2.0	Lumina-Image 2.0: A Unified and Efficient Image G…	0.73	2025-03-27
SANA-1.5 4.8B	SANA 1.5: Efficient Scaling of Training-Time and …	0.72	2025-01-30
Fluid (10.5B)	Fluid: Scaling Autoregressive Text-to-image Gener…	0.69	2024-10-17
Und. and Gen. Show-o (Ours)	Show-o: One Single Transformer to Unify Multimoda…	0.68	2024-08-22
Emu3	Emu3: Next-Token Prediction is All You Need	0.66	2024-09-27
SnapGen	SnapGen: Taming High-Resolution Text-to-Image Mod…	0.66	2024-12-12
JanusFlow	JanusFlow: Harmonizing Autoregression and Rectifi…	0.63	2024-11-12
PixArt-Σ	PixArt-Σ: Weak-to-Strong Training of Diffusion Tr…	0.53	2024-03-07
DiffMoE-E16-T2I-Flow (w SFT)	DiffMoE: Dynamic Token Selection for Scalable Dif…	0.51	2025-03-18
PIXART-δ	PIXART-δ: Fast and Controllable Image Generation …	0.00	2024-01-10