ML Research Wiki / Benchmarks / Robot Manipulation / CALVIN

CALVIN

Robot Manipulation Benchmark

Performance Over Time

📊 Showing 19 results | 📏 Metric: avg. sequence length (D to D)

Top Performing Models

Rank	Model	Paper	avg. sequence length (D to D)	Date	Code
1	DreamVLA	DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge	4.44	2025-07-06	📦 Zhangwenyao1/DreamVLA
2	VPP	Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations	4.29	2024-12-19	📦 roboterax/video-prediction-policy
3	RoboVLMs	Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models	4.25	2024-12-18	📦 Robot-VLAs/RoboVLMs
4	Openhelix	OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation	4.08	2025-05-06	📦 OpenHelix-robot/OpenHelix
5	UP-VLA	UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent	4.08	2025-01-31	-
6	GR-MG	GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal-Conditioned Policy	4.04	2024-08-26	📦 bytedance/GR-MG
7	MoDE	Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning	4.01	2024-12-17	📦 intuitive-robots/MoDE_Diffusion_Policy
8	RoboUniView	RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation	3.86	2024-06-27	📦 liufanfanlff/robouniview
9	UniVLA	UniVLA: Learning to Act Anywhere with Task-centric Latent Actions	3.80	2025-05-09	📦 opendrivelab/univla
10	RoboDual	Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation	3.66	2024-10-10	-

All Papers (19)

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

2025

DreamVLA

Zhangwenyao1/DreamVLA

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

2024

VPP

roboterax/video-prediction-policy

Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

2024

RoboVLMs

Robot-VLAs/RoboVLMs

OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

2025

Openhelix

OpenHelix-robot/OpenHelix

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

2025

UP-VLA

GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal-Conditioned Policy

2024

GR-MG

bytedance/GR-MG

Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

2024

MoDE

intuitive-robots/MoDE_Diffusion_Policy

RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation

2024

RoboUniView

liufanfanlff/robouniview

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

2025

UniVLA

opendrivelab/univla

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

2024

RoboDual

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation

2024

VidMan

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

2024

3DDA

nickgkan/3d_diffuser_actor

OpenVLA: An Open-Source Vision-Language-Action Model

2024

OpenVLA

openvla/openvla stanford-iliad/openvla-mini pie33000/OpenVLA

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

2024

3D Diffusor Actor

nickgkan/3d_diffuser_actor

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

2023

GR-1

bytedance/gr-1 bytedance/GR-MG GR1-Manipulation/GR-1

Vision-Language Foundation Models as Effective Robot Imitators

2023

Roboflamingo

From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control

2024

LCB

Learning Universal Policies via Text-Guided Video Generation

2023

Uni-Pi

RT-1: Robotics Transformer for Real-World Control at Scale

2022

RT-1

google-research/robotics_transformer

CALVIN

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (19)

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal-Conditioned Policy

Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation

UniVLA: Learning to Act Anywhere with Task-centric Latent Actions

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

OpenVLA: An Open-Source Vision-Language-Action Model

3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation

Vision-Language Foundation Models as Effective Robot Imitators

From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control

Learning Universal Policies via Text-Guided Video Generation

RT-1: Robotics Transformer for Real-World Control at Scale

Model	Paper	avg. sequence length (D to D)	Date
DreamVLA	DreamVLA: A Vision-Language-Action Model Dreamed …	4.44	2025-07-06
VPP	Video Prediction Policy: A Generalist Robot Polic…	4.29	2024-12-19
RoboVLMs	Towards Generalist Robot Policies: What Matters i…	4.25	2024-12-18
Openhelix	OpenHelix: A Short Survey, Empirical Analysis, an…	4.08	2025-05-06
UP-VLA	UP-VLA: A Unified Understanding and Prediction Mo…	4.08	2025-01-31
GR-MG	GR-MG: Leveraging Partially Annotated Data via Mu…	4.04	2024-08-26
MoDE	Efficient Diffusion Transformer Policies with Mix…	4.01	2024-12-17
RoboUniView	RoboUniView: Visual-Language Model with Unified V…	3.86	2024-06-27
UniVLA	UniVLA: Learning to Act Anywhere with Task-centri…	3.80	2025-05-09
RoboDual	Towards Synergistic, Generalized, and Efficient D…	3.66	2024-10-10
VidMan	VidMan: Exploiting Implicit Dynamics from Video D…	3.42	2024-11-14
3DDA	3D Diffuser Actor: Policy Diffusion with 3D Scene…	3.35	2024-02-18
OpenVLA	OpenVLA: An Open-Source Vision-Language-Action Mo…	3.27	2024-06-13
3D Diffusor Actor	3D Diffuser Actor: Policy Diffusion with 3D Scene…	3.27	2024-02-18
GR-1	Unleashing Large-Scale Video Generative Pre-train…	3.06	2023-12-20
Roboflamingo	Vision-Language Foundation Models as Effective Ro…	2.47	2023-11-02
LCB	From LLMs to Actions: Latent Codes as Bridges in …	1.78	2024-05-08
Uni-Pi	Learning Universal Policies via Text-Guided Video…	0.92	2023-01-31
RT-1	RT-1: Robotics Transformer for Real-World Control…	0.90	2022-12-13