ML Research Wiki / Benchmarks / Video Instance Segmentation / YouTube-VIS 2021

YouTube-VIS 2021

Video Instance Segmentation Benchmark

Performance Over Time

📊 Showing 26 results | 📏 Metric: mask AP

Top Performing Models

Rank	Model	Paper	mask AP	Date	Code
1	CAVIS(VIT-L, Offline) 📚	Context-Aware Video Instance Segmentation	87.30	2024-07-03	📦 Seung-Hun-Lee/CAVIS
2	DVIS++(VIT-L, Offline) 📚	DVIS++: Improved Decoupled Framework for Universal Video Segmentation	86.70	2023-12-20	📦 zhang-tao-whu/DVIS_Plus
3	DVIS-DAQ(VIT-L, Offline) 📚	DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries	86.10	2024-03-29	📦 zhang-tao-whu/DVIS 📦 zhang-tao-whu/DVIS_Plus 📦 skyworkai/daq-vs
4	RefineVIS (Swin-L, online) 📚	RefineVIS: Video Instance Segmentation with Temporal Attention Refinement	84.10	2023-06-07	-
5	DVIS(Swin-L) 📚	DVIS: Decoupled Video Instance Segmentation Framework	83.00	2023-06-06	📦 zhang-tao-whu/DVIS
6	DVIS++(VIT-L, Online) 📚	DVIS++: Improved Decoupled Framework for Universal Video Segmentation	82.70	2023-12-20	📦 zhang-tao-whu/DVIS_Plus
7	NOVIS (Swin-L) 📚	NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation	82.00	2023-08-29	-
8	TarViS (Swin-L) 📚	TarViS: A Unified Approach for Target-based Video Segmentation	81.40	2023-01-06	📦 Ali2500/TarViS
9	GRAtt-VIS (Swin-L) 📚	GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation	81.30	2023-05-26	📦 tanveer81/grattvis
10	GenVIS (Swin-L) 📚	A Generalized Framework for Video Instance Segmentation	80.90	2022-11-16	📦 miranheo/genvis

All Papers (26)

Context-Aware Video Instance Segmentation

2024

CAVIS(VIT-L, Offline)

Seung-Hun-Lee/CAVIS

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

2023

DVIS++(VIT-L, Offline)

zhang-tao-whu/DVIS_Plus

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries

2024

DVIS-DAQ(VIT-L, Offline)

zhang-tao-whu/DVIS zhang-tao-whu/DVIS_Plus skyworkai/daq-vs

RefineVIS: Video Instance Segmentation with Temporal Attention Refinement

2023

RefineVIS (Swin-L, online)

DVIS: Decoupled Video Instance Segmentation Framework

2023

DVIS(Swin-L)

zhang-tao-whu/DVIS

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

2023

DVIS++(VIT-L, Online)

zhang-tao-whu/DVIS_Plus

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation

2023

NOVIS (Swin-L)

TarViS: A Unified Approach for Target-based Video Segmentation

2023

TarViS (Swin-L)

Ali2500/TarViS

GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation

2023

GRAtt-VIS (Swin-L)

tanveer81/grattvis

A Generalized Framework for Video Instance Segmentation

2022

GenVIS (Swin-L)

miranheo/genvis

In Defense of Online Models for Video Instance Segmentation

2022

IDOL (Swin-L)

wjf5203/vnext mkimhi/RISE

MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos

2023

MDQE(Swin-L)

minghanli/mdqe_cvpr2023

VITA: Video Instance Segmentation via Object Token Association

2022

VITA (Swin-L)

sukjunhwang/vita

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

2023

Tube-Link(Swin-L)

lxtgh/tube-link

UniVS: Unified and Universal Video Segmentation with Prompts as Queries

2024

UniVS(Swin-L)

minghanli/univs

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

2022

DeVIS (Swin-L)

acaelles97/devis

MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training

2022

MinVIS (Swin-L)

nvlabs/minvis kimhanjung/visage

BoxVIS: Video Instance Segmentation with Box Annotations

2023

BoxVIS(Swin-L & Box-sup)

minghanli/boxvis

InstanceFormer: An Online Video Instance Segmentation Framework

2022

InstanceFormer (Swin-L)

rajatkoner08/instanceformer

TarViS: A Unified Approach for Target-based Video Segmentation

2023

TarViS (Swin-T)

Ali2500/TarViS

TarViS: A Unified Approach for Target-based Video Segmentation

2023

TarViS (ResNet-50)

Ali2500/TarViS

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation

2023

NOVIS (ResNet-50)

GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation

2023

GRAtt-VIS (ResNet-50)

tanveer81/grattvis

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

2022

DeVIS (ResNet-50)

acaelles97/devis

InstanceFormer: An Online Video Instance Segmentation Framework

2022

InstanceFormer (ResNet-50)

rajatkoner08/instanceformer

Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation

2021

STMask(R101-DCN-FPN)

MinghanLi/STMask

YouTube-VIS 2021

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (26)

Context-Aware Video Instance Segmentation

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries

RefineVIS: Video Instance Segmentation with Temporal Attention Refinement

DVIS: Decoupled Video Instance Segmentation Framework

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation

TarViS: A Unified Approach for Target-based Video Segmentation

GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation

A Generalized Framework for Video Instance Segmentation

In Defense of Online Models for Video Instance Segmentation

MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos

VITA: Video Instance Segmentation via Object Token Association

Tube-Link: A Flexible Cross Tube Framework for Universal Video Segmentation

UniVS: Unified and Universal Video Segmentation with Prompts as Queries

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training

BoxVIS: Video Instance Segmentation with Box Annotations

InstanceFormer: An Online Video Instance Segmentation Framework

TarViS: A Unified Approach for Target-based Video Segmentation

TarViS: A Unified Approach for Target-based Video Segmentation

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation

GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation

DeVIS: Making Deformable Transformers Work for Video Instance Segmentation

InstanceFormer: An Online Video Instance Segmentation Framework

Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation

Model	Paper	mask AP	Date
CAVIS(VIT-L, Offline)	Context-Aware Video Instance Segmentation	87.30	2024-07-03
DVIS++(VIT-L, Offline)	DVIS++: Improved Decoupled Framework for Universa…	86.70	2023-12-20
DVIS-DAQ(VIT-L, Offline)	DVIS-DAQ: Improving Video Segmentation via Dynami…	86.10	2024-03-29
RefineVIS (Swin-L, online)	RefineVIS: Video Instance Segmentation with Tempo…	84.10	2023-06-07
DVIS(Swin-L)	DVIS: Decoupled Video Instance Segmentation Frame…	83.00	2023-06-06
DVIS++(VIT-L, Online)	DVIS++: Improved Decoupled Framework for Universa…	82.70	2023-12-20
NOVIS (Swin-L)	NOVIS: A Case for End-to-End Near-Online Video In…	82.00	2023-08-29
TarViS (Swin-L)	TarViS: A Unified Approach for Target-based Video…	81.40	2023-01-06
GRAtt-VIS (Swin-L)	GRAtt-VIS: Gated Residual Attention for Auto Rect…	81.30	2023-05-26
GenVIS (Swin-L)	A Generalized Framework for Video Instance Segmen…	80.90	2022-11-16
IDOL (Swin-L)	In Defense of Online Models for Video Instance Se…	80.80	2022-07-21
MDQE(Swin-L)	MDQE: Mining Discriminative Query Embeddings to S…	80.70	2023-03-25
VITA (Swin-L)	VITA: Video Instance Segmentation via Object Toke…	80.60	2022-06-09
Tube-Link(Swin-L)	Tube-Link: A Flexible Cross Tube Framework for Un…	79.40	2023-03-22
UniVS(Swin-L)	UniVS: Unified and Universal Video Segmentation w…	79.40	2024-02-28
DeVIS (Swin-L)	DeVIS: Making Deformable Transformers Work for Vi…	77.70	2022-07-22
MinVIS (Swin-L)	MinVIS: A Minimal Video Instance Segmentation Fra…	76.60	2022-08-03
BoxVIS(Swin-L & Box-sup)	BoxVIS: Video Instance Segmentation with Box Anno…	76.40	2023-03-26
InstanceFormer (Swin-L)	InstanceFormer: An Online Video Instance Segmenta…	73.70	2022-08-22
TarViS (Swin-T)	TarViS: A Unified Approach for Target-based Video…	71.60	2023-01-06
TarViS (ResNet-50)	TarViS: A Unified Approach for Target-based Video…	69.60	2023-01-06
NOVIS (ResNet-50)	NOVIS: A Case for End-to-End Near-Online Video In…	69.40	2023-08-29
GRAtt-VIS (ResNet-50)	GRAtt-VIS: Gated Residual Attention for Auto Rect…	69.20	2023-05-26
DeVIS (ResNet-50)	DeVIS: Making Deformable Transformers Work for Vi…	66.80	2022-07-22
InstanceFormer (ResNet-50)	InstanceFormer: An Online Video Instance Segmenta…	62.40	2022-08-22
STMask(R101-DCN-FPN)	Spatial Feature Calibration and Temporal Fusion f…	54.00	2021-04-06