ML Research Wiki / Benchmarks / Referring Expression Segmentation / A2D Sentences

A2D Sentences

Referring Expression Segmentation Benchmark

Performance Over Time

📊 Showing 20 results | 📏 Metric: AP

Top Performing Models

Rank	Model	Paper	AP	Date	Code
1	ClawCraneNet	ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation	0.66	2021-03-19	-
2	RefVOS	RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation	0.60	2020-10-01	📦 miriambellver/refvos 📦 imatge-upc/refvos
3	SgMg (Video-Swin-B) 📚	Spectrum-guided Multi-granularity Referring Video Object Segmentation	0.59	2023-07-25	📦 bo-miao/sgmg
4	SOC (Video-Swin-B) 📚	SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	0.57	2023-05-26	📦 RobertLuo1/NeurIPS2023_SOC
5	ReferFormer (Video-Swin-B) 📚	Language as Queries for Referring Video Object Segmentation	0.55	2022-01-03	📦 wjn922/referformer
6	SOC (Video-Swin-T)	SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation	0.50	2023-05-26	📦 RobertLuo1/NeurIPS2023_SOC
7	MANET	Multi-Attention Network for Compressed Video Referring Object Segmentation	0.47	2022-07-26	📦 dexianghong/manet
8	VLIDE	Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation	0.47	2022-03-30	-
9	Locater	Local-Global Context Aware Transformer for Language-Guided Video Segmentation	0.47	2022-03-18	📦 leonnnop/locater
10	MTTR (w=10)	End-to-End Referring Video Object Segmentation with Multimodal Transformers	0.46	2021-11-29	📦 mttr2021/MTTR 📦 JerryX1110/awesome-rvos

All Papers (20)

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

2021

ClawCraneNet

RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation

2020

RefVOS

miriambellver/refvos imatge-upc/refvos

Spectrum-guided Multi-granularity Referring Video Object Segmentation

2023

SgMg (Video-Swin-B)

bo-miao/sgmg

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation

2023

SOC (Video-Swin-B)

RobertLuo1/NeurIPS2023_SOC

Language as Queries for Referring Video Object Segmentation

2022

ReferFormer (Video-Swin-B)

wjn922/referformer

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation

2023

SOC (Video-Swin-T)

RobertLuo1/NeurIPS2023_SOC

Multi-Attention Network for Compressed Video Referring Object Segmentation

2022

MANET

dexianghong/manet

Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation

2022

VLIDE

Local-Global Context Aware Transformer for Language-Guided Video Segmentation

2022

Locater

leonnnop/locater

End-to-End Referring Video Object Segmentation with Multimodal Transformers

2021

MTTR (w=10)

mttr2021/MTTR JerryX1110/awesome-rvos

End-to-End Referring Video Object Segmentation with Multimodal Transformers

2021

MTTR (w=8)

mttr2021/MTTR JerryX1110/awesome-rvos

Referring Segmentation in Images and Videos with Cross-Modal Self-Attention Network

2021

CMSA+CFSA

Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation

2022

mmmmtbvs

wangbo-zhao/2022cvpr-mmmmtbvs

Cross-Modal Progressive Comprehension for Referring Segmentation

2021

CMPC-V (I3D)

spyflying/CMPC-Refseg

Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation

2021

Hui et al.

Actor and Action Modular Network for Text-based Video Segmentation

2020

AAMN

Cross-Modal Progressive Comprehension for Referring Segmentation

2021

CMPC-V (R2D)

spyflying/CMPC-Refseg

Actor and Action Video Segmentation from a Sentence

2018

Gavriluyk el al. (Optical flow)

JerryX1110/awesome-rvos

Actor and Action Video Segmentation from a Sentence

2018

Gavriluyk el al.

JerryX1110/awesome-rvos

Segmentation from Natural Language Expressions

2016

Hu et al.

ronghanghu/text_objseg ssharpe42/NLQAC_ObjSeg

A2D Sentences

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (20)

ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation

RefVOS: A Closer Look at Referring Expressions for Video Object Segmentation

Spectrum-guided Multi-granularity Referring Video Object Segmentation

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation

Language as Queries for Referring Video Object Segmentation

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation

Multi-Attention Network for Compressed Video Referring Object Segmentation

Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation

Local-Global Context Aware Transformer for Language-Guided Video Segmentation

End-to-End Referring Video Object Segmentation with Multimodal Transformers

End-to-End Referring Video Object Segmentation with Multimodal Transformers

Referring Segmentation in Images and Videos with Cross-Modal Self-Attention Network

Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation

Cross-Modal Progressive Comprehension for Referring Segmentation

Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor Segmentation

Actor and Action Modular Network for Text-based Video Segmentation

Cross-Modal Progressive Comprehension for Referring Segmentation

Actor and Action Video Segmentation from a Sentence

Actor and Action Video Segmentation from a Sentence

Segmentation from Natural Language Expressions

Model	Paper	AP	Date
ClawCraneNet	ClawCraneNet: Leveraging Object-level Relation fo…	0.66	2021-03-19
RefVOS	RefVOS: A Closer Look at Referring Expressions fo…	0.60	2020-10-01
SgMg (Video-Swin-B)	Spectrum-guided Multi-granularity Referring Video…	0.59	2023-07-25
SOC (Video-Swin-B)	SOC: Semantic-Assisted Object Cluster for Referri…	0.57	2023-05-26
ReferFormer (Video-Swin-B)	Language as Queries for Referring Video Object Se…	0.55	2022-01-03
SOC (Video-Swin-T)	SOC: Semantic-Assisted Object Cluster for Referri…	0.50	2023-05-26
MANET	Multi-Attention Network for Compressed Video Refe…	0.47	2022-07-26
VLIDE	Deeply Interleaved Two-Stream Encoder for Referri…	0.47	2022-03-30
Locater	Local-Global Context Aware Transformer for Langua…	0.47	2022-03-18
MTTR (w=10)	End-to-End Referring Video Object Segmentation wi…	0.46	2021-11-29
MTTR (w=8)	End-to-End Referring Video Object Segmentation wi…	0.45	2021-11-29
CMSA+CFSA	Referring Segmentation in Images and Videos with …	0.43	2021-02-09
mmmmtbvs	Modeling Motion with Multi-Modal Features for Tex…	0.42	2022-04-06
CMPC-V (I3D)	Cross-Modal Progressive Comprehension for Referri…	0.40	2021-05-15
Hui et al.	Collaborative Spatial-Temporal Modeling for Langu…	0.40	2021-05-14
AAMN	Actor and Action Modular Network for Text-based V…	0.40	2020-11-02
CMPC-V (R2D)	Cross-Modal Progressive Comprehension for Referri…	0.35	2021-05-15
Gavriluyk el al. (Optical flow)	Actor and Action Video Segmentation from a Senten…	0.22	2018-03-20
Gavriluyk el al.	Actor and Action Video Segmentation from a Senten…	0.20	2018-03-20
Hu et al.	Segmentation from Natural Language Expressions	0.13	2016-03-20