ML Research Wiki / Benchmarks / Action Segmentation / COIN

COIN

Action Segmentation Benchmark

Performance Over Time

📊 Showing 9 results | 📏 Metric: Frame accuracy

Top Performing Models

Rank	Model	Paper	Frame accuracy	Date	Code
1	UnLoc-L	UnLoc: A Unified Framework for Video Localization Tasks	72.80	2023-08-21	📦 google-research/scenic
2	Univl 📚	UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation	70.00	2020-02-15	📦 microsoft/UniVL 📦 wqliu657/UniVL
3	Norton 📚	Multi-granularity Correspondence Learning from Long-term Noisy Videos	69.80	2024-01-30	📦 XLearning-SCU/2024-ICLR-Norton
4	VideoClip 📚	VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding	68.70	2021-09-28	📦 facebookresearch/fairseq 📦 pytorch/fairseq
5	VLM 📚	VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	68.40	2021-05-20	📦 pytorch/fairseq
6	TACo	TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment	68.40	2021-08-23	-
7	MIL-NCE	End-to-End Learning of Visual Representations from Uncurated Instructional Videos	61.00	2019-12-13	📦 antoine77340/MIL-NCE_HowTo100M 📦 antoine77340/milnce_howto100m 📦 antoine77340/S3D_HowTo100M 📦 linjieli222/hero_video_feature_extractor
8	ActBERT	ActBERT: Learning Global-Local Video-Text Representations	57.00	2020-11-14	📦 PaddlePaddle/PaddleVideo
9	CBT	End-to-End Learning of Visual Representations from Uncurated Instructional Videos	53.90	2019-12-13	📦 antoine77340/MIL-NCE_HowTo100M 📦 antoine77340/milnce_howto100m 📦 antoine77340/S3D_HowTo100M 📦 linjieli222/hero_video_feature_extractor

All Papers (9)

UnLoc: A Unified Framework for Video Localization Tasks

2023

UnLoc-L

google-research/scenic

UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

2020

Univl

microsoft/UniVL wqliu657/UniVL

Multi-granularity Correspondence Learning from Long-term Noisy Videos

2024

Norton

XLearning-SCU/2024-ICLR-Norton

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

2021

VideoClip

facebookresearch/fairseq pytorch/fairseq

VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding

2021

VLM

pytorch/fairseq

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

2021

TACo

End-to-End Learning of Visual Representations from Uncurated Instructional Videos

2019

MIL-NCE

antoine77340/MIL-NCE_HowTo100M antoine77340/milnce_howto100m

ActBERT: Learning Global-Local Video-Text Representations

2020

ActBERT

PaddlePaddle/PaddleVideo

End-to-End Learning of Visual Representations from Uncurated Instructional Videos

2019

CBT

antoine77340/MIL-NCE_HowTo100M antoine77340/milnce_howto100m

COIN

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (9)

UnLoc: A Unified Framework for Video Localization Tasks

UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Multi-granularity Correspondence Learning from Long-term Noisy Videos

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

End-to-End Learning of Visual Representations from Uncurated Instructional Videos

ActBERT: Learning Global-Local Video-Text Representations

End-to-End Learning of Visual Representations from Uncurated Instructional Videos

Model	Paper	Frame accuracy	Date
UnLoc-L	UnLoc: A Unified Framework for Video Localization…	72.80	2023-08-21
Univl	UniVL: A Unified Video and Language Pre-Training …	70.00	2020-02-15
Norton	Multi-granularity Correspondence Learning from Lo…	69.80	2024-01-30
VideoClip	VideoCLIP: Contrastive Pre-training for Zero-shot…	68.70	2021-09-28
VLM	VLM: Task-agnostic Video-Language Model Pre-train…	68.40	2021-05-20
TACo	TACo: Token-aware Cascade Contrastive Learning fo…	68.40	2021-08-23
MIL-NCE	End-to-End Learning of Visual Representations fro…	61.00	2019-12-13
ActBERT	ActBERT: Learning Global-Local Video-Text Represe…	57.00	2020-11-14
CBT	End-to-End Learning of Visual Representations fro…	53.90	2019-12-13