ML Research Wiki / Benchmarks / Action Recognition / ActivityNet

ActivityNet

Action Recognition Benchmark

Performance Over Time

📊 Showing 16 results | 📏 Metric: mAP

Top Performing Models

Rank	Model	Paper	mAP	Date	Code
1	Text4Vis (w/ ViT-L)	Revisiting Classifier: Transferring Vision-Language Models for Video Recognition	96.90	2022-07-04	📦 whwu95/Cap4Video 📦 whwu95/text4vis 📦 whwu95/GPT4Vis 📦 whwu95/BIKE 📦 whwu95/ATM
2	BIKE	Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models	96.10	2022-12-31	📦 whwu95/Cap4Video 📦 whwu95/text4vis 📦 whwu95/GPT4Vis 📦 whwu95/BIKE 📦 whwu95/ATM
3	InternVideo2-6B 📚	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	95.90	2024-03-22	📦 opengvlab/internvideo 📦 opengvlab/internvideo2
4	NSNet (w/ Swin-L)	NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition	94.30	2022-07-21	-
5	TSQNet (w/ Swin-L)	Temporal Saliency Query Network for Efficient Video Recognition	93.70	2022-07-21	-
6	DSANet (w/ 3D ResNet50)	DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning	90.50	2021-05-25	📦 whwu95/DSANet
7	MARL (w/ SEResNeXt-152)	Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition	90.05	2019-07-31	-
8	ListenToLook	Listen to Look: Action Recognition by Previewing Audio	89.90	2019-12-10	📦 facebookresearch/Listen-to-Look
9	DSN	Dynamic Sampling Networks for Efficient Action Recognition in Videos	87.90	2020-06-28	-
10	SMART	SMART Frame Selection for Action Recognition	84.40	2020-12-19	-

All Papers (16)

Revisiting Classifier: Transferring Vision-Language Models for Video Recognition

2022

Text4Vis (w/ ViT-L)

whwu95/Cap4Video whwu95/text4vis

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

2022

BIKE

whwu95/Cap4Video whwu95/text4vis

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

2024

InternVideo2-6B

opengvlab/internvideo opengvlab/internvideo2

NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition

2022

NSNet (w/ Swin-L)

Temporal Saliency Query Network for Efficient Video Recognition

2022

TSQNet (w/ Swin-L)

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning

2021

DSANet (w/ 3D ResNet50)

whwu95/DSANet

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

2019

MARL (w/ SEResNeXt-152)

Listen to Look: Action Recognition by Previewing Audio

2019

ListenToLook

facebookresearch/Listen-to-Look

Dynamic Sampling Networks for Efficient Action Recognition in Videos

2020

DSN

SMART Frame Selection for Action Recognition

2020

SMART

2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition

2020

Ada3D

Fine-grained Video Categorization with Redundancy Reduction Attention

2018

RRA

Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

2017

P3D

qijiezhao/pseudo-3d-pytorch ZhaofanQiu/pseudo-3d-residual-networks

Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web

2015

VGG19 + 393K webcam images

Towards Universal Representation for Unseen Action Recognition

2018

CD-UAR

Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web

2015

VGG19

ActivityNet

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (16)

Revisiting Classifier: Transferring Vision-Language Models for Video Recognition

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-trained Vision-Language Models

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition

Temporal Saliency Query Network for Efficient Video Recognition

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning

Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition

Listen to Look: Action Recognition by Previewing Audio

Dynamic Sampling Networks for Efficient Action Recognition in Videos

SMART Frame Selection for Action Recognition

2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition

Fine-grained Video Categorization with Redundancy Reduction Attention

Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web

Towards Universal Representation for Unseen Action Recognition

Do Less and Achieve More: Training CNNs for Action Recognition Utilizing Action Images from the Web

Model	Paper	mAP	Date
Text4Vis (w/ ViT-L)	Revisiting Classifier: Transferring Vision-Langua…	96.90	2022-07-04
BIKE	Bidirectional Cross-Modal Knowledge Exploration f…	96.10	2022-12-31
InternVideo2-6B	InternVideo2: Scaling Foundation Models for Multi…	95.90	2024-03-22
NSNet (w/ Swin-L)	NSNet: Non-saliency Suppression Sampler for Effic…	94.30	2022-07-21
TSQNet (w/ Swin-L)	Temporal Saliency Query Network for Efficient Vid…	93.70	2022-07-21
DSANet (w/ 3D ResNet50)	DSANet: Dynamic Segment Aggregation Network for V…	90.50	2021-05-25
MARL (w/ SEResNeXt-152)	Multi-Agent Reinforcement Learning Based Frame Sa…	90.05	2019-07-31
ListenToLook	Listen to Look: Action Recognition by Previewing …	89.90	2019-12-10
DSN	Dynamic Sampling Networks for Efficient Action Re…	87.90	2020-06-28
SMART	SMART Frame Selection for Action Recognition	84.40	2020-12-19
Ada3D	2D or not 2D? Adaptive 3D Convolution Selection f…	84.00	2020-12-29
RRA	Fine-grained Video Categorization with Redundancy…	83.40	2018-10-26
P3D	Learning Spatio-Temporal Representation with Pseu…	78.90	2017-11-28
VGG19 + 393K webcam images	Do Less and Achieve More: Training CNNs for Actio…	53.80	2015-12-22
CD-UAR	Towards Universal Representation for Unseen Actio…	53.80	2018-03-22
VGG19	Do Less and Achieve More: Training CNNs for Actio…	52.30	2015-12-22