ML Research Wiki / Benchmarks / Action Recognition / NTU RGB+D 120

NTU RGB+D 120

Action Recognition Benchmark

Performance Over Time

📊 Showing 16 results | 📏 Metric: Accuracy (Cross-Setup)

Top Performing Models

Rank	Model	Paper	Accuracy (Cross-Setup)	Date	Code
1	PoseC3D (RGB + Pose)	Revisiting Skeleton-based Action Recognition	96.40	2021-04-28	📦 open-mmlab/mmaction2 📦 kennymckormick/pyskl 📦 txyugood/PaddlePoseC3D 📦 sandman002/One-Style-is-All-You-Need-to-Generate-a-Video
2	π-ViT (RGB + Pose) 📚	Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living	96.10	2023-11-30	📦 dominickrei/pi-vit
3	EPP-Net (Parsing + Pose)	Explore Human Parsing Modality for Action Recognition	92.80	2024-01-04	📦 liujf69/EPP-Net-Action
4	STAR-Transformer (RGB + Pose)	STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition	92.70	2022-10-14	-
5	EPAM-Net	EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition	92.40	2024-08-10	📦 ahmed-nady/multimodal-action-recognition
6	π-ViT (RGB only) 📚	Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living	91.90	2023-11-30	📦 dominickrei/pi-vit
7	IPP-Net (Parsing + Pose)	Integrating Human Parsing and Pose Network for Human Action Recognition	91.70	2023-07-16	📦 liujf69/ipp-net-parsing
8	3DA (RGB + Pose)	Cross-Modal Learning with 3D Deformable Attention for Action Recognition	91.40	2022-12-12	-
9	DSTSA-GCN	DSTSA-GCN: Advancing Skeleton-Based Gesture Recognition with Semantic-Aware Spatio-Temporal Topology Modeling	90.97	2025-01-21	📦 HuCui2022/DSTSA-GCN_Gesture
10	VPN++ (RGB + Pose) 📚	VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily Living	90.70	2021-05-17	📦 srijandas07/vpnplusplus

All Papers (16)

Revisiting Skeleton-based Action Recognition

2021

PoseC3D (RGB + Pose)

open-mmlab/mmaction2 kennymckormick/pyskl

Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living

2023

π-ViT (RGB + Pose)

dominickrei/pi-vit

Explore Human Parsing Modality for Action Recognition

2024

EPP-Net (Parsing + Pose)

liujf69/EPP-Net-Action

STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition

2022

STAR-Transformer (RGB + Pose)

EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition

2024

EPAM-Net

ahmed-nady/multimodal-action-recognition

Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living

2023

π-ViT (RGB only)

dominickrei/pi-vit

Integrating Human Parsing and Pose Network for Human Action Recognition

2023

IPP-Net (Parsing + Pose)

liujf69/ipp-net-parsing

Cross-Modal Learning with 3D Deformable Attention for Action Recognition

2022

3DA (RGB + Pose)

DSTSA-GCN: Advancing Skeleton-Based Gesture Recognition with Semantic-Aware Spatio-Temporal Topology Modeling

2025

DSTSA-GCN

HuCui2022/DSTSA-GCN_Gesture

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily Living

2021

VPN++ (RGB + Pose)

srijandas07/vpnplusplus

DVANet: Disentangling View and Action Features for Multi-View Action Recognition

2023

DVANet (RGB only)

NyleSiddiqui/MultiView_Actions

VPN: Learning Video-Pose Embedding for Activities of Daily Living

2020

VPN (RGB + Pose)

srijandas07/VPN

Vertex Feature Encoding and Hierarchical Temporal Modeling in a Spatial-Temporal Graph Convolutional Network for Action Recognition

2019

ST-GCN + AS-GCN w/DH-TCN

Gimme Signals: Discriminative signal encoding for multimodal activity recognition

2020

Gimme Signals (AIS)

raphaelmemmesheimer/gimme_signals_action_recognition airglow/gimme_signals_action_recognition

Skeleton Image Representation for 3D Action Recognition based on Tree Structure and Reference Joints

2019

TSRJI

carloscaetano/skeleton-images

SkeleMotion: A New Representation of Skeleton Joint Sequences Based on Motion Information for 3D Action Recognition

2019

Skelemotion + Yang et al. (skeleton only)

carloscaetano/skeleton-images

NTU RGB+D 120

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (16)

Revisiting Skeleton-based Action Recognition

Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living

Explore Human Parsing Modality for Action Recognition

STAR-Transformer: A Spatio-temporal Cross Attention Transformer for Human Action Recognition

EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition

Just Add $π$! Pose Induced Video Transformers for Understanding Activities of Daily Living

Integrating Human Parsing and Pose Network for Human Action Recognition

Cross-Modal Learning with 3D Deformable Attention for Action Recognition

DSTSA-GCN: Advancing Skeleton-Based Gesture Recognition with Semantic-Aware Spatio-Temporal Topology Modeling

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily Living

DVANet: Disentangling View and Action Features for Multi-View Action Recognition

VPN: Learning Video-Pose Embedding for Activities of Daily Living

Vertex Feature Encoding and Hierarchical Temporal Modeling in a Spatial-Temporal Graph Convolutional Network for Action Recognition

Gimme Signals: Discriminative signal encoding for multimodal activity recognition

Skeleton Image Representation for 3D Action Recognition based on Tree Structure and Reference Joints

SkeleMotion: A New Representation of Skeleton Joint Sequences Based on Motion Information for 3D Action Recognition

Model	Paper	Accuracy (Cross-Setup)	Date
PoseC3D (RGB + Pose)	Revisiting Skeleton-based Action Recognition	96.40	2021-04-28
π-ViT (RGB + Pose)	Just Add $π$! Pose Induced Video Transformers for…	96.10	2023-11-30
EPP-Net (Parsing + Pose)	Explore Human Parsing Modality for Action Recogni…	92.80	2024-01-04
STAR-Transformer (RGB + Pose)	STAR-Transformer: A Spatio-temporal Cross Attenti…	92.70	2022-10-14
EPAM-Net	EPAM-Net: An Efficient Pose-driven Attention-guid…	92.40	2024-08-10
π-ViT (RGB only)	Just Add $π$! Pose Induced Video Transformers for…	91.90	2023-11-30
IPP-Net (Parsing + Pose)	Integrating Human Parsing and Pose Network for Hu…	91.70	2023-07-16
3DA (RGB + Pose)	Cross-Modal Learning with 3D Deformable Attention…	91.40	2022-12-12
DSTSA-GCN	DSTSA-GCN: Advancing Skeleton-Based Gesture Recog…	90.97	2025-01-21
VPN++ (RGB + Pose)	VPN++: Rethinking Video-Pose embeddings for under…	90.70	2021-05-17
DVANet (RGB only)	DVANet: Disentangling View and Action Features fo…	90.40	2023-12-10
VPN (RGB + Pose)	VPN: Learning Video-Pose Embedding for Activities…	86.30	2020-07-06
ST-GCN + AS-GCN w/DH-TCN	Vertex Feature Encoding and Hierarchical Temporal…	78.30	2019-12-20
Gimme Signals (AIS)	Gimme Signals: Discriminative signal encoding for…	70.80	2020-03-13
TSRJI	Skeleton Image Representation for 3D Action Recog…	67.90	2019-09-11
Skelemotion + Yang et al. (skeleton only)	SkeleMotion: A New Representation of Skeleton Joi…	66.90	2019-07-30