ML Research Wiki / Benchmarks / Action Recognition / EPIC-KITCHENS-100

EPIC-KITCHENS-100

Action Recognition Benchmark

Performance Over Time

📊 Showing 30 results | 📏 Metric: Action@1

Top Performing Models

Rank	Model	Paper	Action@1	Date	Code
1	LLaVAction 📚	LLaVAction: evaluating and training multi-modal large language models for action recognition	58.30	2025-03-24	📦 adaptivemotorcontrollab/llavaction
2	TIM 📚	TIM: A Time Interval Machine for Audio-Visual Action Recognition	56.40	2024-04-08	📦 jacobchalk/tim
3	Avion (ViT-L) 📚	Training a Large Video Model on a Single Machine in a Day	54.40	2023-09-28	📦 zhaoyue-zephyrus/avion
4	M&M (WTS 60M) 📚	M&M Mix: A Multimodal Multiview Transformer Ensemble	53.60	2022-06-20	-
5	LVMAE 📚	Extending Video Masked Autoencoders to 128 frames	52.10	2024-11-20	-
6	TAdaFormer-L/14 📚	Temporally-Adaptive Models for Efficient Video Understanding	51.80	2023-08-10	📦 alibaba-mmai-research/TAdaConv
7	LaViLa (TimeSformer-L) 📚	Learning Video Representations from Large Language Models	51.00	2022-12-08	📦 facebookresearch/lavila 📦 Ziyang412/VideoTree 📦 ceezh/llovi
8	MTV-B (WTS 60M) 📚	Multiview Transformers for Video Recognition	50.50	2022-01-12	📦 google-research/scenic
9	OMNIVORE (Swin-B, finetuned) 📚	Omnivore: A Single Model for Many Visual Modalities	49.90	2022-01-20	📦 towhee-io/towhee 📦 facebookresearch/omnivore
10	CAST(ViT-B/16)	CAST: Cross-Attention in Space and Time for Video Action Recognition	49.30	2023-11-30	📦 khu-vll/cast

All Papers (30)

LLaVAction: evaluating and training multi-modal large language models for action recognition

2025

LLaVAction

adaptivemotorcontrollab/llavaction

TIM: A Time Interval Machine for Audio-Visual Action Recognition

2024

TIM

jacobchalk/tim

Training a Large Video Model on a Single Machine in a Day

2023

Avion (ViT-L)

zhaoyue-zephyrus/avion

M&M Mix: A Multimodal Multiview Transformer Ensemble

2022

M&M (WTS 60M)

Extending Video Masked Autoencoders to 128 frames

2024

LVMAE

Temporally-Adaptive Models for Efficient Video Understanding

2023

TAdaFormer-L/14

alibaba-mmai-research/TAdaConv

Learning Video Representations from Large Language Models

2022

LaViLa (TimeSformer-L)

facebookresearch/lavila Ziyang412/VideoTree ceezh/llovi

Multiview Transformers for Video Recognition

2022

MTV-B (WTS 60M)

google-research/scenic

Omnivore: A Single Model for Many Visual Modalities

2022

OMNIVORE (Swin-B, finetuned)

towhee-io/towhee facebookresearch/omnivore

CAST: Cross-Attention in Space and Time for Video Action Recognition

2023

CAST(ViT-B/16)

khu-vll/cast

Temporally-Adaptive Models for Efficient Video Understanding

2023

TAdaConvNeXtV2-S

alibaba-mmai-research/TAdaConv

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

2022

MeMViT-24

facebookresearch/memvit

MoViNets: Mobile Video Networks for Efficient Video Recognition

2021

MoViNet-A6

tensorflow/models towhee-io/towhee Atze00/MoViNet-pytorch

Object-Region Video Transformers

2021

ORViT Mformer-L (ORViT blocks)

eladb3/orvit

Technical Report: Temporal Aggregate Representations

2021

TempAgg

dibschat/tempAgg

MoViNets: Mobile Video Networks for Efficient Video Recognition

2021

MoViNet-A5

tensorflow/models towhee-io/towhee Atze00/MoViNet-pytorch

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

2021

Mformer-HR

facebookresearch/xformers facebookresearch/Motionformer

Gate-Shift-Fuse for Video Action Recognition

2022

GSF

swathikirans/gsf EdoWhite/Gate-Shift-Pose

MoViNets: Mobile Video Networks for Efficient Video Recognition

2021

MoViNet-A4

tensorflow/models towhee-io/towhee Atze00/MoViNet-pytorch

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

2021

Mformer-L

facebookresearch/xformers facebookresearch/Motionformer

ViViT: A Video Vision Transformer

2021

ViViT-L/16x2 Fact. encoder

google-research/scenic keras-team/keras-io

Attention Bottlenecks for Multimodal Fusion

2021

MBT

google-research/scenic

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

2021

Mformer

facebookresearch/xformers facebookresearch/Motionformer

MoViNets: Mobile Video Networks for Efficient Video Recognition

2021

MoViNet-A2

tensorflow/models towhee-io/towhee Atze00/MoViNet-pytorch

Rescaling Egocentric Vision

2020

TSM

epic-kitchens/epic-kitchens-100-annotations epic-kitchens/C1-Action-Recognition-TSN-TRN-TSM

Rescaling Egocentric Vision

2020

SlowFast

epic-kitchens/epic-kitchens-100-annotations epic-kitchens/C1-Action-Recognition-TSN-TRN-TSM

MoViNets: Mobile Video Networks for Efficient Video Recognition

2021

MoViNet-A0

tensorflow/models towhee-io/towhee Atze00/MoViNet-pytorch

Rescaling Egocentric Vision

2020

TBN

epic-kitchens/epic-kitchens-100-annotations epic-kitchens/C1-Action-Recognition-TSN-TRN-TSM

Rescaling Egocentric Vision

2020

TRN

epic-kitchens/epic-kitchens-100-annotations epic-kitchens/C1-Action-Recognition-TSN-TRN-TSM

Rescaling Egocentric Vision

2020

TSN

epic-kitchens/epic-kitchens-100-annotations epic-kitchens/C1-Action-Recognition-TSN-TRN-TSM

EPIC-KITCHENS-100

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (30)

LLaVAction: evaluating and training multi-modal large language models for action recognition

TIM: A Time Interval Machine for Audio-Visual Action Recognition

Training a Large Video Model on a Single Machine in a Day

M&M Mix: A Multimodal Multiview Transformer Ensemble

Extending Video Masked Autoencoders to 128 frames

Temporally-Adaptive Models for Efficient Video Understanding

Learning Video Representations from Large Language Models

Multiview Transformers for Video Recognition

Omnivore: A Single Model for Many Visual Modalities

CAST: Cross-Attention in Space and Time for Video Action Recognition

Temporally-Adaptive Models for Efficient Video Understanding

MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition

MoViNets: Mobile Video Networks for Efficient Video Recognition

Object-Region Video Transformers

Technical Report: Temporal Aggregate Representations

MoViNets: Mobile Video Networks for Efficient Video Recognition

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Gate-Shift-Fuse for Video Action Recognition

MoViNets: Mobile Video Networks for Efficient Video Recognition

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

ViViT: A Video Vision Transformer

Attention Bottlenecks for Multimodal Fusion

Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

MoViNets: Mobile Video Networks for Efficient Video Recognition

Rescaling Egocentric Vision

Rescaling Egocentric Vision

MoViNets: Mobile Video Networks for Efficient Video Recognition

Rescaling Egocentric Vision

Rescaling Egocentric Vision

Rescaling Egocentric Vision

Model	Paper	Action@1	Date
LLaVAction	LLaVAction: evaluating and training multi-modal l…	58.30	2025-03-24
TIM	TIM: A Time Interval Machine for Audio-Visual Act…	56.40	2024-04-08
Avion (ViT-L)	Training a Large Video Model on a Single Machine …	54.40	2023-09-28
M&M (WTS 60M)	M&M Mix: A Multimodal Multiview Transformer Ensem…	53.60	2022-06-20
LVMAE	Extending Video Masked Autoencoders to 128 frames	52.10	2024-11-20
TAdaFormer-L/14	Temporally-Adaptive Models for Efficient Video Un…	51.80	2023-08-10
LaViLa (TimeSformer-L)	Learning Video Representations from Large Languag…	51.00	2022-12-08
MTV-B (WTS 60M)	Multiview Transformers for Video Recognition	50.50	2022-01-12
OMNIVORE (Swin-B, finetuned)	Omnivore: A Single Model for Many Visual Modaliti…	49.90	2022-01-20
CAST(ViT-B/16)	CAST: Cross-Attention in Space and Time for Video…	49.30	2023-11-30
TAdaConvNeXtV2-S	Temporally-Adaptive Models for Efficient Video Un…	48.90	2023-08-10
MeMViT-24	MeMViT: Memory-Augmented Multiscale Vision Transf…	48.40	2022-01-20
MoViNet-A6	MoViNets: Mobile Video Networks for Efficient Vid…	47.70	2021-03-21
ORViT Mformer-L (ORViT blocks)	Object-Region Video Transformers	45.70	2021-10-13
TempAgg	Technical Report: Temporal Aggregate Representati…	45.26	2021-06-06
MoViNet-A5	MoViNets: Mobile Video Networks for Efficient Vid…	44.50	2021-03-21
Mformer-HR	Keeping Your Eye on the Ball: Trajectory Attentio…	44.50	2021-06-09
GSF	Gate-Shift-Fuse for Video Action Recognition	44.48	2022-03-16
MoViNet-A4	MoViNets: Mobile Video Networks for Efficient Vid…	44.40	2021-03-21
Mformer-L	Keeping Your Eye on the Ball: Trajectory Attentio…	44.10	2021-06-09
ViViT-L/16x2 Fact. encoder	ViViT: A Video Vision Transformer	44.00	2021-03-29
MBT	Attention Bottlenecks for Multimodal Fusion	43.40	2021-06-30
Mformer	Keeping Your Eye on the Ball: Trajectory Attentio…	43.10	2021-06-09
MoViNet-A2	MoViNets: Mobile Video Networks for Efficient Vid…	41.20	2021-03-21
TSM	Rescaling Egocentric Vision	37.39	2020-06-23
SlowFast	Rescaling Egocentric Vision	36.81	2020-06-23
MoViNet-A0	MoViNets: Mobile Video Networks for Efficient Vid…	36.80	2021-03-21
TBN	Rescaling Egocentric Vision	35.55	2020-06-23
TRN	Rescaling Egocentric Vision	35.28	2020-06-23
TSN	Rescaling Egocentric Vision	33.57	2020-06-23