ML Research Wiki / Benchmarks / Language Modelling / WikiText-103

WikiText-103

Language Modelling Benchmark

Performance Over Time

📊 Showing 83 results | 📏 Metric: Test perplexity

Top Performing Models

Rank	Model	Paper	Test perplexity	Date	Code
1	Decay RNN	How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?	76.67	2020-05-17	📦 bhattg/Decay-RNN-ACL-SRW2020
2	GRU	How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?	53.78	2020-05-17	📦 bhattg/Decay-RNN-ACL-SRW2020
3	LSTM	How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?	52.73	2020-05-17	📦 bhattg/Decay-RNN-ACL-SRW2020
4	LSTM	Improving Neural Language Models with a Continuous Cache	48.70	2016-12-13	📦 dmlc/gluon-nlp 📦 salesforce/awd-lstm-lm 📦 uclanlp/NamedEntityLanguageModel
5	TCN	An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling	45.19	2018-03-04	📦 timeseriesAI/tsai 📦 locuslab/TCN 📦 philipperemy/keras-tcn
6	GCNN-8	Language Modeling with Gated Convolutional Networks	44.90	2016-12-23	📦 facebookresearch/fairseq 📦 mhagiwara/nanigonet 📦 Rishit-dagli/GLU
7	Neural cache model (size = 100)	Improving Neural Language Models with a Continuous Cache	44.80	2016-12-13	📦 dmlc/gluon-nlp 📦 salesforce/awd-lstm-lm 📦 uclanlp/NamedEntityLanguageModel
8	Neural cache model (size = 2,000)	Improving Neural Language Models with a Continuous Cache	40.80	2016-12-13	📦 dmlc/gluon-nlp 📦 salesforce/awd-lstm-lm 📦 uclanlp/NamedEntityLanguageModel
9	GCNN-8	Language Modeling with Gated Convolutional Networks	37.20	2016-12-23	📦 facebookresearch/fairseq 📦 mhagiwara/nanigonet 📦 Rishit-dagli/GLU
10	LSTM	Fast Parametric Learning with Activation Memorization	36.40	2018-03-27	-

All Papers (83)

How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?

2020

Decay RNN

bhattg/Decay-RNN-ACL-SRW2020

How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?

2020

GRU

bhattg/Decay-RNN-ACL-SRW2020

How much complexity does an RNN architecture need to learn syntax-sensitive dependencies?

2020

LSTM

bhattg/Decay-RNN-ACL-SRW2020

Improving Neural Language Models with a Continuous Cache

2016

LSTM

dmlc/gluon-nlp salesforce/awd-lstm-lm

An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

2018

TCN

timeseriesAI/tsai locuslab/TCN

Language Modeling with Gated Convolutional Networks

2016

GCNN-8

facebookresearch/fairseq mhagiwara/nanigonet

Improving Neural Language Models with a Continuous Cache

2016

Neural cache model (size = 100)

dmlc/gluon-nlp salesforce/awd-lstm-lm

Improving Neural Language Models with a Continuous Cache

2016

Neural cache model (size = 2,000)

dmlc/gluon-nlp salesforce/awd-lstm-lm

Language Modeling with Gated Convolutional Networks

2016

GCNN-8

facebookresearch/fairseq mhagiwara/nanigonet

Fast Parametric Learning with Activation Memorization

2018

LSTM

Fast Parametric Learning with Activation Memorization

2018

LSTM (Hebbian)

An Analysis of Neural Language Modeling at Multiple Scales

2018

4 layer QRNN

salesforce/awd-lstm-lm Han-JD/GRU-D

Alleviating Sequence Information Loss with Data Overlapping and Prime Batch Sizes

2019

AWD-LSTM-MoS + ATOI

nkcr/overlap-ml

Deep Equilibrium Models

2019

DEQ-Transformer (small)

locuslab/deq prolearner/hypertorch

Relational recurrent neural networks

2018

LSTM (RMC)

L0SG/relational-rnn-pytorch cheonbok94/Pytorch-Relational-Recurrent-Neural-networks

Primal-Attention: Self-attention through Asymmetric Kernel SVD in Primal Representation

2023

Primal.+Trans.

yingyichen-cyy/PrimalAttention

Random Feature Attention

2021

Rfa-Gate-Gaussian-Stateful (Small)

Fast Parametric Learning with Activation Memorization

2018

LSTM (Hebbian, Cache)

Fast Parametric Learning with Activation Memorization

2018

LSTM (Hebbian, Cache, MbPA)

Trellis Networks for Sequence Modeling

2018

Trellis Network

locuslab/trellisnet

Deep Equilibrium Models

2019

DEQ-TrellisNet

locuslab/deq prolearner/hypertorch

Improving Neural Language Modeling via Adversarial Training

2019

AdvSoft (+ 4 layer QRNN + dynamic eval)

ChengyueGongR/advsoft

Rethinking Attention with Performers

2020

Performer 125M

tensorflow/models google-research/google-research

Reformer: The Efficient Transformer

2020

Reformer 125M

huggingface/transformers google/trax

FNetAR: Mixing Tokens with Autoregressive Fourier Transforms

2021

FNetAR Medium

MindCode-4/code-3

Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention

2020

Linear Attention 125M

idiap/fast-transformers lucidrains/linear-attention-transformer

Revisiting Simple Neural Probabilistic Language Models

2021

Transformer-N

SimengSun/revisit-nplm

$\infty$-former: Infinite Memory Transformer

2021

[?]-former (Sticky memories)

deep-spin/infinite-former

$\infty$-former: Infinite Memory Transformer

2021

\infty-former (Sticky memories)

deep-spin/infinite-former

$\infty$-former: Infinite Memory Transformer

2021

∞-former (Sticky memories)

deep-spin/infinite-former

DeLighT: Deep and Light-weight Transformer

2020

DeLighT

sacmehta/delight pranay185417/delight

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

2019

Transformer-XL Standard

huggingface/transformers labmlai/annotated_deep_learning_paper_implementations

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

2022

Hybrid H3 (125M)

hazyresearch/safari hazyresearch/h3 lindermanlab/S5

Random Feature Attention

2021

Rfa-Gate-Gaussian-Stateful (Big)

Time-aware Large Kernel Convolutions

2020

TaLK Convolutions

lioutasb/TaLKConvolutions

Deep Equilibrium Models

2019

DEQ-Transformer (medium, adaptive embed)

locuslab/deq prolearner/hypertorch

Memory-efficient Stochastic methods for Memory-based Transformers

2023

Skip Cross-Head Transformer-XL

vishwajit-vishnu/memory-efficient-stochastic-methods-for-memory-based-transformers

Pay Attention when Required

2020

PAR Transformer Base

NVIDIA/DeepLearningExamples Jmkernes/PAR-Transformer-XL

Addressing Some Limitations of Transformers with Feedback Memory

2020

Feedback Transformer (4 layers)

labmlai/annotated_deep_learning_paper_implementations facebookresearch/transformer-sequential

Efficiently Modeling Long Sequences with Structured State Spaces

2021

S4

state-spaces/s4 srush/annotated-s4

Augmenting Self-attention with Persistent Memory

2019

All-attention network (36 layers)

lucidrains/x-transformers facebookresearch/adaptive-span

Language Models with Transformers

2019

BERT-Large-CAS

cgraywang/gluon-nlp-1

Finetuning Pretrained Transformers into RNNs

2021

T2R + Pretrain

hazyresearch/lolcats yashbonde/RNN-sim

On the adequacy of untuned warmup for adaptive optimization

2019

Transformer (Adaptive inputs)

Tony-Y/pytorch_warmup

Adaptive Input Representations for Neural Language Modeling

2018

Transformer (Adaptive inputs)

pytorch/fairseq yuhao318/UP-ViT AranKomat/adapinp

Hyena Hierarchy: Towards Larger Convolutional Language Models

2023

Hyena-3

hazyresearch/safari togethercomputer/stripedhyena

Hyena Hierarchy: Towards Larger Convolutional Language Models

2023

Hyena-3-slim

hazyresearch/safari togethercomputer/stripedhyena

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

2022

Hybrid H3 125M

hazyresearch/safari hazyresearch/h3 lindermanlab/S5

Pay Attention when Required

2020

PAR Transformer Large

NVIDIA/DeepLearningExamples Jmkernes/PAR-Transformer-XL

General-purpose, long-context autoregressive modeling with Perceiver AR

2022

Perceiver AR 358M

krasserm/perceiver-io google-research/perceiver-ar lucidrains/perceiver-ar-pytorch

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute

2021

SRU++ Base

asappresearch/sru

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

2019

Transformer-XL Large

huggingface/transformers labmlai/annotated_deep_learning_paper_implementations

Addressing Some Limitations of Transformers with Feedback Memory

2020

Feedback Transformer (8 layers)

labmlai/annotated_deep_learning_paper_implementations facebookresearch/transformer-sequential

Shortformer: Better Language Modeling using Shorter Inputs

2020

Shortformer

ofirpress/shortformer

Mega: Moving Average Equipped Gated Attention

2022

Mega

huggingface/transformers facebookresearch/mega

Differentiable Model Compression via Pseudo Quantization Noise

2021

DIFFQ (λ=1, g=16)

facebookresearch/diffq

Improving Transformer Models by Reordering their Sublayers

2019

Sandwich Transformer

ofirpress/sandwich_transformer JunnYu/x-transformers-paddle

The Information Pathways Hypothesis: Transformers are Dynamic Self-Ensembles

2023

Transformer+SSA

shamim-hussain/ssa

Shortformer: Better Language Modeling using Shorter Inputs

2020

Staged Training

ofirpress/shortformer

Improving Neural Language Models by Segmenting, Attending, and Predicting the Future

2019

Transformer-XL Large + Phrase Induction

luohongyin/PILM

The Information Pathways Hypothesis: Transformers are Dynamic Self-Ensembles

2023

Transformer+SSA+Self-ensemble

shamim-hussain/ssa

Compressive Transformers for Long-Range Sequence Modelling

2019

Compressive Transformer (18L, M=1024)

labmlai/annotated_deep_learning_paper_implementations google-deepmind/pg19

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute

2021

SRU++ Large

asappresearch/sru

Segatron: Segment-Aware Transformer for Language Modeling and Understanding

2020

SegaTransformer-XL

rsvp-ai/segatron_aaai

Dynamic Evaluation of Transformer Language Models

2019

Transformer-XL (SGD dynamic eval)

benkrause/dynamiceval-transformer

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

2022

Hybrid H3 (355M)

hazyresearch/safari hazyresearch/h3 lindermanlab/S5

$\infty$-former: Infinite Memory Transformer

2021

∞-former (initialized GPT-2 Small)

deep-spin/infinite-former

$\infty$-former: Infinite Memory Transformer

2021

[?]-former (SM)

deep-spin/infinite-former

$\infty$-former: Infinite Memory Transformer

2021

-former (SM)

deep-spin/infinite-former

$\infty$-former: Infinite Memory Transformer

2021

∞-former (Sticky memories + initialized GPT-2 Small)

deep-spin/infinite-former

Dynamic Evaluation of Transformer Language Models

2019

Transformer-XL (RMS dynamic eval)

benkrause/dynamiceval-transformer

Generalization through Memorization: Nearest Neighbor Language Models

2019

kNN-LM

labmlai/annotated_deep_learning_paper_implementations urvashik/knnlm

Efficient Content-Based Sparse Attention with Routing Transformers

2020

Routing Transformer

lucidrains/local-attention lucidrains/routing-transformer

Generalization through Memorization: Nearest Neighbor Language Models

2019

kNN-LM w/ Continuous Cache

labmlai/annotated_deep_learning_paper_implementations urvashik/knnlm

You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM

2022

kNN-LM w/ Adaptive Coefficient

iesl/knnlm-retrieval-quality

GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling

2023

GateLoop (125M)

tobiaskatsch/GateLoop axrwl/gateloop fabianwinter93/JAX

Advancing State of the Art in Language Modeling

2023

Ensemble of All

davidherel/sota_lm

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

2022

Hybrid H3 (1.3B)

hazyresearch/safari hazyresearch/h3 lindermanlab/S5

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

2021

GLM-XXLarge (unidirectional)

thudm/chatglm2-6b thudm/chatglm

GLM: General Language Model Pretraining with Autoregressive Blank Infilling

2021

GLM-XXLarge (bidirectional)

thudm/chatglm2-6b thudm/chatglm

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

2019

Megatron-LM

NVIDIA/Megatron-LM PaddlePaddle/PaddleNLP

Hungry Hungry Hippos: Towards Language Modeling with State Space Models

2022

Hybrid H3 (2.7B)

hazyresearch/safari hazyresearch/h3 lindermanlab/S5

Improving language models by retrieving from trillions of tokens

2021

RETRO (7.5B)

labmlai/annotated_deep_learning_paper_implementations lucidrains/RETRO-pytorch

Model	Paper	Test perplexity	Date
Decay RNN	How much complexity does an RNN architecture need…	76.67	2020-05-17
GRU	How much complexity does an RNN architecture need…	53.78	2020-05-17
LSTM	How much complexity does an RNN architecture need…	52.73	2020-05-17
LSTM	Improving Neural Language Models with a Continuou…	48.70	2016-12-13
TCN	An Empirical Evaluation of Generic Convolutional …	45.19	2018-03-04
GCNN-8	Language Modeling with Gated Convolutional Networ…	44.90	2016-12-23
Neural cache model (size = 100)	Improving Neural Language Models with a Continuou…	44.80	2016-12-13
Neural cache model (size = 2,000)	Improving Neural Language Models with a Continuou…	40.80	2016-12-13
GCNN-8	Language Modeling with Gated Convolutional Networ…	37.20	2016-12-23
LSTM	Fast Parametric Learning with Activation Memoriza…	36.40	2018-03-27
LSTM (Hebbian)	Fast Parametric Learning with Activation Memoriza…	34.30	2018-03-27
4 layer QRNN	An Analysis of Neural Language Modeling at Multip…	33.00	2018-03-22
AWD-LSTM-MoS + ATOI	Alleviating Sequence Information Loss with Data O…	32.85	2019-09-18
DEQ-Transformer (small)	Deep Equilibrium Models	32.40	2019-09-03
LSTM (RMC)	Relational recurrent neural networks	31.60	2018-06-05
Primal.+Trans.	Primal-Attention: Self-attention through Asymmetr…	31.00	2023-05-31
Rfa-Gate-Gaussian-Stateful (Small)	Random Feature Attention	30.50	2021-03-03
LSTM (Hebbian, Cache)	Fast Parametric Learning with Activation Memoriza…	29.70	2018-03-27
LSTM (Hebbian, Cache, MbPA)	Fast Parametric Learning with Activation Memoriza…	29.20	2018-03-27
Trellis Network	Trellis Networks for Sequence Modeling	29.19	2018-10-15
DEQ-TrellisNet	Deep Equilibrium Models	29.00	2019-09-03
AdvSoft (+ 4 layer QRNN + dynamic eval)	Improving Neural Language Modeling via Adversaria…	28.00	2019-06-10
Performer 125M	Rethinking Attention with Performers	26.80	2020-09-30
Reformer 125M	Reformer: The Efficient Transformer	26.00	2020-01-13
FNetAR Medium	FNetAR: Mixing Tokens with Autoregressive Fourier…	25.81	2021-07-22
Linear Attention 125M	Transformers are RNNs: Fast Autoregressive Transf…	25.60	2020-06-29
Transformer-N	Revisiting Simple Neural Probabilistic Language M…	25.20	2021-04-08
[?]-former (Sticky memories)	$\infty$-former: Infinite Memory Transformer	24.22	2021-09-01
\infty-former (Sticky memories)	$\infty$-former: Infinite Memory Transformer	24.22	2021-09-01
∞-former (Sticky memories)	$\infty$-former: Infinite Memory Transformer	24.22	2021-09-01
DeLighT	DeLighT: Deep and Light-weight Transformer	24.14	2020-08-03
Transformer-XL Standard	Transformer-XL: Attentive Language Models Beyond …	24.00	2019-01-09
Hybrid H3 (125M)	Hungry Hungry Hippos: Towards Language Modeling w…	23.70	2022-12-28
Rfa-Gate-Gaussian-Stateful (Big)	Random Feature Attention	23.50	2021-03-03
TaLK Convolutions	Time-aware Large Kernel Convolutions	23.30	2020-02-08
DEQ-Transformer (medium, adaptive embed)	Deep Equilibrium Models	23.20	2019-09-03
Skip Cross-Head Transformer-XL	Memory-efficient Stochastic methods for Memory-ba…	22.91	2023-11-14
PAR Transformer Base	Pay Attention when Required	22.70	2020-09-09
Feedback Transformer (4 layers)	Addressing Some Limitations of Transformers with …	22.40	2020-02-21
S4	Efficiently Modeling Long Sequences with Structur…	21.28	2021-10-31
All-attention network (36 layers)	Augmenting Self-attention with Persistent Memory	20.60	2019-07-02
BERT-Large-CAS	Language Models with Transformers	20.40	2019-04-20
T2R + Pretrain	Finetuning Pretrained Transformers into RNNs	19.60	2021-03-24
Transformer (Adaptive inputs)	On the adequacy of untuned warmup for adaptive op…	19.50	2019-10-09
Transformer (Adaptive inputs)	Adaptive Input Representations for Neural Languag…	18.70	2018-09-28
Hyena-3	Hyena Hierarchy: Towards Larger Convolutional Lan…	18.60	2023-02-21
Hyena-3-slim	Hyena Hierarchy: Towards Larger Convolutional Lan…	18.50	2023-02-21
Hybrid H3 125M	Hungry Hungry Hippos: Towards Language Modeling w…	18.50	2022-12-28
PAR Transformer Large	Pay Attention when Required	18.40	2020-09-09
Perceiver AR 358M	General-purpose, long-context autoregressive mode…	18.40	2022-02-15
SRU++ Base	When Attention Meets Fast Recurrence: Training La…	18.30	2021-02-24
Transformer-XL Large	Transformer-XL: Attentive Language Models Beyond …	18.30	2019-01-09
Feedback Transformer (8 layers)	Addressing Some Limitations of Transformers with …	18.20	2020-02-21
Shortformer	Shortformer: Better Language Modeling using Short…	18.15	2020-12-31
Mega	Mega: Moving Average Equipped Gated Attention	18.07	2022-09-21
DIFFQ (λ=1, g=16)	Differentiable Model Compression via Pseudo Quant…	18.00	2021-04-20
Sandwich Transformer	Improving Transformer Models by Reordering their …	17.96	2019-11-10
Transformer+SSA	The Information Pathways Hypothesis: Transformers…	17.60	2023-06-02
Staged Training	Shortformer: Better Language Modeling using Short…	17.56	2020-12-31
Transformer-XL Large + Phrase Induction	Improving Neural Language Models by Segmenting, A…	17.40	2019-06-04
Transformer+SSA+Self-ensemble	The Information Pathways Hypothesis: Transformers…	17.18	2023-06-02
Compressive Transformer (18L, M=1024)	Compressive Transformers for Long-Range Sequence …	17.10	2019-11-13
SRU++ Large	When Attention Meets Fast Recurrence: Training La…	17.10	2021-02-24
SegaTransformer-XL	Segatron: Segment-Aware Transformer for Language …	17.10	2020-04-30
Transformer-XL (SGD dynamic eval)	Dynamic Evaluation of Transformer Language Models	17.00	2019-04-17
Hybrid H3 (355M)	Hungry Hungry Hippos: Towards Language Modeling w…	16.90	2022-12-28
∞-former (initialized GPT-2 Small)	$\infty$-former: Infinite Memory Transformer	16.64	2021-09-01
[?]-former (SM)	$\infty$-former: Infinite Memory Transformer	16.61	2021-09-01
-former (SM)	$\infty$-former: Infinite Memory Transformer	16.61	2021-09-01
∞-former (Sticky memories + initialized GPT-2 Small)	$\infty$-former: Infinite Memory Transformer	16.61	2021-09-01
Transformer-XL (RMS dynamic eval)	Dynamic Evaluation of Transformer Language Models	16.40	2019-04-17
kNN-LM	Generalization through Memorization: Nearest Neig…	16.12	2019-11-01
Routing Transformer	Efficient Content-Based Sparse Attention with Rou…	15.80	2020-03-12
kNN-LM w/ Continuous Cache	Generalization through Memorization: Nearest Neig…	15.79	2019-11-01
kNN-LM w/ Adaptive Coefficient	You can't pick your neighbors, or can you? When a…	15.50	2022-10-28
GateLoop (125M)	GateLoop: Fully Data-Controlled Linear Recurrence…	13.40	2023-11-03
Ensemble of All	Advancing State of the Art in Language Modeling	13.29	2023-11-28
Hybrid H3 (1.3B)	Hungry Hungry Hippos: Towards Language Modeling w…	12.50	2022-12-28
GLM-XXLarge (unidirectional)	GLM: General Language Model Pretraining with Auto…	12.22	2021-03-18
GLM-XXLarge (bidirectional)	GLM: General Language Model Pretraining with Auto…	11.33	2021-03-18
Megatron-LM	Megatron-LM: Training Multi-Billion Parameter Lan…	10.81	2019-09-17
Hybrid H3 (2.7B)	Hungry Hungry Hippos: Towards Language Modeling w…	10.60	2022-12-28
RETRO (7.5B)	Improving language models by retrieving from tril…	2.40	2021-12-08

WikiText-103

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (83)