ML Research Wiki / Benchmarks / Linguistic Acceptability / CoLA

CoLA

Linguistic Acceptability Benchmark

Performance Over Time

📊 Showing 42 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	LTG-BERT-base 98M	Not all layers are equally as important: Every Layer Counts BERT	82.70	2023-11-03	-
2	ELC-BERT-base 98M	Not all layers are equally as important: Every Layer Counts BERT	82.60	2023-11-03	-
3	LTG-BERT-small 24M	Not all layers are equally as important: Every Layer Counts BERT	77.60	2023-11-03	-
4	ELC-BERT-small 24M	Not all layers are equally as important: Every Layer Counts BERT	76.10	2023-11-03	-
5	PSQ (Chen et al., 2020)	A Statistical Framework for Low-bitwidth Training of Deep Neural Networks	67.50	2020-10-27	📦 cjf00000/StatQuant 📦 gaochang-bjtu/1-bit-fqt
6	Q-BERT (Shen et al., 2020)	Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT	65.10	2019-09-12	-
7	Q8BERT (Zafrir et al., 2019)	Q8BERT: Quantized 8Bit BERT	65.00	2019-10-14	📦 NervanaSystems/nlp-architect 📦 intellabs/model-compression-research-package 📦 huggingface/block_movement_pruning 📦 mindspore-ai/models 📦 iabd/QuantizedNMT
8	24hBERT	How to Train BERT with an Academic Budget	57.10	2021-04-15	📦 peteriz/academic-budget-bert 📦 IntelLabs/academic-budget-bert 📦 octanove/shiba 📦 yxzwang/normalized-information-payload
9	BERT+TDA	Can BERT eat RuCoLA? Topological Data Analysis to Explain	0.73	2023-04-04	📦 upunaprosk/la-tda 📦 upunaprosk/la-tda
10	RoBERTa+TDA	Can BERT eat RuCoLA? Topological Data Analysis to Explain	0.70	2023-04-04	📦 upunaprosk/la-tda 📦 upunaprosk/la-tda

All Papers (42)

Not all layers are equally as important: Every Layer Counts BERT

2023

LTG-BERT-base 98M

Not all layers are equally as important: Every Layer Counts BERT

2023

ELC-BERT-base 98M

Not all layers are equally as important: Every Layer Counts BERT

2023

LTG-BERT-small 24M

Not all layers are equally as important: Every Layer Counts BERT

2023

ELC-BERT-small 24M

A Statistical Framework for Low-bitwidth Training of Deep Neural Networks

2020

PSQ (Chen et al., 2020)

cjf00000/StatQuant gaochang-bjtu/1-bit-fqt

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

2019

Q-BERT (Shen et al., 2020)

Q8BERT: Quantized 8Bit BERT

2019

Q8BERT (Zafrir et al., 2019)

NervanaSystems/nlp-architect intellabs/model-compression-research-package

How to Train BERT with an Academic Budget

2021

24hBERT

peteriz/academic-budget-bert IntelLabs/academic-budget-bert

Can BERT eat RuCoLA? Topological Data Analysis to Explain

2023

BERT+TDA

upunaprosk/la-tda upunaprosk/la-tda

Can BERT eat RuCoLA? Topological Data Analysis to Explain

2023

RoBERTa+TDA

upunaprosk/la-tda upunaprosk/la-tda

RuCoLA: Russian Corpus of Linguistic Acceptability

2022

RemBERT

russiannlp/rucola

Acceptability Judgements via Examining the Topology of Attention Maps

2022

En-BERT + TDA

danchern97/tda4la

Acceptability Judgements via Examining the Topology of Attention Maps

2022

En-BERT + TDA + PCA

danchern97/tda4la

tasksource: A Dataset Harmonization Framework for Streamlined NLP Multi-Task Learning and Evaluation

2023

deberta-v3-base+tasksource

sileod/tasksource

Entailment as Few-Shot Learner

2021

RoBERTa-large 355M + Entailment as Few-shot Learner

PaddlePaddle/PaddleNLP sunyilgdx/prompts4keras cactilab/hateguard

FNet: Mixing Tokens with Fourier Transforms

2021

FNet-Large

labmlai/annotated_deep_learning_paper_implementations google-research/google-research

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-11B

huggingface/transformers PaddlePaddle/PaddleNLP

StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding

2019

StructBERTRoBERTa ensemble

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

2019

ALBERT

huggingface/transformers tensorflow/models

XLNet: Generalized Autoregressive Pretraining for Language Understanding

2019

XLNet (single model)

huggingface/transformers PaddlePaddle/PaddleNLP

Learning to Encode Position for Transformer with Continuous Dynamical Model

2020

FLOATER-large

xuanqing94/FLOATER

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

2022

RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)

timdettmers/bitsandbytes huggingface/transformers-bloom-inference

ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

2019

ERNIE 2.0 Base

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE DataScienceNigeria/ERNIE-2.0-from-Baidu-Inc.

Multi-Task Deep Neural Networks for Natural Language Understanding

2019

MT-DNN

namisan/mt-dnn xycforgithub/MultiTask-MRC

RoBERTa: A Robustly Optimized BERT Pretraining Approach

2019

RoBERTa (ensemble)

huggingface/transformers pytorch/fairseq

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-XL 3B

huggingface/transformers PaddlePaddle/PaddleNLP

SpanBERT: Improving Pre-training by Representing and Predicting Spans

2019

SpanBERT

facebookresearch/SpanBERT mandarjoshi90/coref

CLEAR: Contrastive Learning for Sentence Representation

2020

MLM+ del-span+ reorder

ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

2019

ERNIE 2.0 Large

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE DataScienceNigeria/ERNIE-2.0-from-Baidu-Inc.

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Large 770M

huggingface/transformers PaddlePaddle/PaddleNLP

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2018

BERT-LARGE

huggingface/transformers tensorflow/models

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

2022

data2vec

huggingface/transformers pytorch/fairseq

RealFormer: Transformer Likes Residual Attention

2020

RealFormer

google-research/google-research cloneofsimo/RealFormer-pytorch

Big Bird: Transformers for Longer Sequences

2020

BigBird

huggingface/transformers tensorflow/models

ERNIE: Enhanced Language Representation with Informative Entities

2019

ERNIE

thunlp/ERNIE Mind23-2/MindCode-136

Charformer: Fast Character Transformers via Gradient-based Subword Tokenization

2021

Charformer-Tall

google-research/google-research lucidrains/charformer-pytorch

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Base

huggingface/transformers PaddlePaddle/PaddleNLP

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

2019

DistilBERT 66M

huggingface/transformers PaddlePaddle/PaddleNLP

SqueezeBERT: What can computer vision teach NLP about efficient neural networks?

2020

SqueezeBERT

huggingface/transformers huggingface/transformers

TinyBERT: Distilling BERT for Natural Language Understanding

2019

TinyBERT-4 14.5M

PaddlePaddle/PaddleNLP huawei-noah/Pretrained-Language-Model

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Small

huggingface/transformers PaddlePaddle/PaddleNLP

LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning

2023

LM-CPPF RoBERTa-base

amirabaskohi/lm-cppf

Model	Paper	Accuracy	Date
LTG-BERT-base 98M	Not all layers are equally as important: Every La…	82.70	2023-11-03
ELC-BERT-base 98M	Not all layers are equally as important: Every La…	82.60	2023-11-03
LTG-BERT-small 24M	Not all layers are equally as important: Every La…	77.60	2023-11-03
ELC-BERT-small 24M	Not all layers are equally as important: Every La…	76.10	2023-11-03
PSQ (Chen et al., 2020)	A Statistical Framework for Low-bitwidth Training…	67.50	2020-10-27
Q-BERT (Shen et al., 2020)	Q-BERT: Hessian Based Ultra Low Precision Quantiz…	65.10	2019-09-12
Q8BERT (Zafrir et al., 2019)	Q8BERT: Quantized 8Bit BERT	65.00	2019-10-14
24hBERT	How to Train BERT with an Academic Budget	57.10	2021-04-15
BERT+TDA	Can BERT eat RuCoLA? Topological Data Analysis to…	0.73	2023-04-04
RoBERTa+TDA	Can BERT eat RuCoLA? Topological Data Analysis to…	0.70	2023-04-04
RemBERT	RuCoLA: Russian Corpus of Linguistic Acceptability	0.60	2022-10-23
En-BERT + TDA	Acceptability Judgements via Examining the Topolo…	0.57	2022-05-19
En-BERT + TDA + PCA	Acceptability Judgements via Examining the Topolo…		2022-05-19
deberta-v3-base+tasksource	tasksource: A Dataset Harmonization Framework for…		2023-01-14
RoBERTa-large 355M + Entailment as Few-shot Learner	Entailment as Few-Shot Learner		2021-04-29
FNet-Large	FNet: Mixing Tokens with Fourier Transforms		2021-05-09
T5-11B	Exploring the Limits of Transfer Learning with a …		2019-10-23
StructBERTRoBERTa ensemble	StructBERT: Incorporating Language Structures int…		2019-08-13
ALBERT	ALBERT: A Lite BERT for Self-supervised Learning …		2019-09-26
XLNet (single model)	XLNet: Generalized Autoregressive Pretraining for…		2019-06-19
FLOATER-large	Learning to Encode Position for Transformer with …		2020-03-13
RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	LLM.int8(): 8-bit Matrix Multiplication for Trans…		2022-08-15
ERNIE 2.0 Base	ERNIE 2.0: A Continual Pre-training Framework for…		2019-07-29
MT-DNN	Multi-Task Deep Neural Networks for Natural Langu…		2019-01-31
RoBERTa (ensemble)	RoBERTa: A Robustly Optimized BERT Pretraining Ap…		2019-07-26
T5-XL 3B	Exploring the Limits of Transfer Learning with a …		2019-10-23
SpanBERT	SpanBERT: Improving Pre-training by Representing …		2019-07-24
MLM+ del-span+ reorder	CLEAR: Contrastive Learning for Sentence Represen…		2020-12-31
ERNIE 2.0 Large	ERNIE 2.0: A Continual Pre-training Framework for…		2019-07-29
T5-Large 770M	Exploring the Limits of Transfer Learning with a …		2019-10-23
BERT-LARGE	BERT: Pre-training of Deep Bidirectional Transfor…		2018-10-11
data2vec	data2vec: A General Framework for Self-supervised…		2022-02-07
RealFormer	RealFormer: Transformer Likes Residual Attention		2020-12-21
BigBird	Big Bird: Transformers for Longer Sequences		2020-07-28
ERNIE	ERNIE: Enhanced Language Representation with Info…		2019-05-17
Charformer-Tall	Charformer: Fast Character Transformers via Gradi…		2021-06-23
T5-Base	Exploring the Limits of Transfer Learning with a …		2019-10-23
DistilBERT 66M	DistilBERT, a distilled version of BERT: smaller,…		2019-10-02
SqueezeBERT	SqueezeBERT: What can computer vision teach NLP a…		2020-06-19
TinyBERT-4 14.5M	TinyBERT: Distilling BERT for Natural Language Un…		2019-09-23
T5-Small	Exploring the Limits of Transfer Learning with a …		2019-10-23
LM-CPPF RoBERTa-base	LM-CPPF: Paraphrasing-Guided Data Augmentation fo…		2023-05-29

CoLA

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (42)