ML Research Wiki / Benchmarks / Natural Language Inference / QNLI

QNLI

Natural Language Inference Benchmark

Performance Over Time

📊 Showing 42 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	PSQ (Chen et al., 2020)	A Statistical Framework for Low-bitwidth Training of Deep Neural Networks	94.50	2020-10-27	📦 cjf00000/StatQuant 📦 gaochang-bjtu/1-bit-fqt
2	Q-BERT (Shen et al., 2020)	Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT	93.00	2019-09-12	-
3	Q8BERT (Zafrir et al., 2019)	Q8BERT: Quantized 8Bit BERT	93.00	2019-10-14	📦 NervanaSystems/nlp-architect 📦 intellabs/model-compression-research-package 📦 huggingface/block_movement_pruning 📦 mindspore-ai/models 📦 iabd/QuantizedNMT
4	24hBERT	How to Train BERT with an Academic Budget	90.60	2021-04-15	📦 peteriz/academic-budget-bert 📦 IntelLabs/academic-budget-bert 📦 octanove/shiba 📦 yxzwang/normalized-information-payload
5	ALBERT	ALBERT: A Lite BERT for Self-supervised Learning of Language Representations	0.00	2019-09-26	📦 huggingface/transformers 📦 tensorflow/models 📦 PaddlePaddle/PaddleNLP
6	StructBERTRoBERTa ensemble	StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding	0.00	2019-08-13	-
7	ALICE	SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization	0.00	2019-11-08	📦 namisan/mt-dnn 📦 microsoft/MT-DNN 📦 archinetai/smart-pytorch
8	MT-DNN-SMART	SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization	0.00	2019-11-08	📦 namisan/mt-dnn 📦 microsoft/MT-DNN 📦 archinetai/smart-pytorch
9	RoBERTa (ensemble)	RoBERTa: A Robustly Optimized BERT Pretraining Approach	0.00	2019-07-26	📦 huggingface/transformers 📦 pytorch/fairseq 📦 PaddlePaddle/PaddleNLP
10	T5-11B	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	0.00	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer

All Papers (42)

A Statistical Framework for Low-bitwidth Training of Deep Neural Networks

2020

PSQ (Chen et al., 2020)

cjf00000/StatQuant gaochang-bjtu/1-bit-fqt

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

2019

Q-BERT (Shen et al., 2020)

Q8BERT: Quantized 8Bit BERT

2019

Q8BERT (Zafrir et al., 2019)

NervanaSystems/nlp-architect intellabs/model-compression-research-package

How to Train BERT with an Academic Budget

2021

24hBERT

peteriz/academic-budget-bert IntelLabs/academic-budget-bert

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

2019

ALBERT

huggingface/transformers tensorflow/models

StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding

2019

StructBERTRoBERTa ensemble

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

ALICE

namisan/mt-dnn microsoft/MT-DNN

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

MT-DNN-SMART

namisan/mt-dnn microsoft/MT-DNN

RoBERTa: A Robustly Optimized BERT Pretraining Approach

2019

RoBERTa (ensemble)

huggingface/transformers pytorch/fairseq

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-11B

huggingface/transformers PaddlePaddle/PaddleNLP

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-3B

huggingface/transformers PaddlePaddle/PaddleNLP

DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing

2021

DeBERTaV3large

microsoft/DeBERTa dashenzi721/hra stareru/csqa_debertav3

DeBERTa: Decoding-enhanced BERT with Disentangled Attention

2020

DeBERTa (large)

huggingface/transformers microsoft/DeBERTa

XLNet: Generalized Autoregressive Pretraining for Language Understanding

2019

XLNet (single model)

huggingface/transformers PaddlePaddle/PaddleNLP

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Large 770M

huggingface/transformers PaddlePaddle/PaddleNLP

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

2022

RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)

timdettmers/bitsandbytes huggingface/transformers-bloom-inference

ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

2019

ERNIE 2.0 Large

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE DataScienceNigeria/ERNIE-2.0-from-Baidu-Inc.

Entailment as Few-Shot Learner

2021

RoBERTa-large 355M + Entailment as Few-shot Learner

PaddlePaddle/PaddleNLP sunyilgdx/prompts4keras cactilab/hateguard

SpanBERT: Improving Pre-training by Representing and Predicting Spans

2019

SpanBERT

facebookresearch/SpanBERT mandarjoshi90/coref

TRANS-BLSTM: Transformer with Bidirectional LSTM for Language Understanding

2020

TRANS-BLSTM

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Base

huggingface/transformers PaddlePaddle/PaddleNLP

Adversarial Self-Attention for Language Understanding

2022

ASA + RoBERTa

gingasan/adversarialsa

CLEAR: Contrastive Learning for Sentence Representation

2020

MLM+ subs+ del-span

ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

2019

ERNIE 2.0 Base

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE DataScienceNigeria/ERNIE-2.0-from-Baidu-Inc.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2018

BERT-LARGE

huggingface/transformers tensorflow/models

Big Bird: Transformers for Longer Sequences

2020

BigBird

huggingface/transformers tensorflow/models

RealFormer: Transformer Likes Residual Attention

2020

RealFormer

google-research/google-research cloneofsimo/RealFormer-pytorch

Adversarial Self-Attention for Language Understanding

2022

ASA + BERT-base

gingasan/adversarialsa

ERNIE: Enhanced Language Representation with Informative Entities

2019

ERNIE

thunlp/ERNIE Mind23-2/MindCode-136

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

2022

data2vec

huggingface/transformers pytorch/fairseq

Charformer: Fast Character Transformers via Gradient-based Subword Tokenization

2021

Charformer-Tall

google-research/google-research lucidrains/charformer-pytorch

SenseBERT: Driving Some Sense into BERT

2019

SenseBERT-base 110M

TinyBERT: Distilling BERT for Natural Language Understanding

2019

TinyBERT-6 67M

PaddlePaddle/PaddleNLP huawei-noah/Pretrained-Language-Model

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Small

huggingface/transformers PaddlePaddle/PaddleNLP

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

2019

DistilBERT 66M

huggingface/transformers PaddlePaddle/PaddleNLP

SqueezeBERT: What can computer vision teach NLP about efficient neural networks?

2020

SqueezeBERT

huggingface/transformers huggingface/transformers

Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention

2021

Nyströmformer

facebookresearch/xformers mlpen/Nystromformer

TinyBERT: Distilling BERT for Natural Language Understanding

2019

TinyBERT-4 14.5M

PaddlePaddle/PaddleNLP huawei-noah/Pretrained-Language-Model

FNet: Mixing Tokens with Fourier Transforms

2021

FNet-Large

labmlai/annotated_deep_learning_paper_implementations google-research/google-research

LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning

2023

LM-CPPF RoBERTa-base

amirabaskohi/lm-cppf

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

SMART-BERT

namisan/mt-dnn microsoft/MT-DNN

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

SMARTRoBERTa

namisan/mt-dnn microsoft/MT-DNN

Model	Paper	Accuracy	Date
PSQ (Chen et al., 2020)	A Statistical Framework for Low-bitwidth Training…	94.50	2020-10-27
Q-BERT (Shen et al., 2020)	Q-BERT: Hessian Based Ultra Low Precision Quantiz…	93.00	2019-09-12
Q8BERT (Zafrir et al., 2019)	Q8BERT: Quantized 8Bit BERT	93.00	2019-10-14
24hBERT	How to Train BERT with an Academic Budget	90.60	2021-04-15
ALBERT	ALBERT: A Lite BERT for Self-supervised Learning …		2019-09-26
StructBERTRoBERTa ensemble	StructBERT: Incorporating Language Structures int…		2019-08-13
ALICE	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08
MT-DNN-SMART	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08
RoBERTa (ensemble)	RoBERTa: A Robustly Optimized BERT Pretraining Ap…		2019-07-26
T5-11B	Exploring the Limits of Transfer Learning with a …		2019-10-23
T5-3B	Exploring the Limits of Transfer Learning with a …		2019-10-23
DeBERTaV3large	DeBERTaV3: Improving DeBERTa using ELECTRA-Style …		2021-11-18
DeBERTa (large)	DeBERTa: Decoding-enhanced BERT with Disentangled…		2020-06-05
XLNet (single model)	XLNet: Generalized Autoregressive Pretraining for…		2019-06-19
T5-Large 770M	Exploring the Limits of Transfer Learning with a …		2019-10-23
RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	LLM.int8(): 8-bit Matrix Multiplication for Trans…		2022-08-15
ERNIE 2.0 Large	ERNIE 2.0: A Continual Pre-training Framework for…		2019-07-29
RoBERTa-large 355M + Entailment as Few-shot Learner	Entailment as Few-Shot Learner		2021-04-29
SpanBERT	SpanBERT: Improving Pre-training by Representing …		2019-07-24
TRANS-BLSTM	TRANS-BLSTM: Transformer with Bidirectional LSTM …		2020-03-16
T5-Base	Exploring the Limits of Transfer Learning with a …		2019-10-23
ASA + RoBERTa	Adversarial Self-Attention for Language Understan…		2022-06-25
MLM+ subs+ del-span	CLEAR: Contrastive Learning for Sentence Represen…		2020-12-31
ERNIE 2.0 Base	ERNIE 2.0: A Continual Pre-training Framework for…		2019-07-29
BERT-LARGE	BERT: Pre-training of Deep Bidirectional Transfor…		2018-10-11
BigBird	Big Bird: Transformers for Longer Sequences		2020-07-28
RealFormer	RealFormer: Transformer Likes Residual Attention		2020-12-21
ASA + BERT-base	Adversarial Self-Attention for Language Understan…		2022-06-25
ERNIE	ERNIE: Enhanced Language Representation with Info…		2019-05-17
data2vec	data2vec: A General Framework for Self-supervised…		2022-02-07
Charformer-Tall	Charformer: Fast Character Transformers via Gradi…		2021-06-23
SenseBERT-base 110M	SenseBERT: Driving Some Sense into BERT		2019-08-15
TinyBERT-6 67M	TinyBERT: Distilling BERT for Natural Language Un…		2019-09-23
T5-Small	Exploring the Limits of Transfer Learning with a …		2019-10-23
DistilBERT 66M	DistilBERT, a distilled version of BERT: smaller,…		2019-10-02
SqueezeBERT	SqueezeBERT: What can computer vision teach NLP a…		2020-06-19
Nyströmformer	Nyströmformer: A Nyström-Based Algorithm for Appr…		2021-02-07
TinyBERT-4 14.5M	TinyBERT: Distilling BERT for Natural Language Un…		2019-09-23
FNet-Large	FNet: Mixing Tokens with Fourier Transforms		2021-05-09
LM-CPPF RoBERTa-base	LM-CPPF: Paraphrasing-Guided Data Augmentation fo…		2023-05-29
SMART-BERT	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08
SMARTRoBERTa	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08

QNLI

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (42)