ML Research Wiki / Benchmarks / Semantic Textual Similarity / MRPC

MRPC

Semantic Textual Similarity Benchmark

Performance Over Time

📊 Showing 43 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	T5-3B	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	92.50	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
2	T5-Large	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	92.40	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
3	T5-11B	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	91.90	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
4	MT-DNN-SMART	SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization	91.70	2019-11-08	📦 namisan/mt-dnn 📦 microsoft/MT-DNN 📦 archinetai/smart-pytorch
5	BigBird	Big Bird: Transformers for Longer Sequences	91.50	2020-07-28	📦 huggingface/transformers 📦 tensorflow/models 📦 PaddlePaddle/PaddleNLP
6	Charformer-Tall	Charformer: Fast Character Transformers via Gradient-based Subword Tokenization	91.40	2021-06-23	📦 google-research/google-research 📦 lucidrains/charformer-pytorch
7	RoBERTa-large 355M + Entailment as Few-shot Learner	Entailment as Few-Shot Learner	91.00	2021-04-29	📦 PaddlePaddle/PaddleNLP 📦 sunyilgdx/prompts4keras 📦 cactilab/hateguard
8	T5-Base	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	90.70	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
9	PSQ (Chen et al., 2020)	A Statistical Framework for Low-bitwidth Training of Deep Neural Networks	90.40	2020-10-27	📦 cjf00000/StatQuant 📦 gaochang-bjtu/1-bit-fqt
10	Q8BERT (Zafrir et al., 2019)	Q8BERT: Quantized 8Bit BERT	89.70	2019-10-14	📦 NervanaSystems/nlp-architect 📦 intellabs/model-compression-research-package 📦 huggingface/block_movement_pruning 📦 mindspore-ai/models 📦 iabd/QuantizedNMT

All Papers (43)

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-3B

huggingface/transformers PaddlePaddle/PaddleNLP

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Large

huggingface/transformers PaddlePaddle/PaddleNLP

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-11B

huggingface/transformers PaddlePaddle/PaddleNLP

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

MT-DNN-SMART

namisan/mt-dnn microsoft/MT-DNN

Big Bird: Transformers for Longer Sequences

2020

BigBird

huggingface/transformers tensorflow/models

Charformer: Fast Character Transformers via Gradient-based Subword Tokenization

2021

Charformer-Tall

google-research/google-research lucidrains/charformer-pytorch

Entailment as Few-Shot Learner

2021

RoBERTa-large 355M + Entailment as Few-shot Learner

PaddlePaddle/PaddleNLP sunyilgdx/prompts4keras cactilab/hateguard

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Base

huggingface/transformers PaddlePaddle/PaddleNLP

A Statistical Framework for Low-bitwidth Training of Deep Neural Networks

2020

PSQ (Chen et al., 2020)

cjf00000/StatQuant gaochang-bjtu/1-bit-fqt

Q8BERT: Quantized 8Bit BERT

2019

Q8BERT (Zafrir et al., 2019)

NervanaSystems/nlp-architect intellabs/model-compression-research-package

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Small

huggingface/transformers PaddlePaddle/PaddleNLP

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2018

BERT-LARGE

huggingface/transformers tensorflow/models

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

2019

Q-BERT (Shen et al., 2020)

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

2019

ALBERT

huggingface/transformers tensorflow/models

RoBERTa: A Robustly Optimized BERT Pretraining Approach

2019

RoBERTa (ensemble)

huggingface/transformers pytorch/fairseq

StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding

2019

StructBERTRoBERTa ensemble

Learning to Encode Position for Transformer with Continuous Dynamical Model

2020

FLOATER-large

xuanqing94/FLOATER

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

SMART

namisan/mt-dnn microsoft/MT-DNN

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

2022

RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)

timdettmers/bitsandbytes huggingface/transformers-bloom-inference

SpanBERT: Improving Pre-training by Representing and Predicting Spans

2019

SpanBERT

facebookresearch/SpanBERT mandarjoshi90/coref

XLNet: Generalized Autoregressive Pretraining for Language Understanding

2019

XLNet (single model)

huggingface/transformers PaddlePaddle/PaddleNLP

AutoBERT-Zero: Evolving BERT Backbone from Scratch

2021

AutoBERT-Zero (Large)

CLEAR: Contrastive Learning for Sentence Representation

2020

MLM+ del-word+ reorder

AutoBERT-Zero: Evolving BERT Backbone from Scratch

2021

AutoBERT-Zero (Base)

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

2019

DistilBERT 66M

huggingface/transformers PaddlePaddle/PaddleNLP

MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

2020

MobileBERT

tensorflow/models tchebonenko/Automated-Topic_Modeling-and-NER

ERNIE: Enhanced Language Representation with Informative Entities

2019

ERNIE

thunlp/ERNIE Mind23-2/MindCode-136

FNet: Mixing Tokens with Fourier Transforms

2021

FNet-Large

labmlai/annotated_deep_learning_paper_implementations google-research/google-research

SqueezeBERT: What can computer vision teach NLP about efficient neural networks?

2020

SqueezeBERT

huggingface/transformers huggingface/transformers

How to Train BERT with an Academic Budget

2021

24hBERT

peteriz/academic-budget-bert IntelLabs/academic-budget-bert

ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

2019

ERNIE 2.0 Large

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE DataScienceNigeria/ERNIE-2.0-from-Baidu-Inc.

TinyBERT: Distilling BERT for Natural Language Understanding

2019

TinyBERT-6 67M

PaddlePaddle/PaddleNLP huawei-noah/Pretrained-Language-Model

RealFormer: Transformer Likes Residual Attention

2020

RealFormer

google-research/google-research cloneofsimo/RealFormer-pytorch

SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization

2024

RoBERTa + SubRegWeigh (K-means)

4ldk/SubRegWeigh

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

SMARTRoBERTa

namisan/mt-dnn microsoft/MT-DNN

TinyBERT: Distilling BERT for Natural Language Understanding

2019

TinyBERT-4 14.5M

PaddlePaddle/PaddleNLP huawei-noah/Pretrained-Language-Model

ERNIE 2.0: A Continual Pre-training Framework for Language Understanding

2019

ERNIE 2.0 Base

PaddlePaddle/PaddleNLP PaddlePaddle/ERNIE DataScienceNigeria/ERNIE-2.0-from-Baidu-Inc.

Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning

2018

GenSen

facebookresearch/InferSent facebookresearch/SentEval

Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

2017

InferSent

facebookresearch/InferSent facebookresearch/SentEval

Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention

2021

Nyströmformer

facebookresearch/xformers mlpen/Nystromformer

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

2020

BERT-Base

rabeehk/compacter anonymousxzy/compacter

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

2020

BERT-Large

rabeehk/compacter anonymousxzy/compacter

SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

2019

SMART-BERT

namisan/mt-dnn microsoft/MT-DNN

Model	Paper	Accuracy	Date
T5-3B	Exploring the Limits of Transfer Learning with a …	92.50	2019-10-23
T5-Large	Exploring the Limits of Transfer Learning with a …	92.40	2019-10-23
T5-11B	Exploring the Limits of Transfer Learning with a …	91.90	2019-10-23
MT-DNN-SMART	SMART: Robust and Efficient Fine-Tuning for Pre-t…	91.70	2019-11-08
BigBird	Big Bird: Transformers for Longer Sequences	91.50	2020-07-28
Charformer-Tall	Charformer: Fast Character Transformers via Gradi…	91.40	2021-06-23
RoBERTa-large 355M + Entailment as Few-shot Learner	Entailment as Few-Shot Learner	91.00	2021-04-29
T5-Base	Exploring the Limits of Transfer Learning with a …	90.70	2019-10-23
PSQ (Chen et al., 2020)	A Statistical Framework for Low-bitwidth Training…	90.40	2020-10-27
Q8BERT (Zafrir et al., 2019)	Q8BERT: Quantized 8Bit BERT	89.70	2019-10-14
T5-Small	Exploring the Limits of Transfer Learning with a …	89.70	2019-10-23
BERT-LARGE	BERT: Pre-training of Deep Bidirectional Transfor…	89.30	2018-10-11
Q-BERT (Shen et al., 2020)	Q-BERT: Hessian Based Ultra Low Precision Quantiz…	88.20	2019-09-12
ALBERT	ALBERT: A Lite BERT for Self-supervised Learning …		2019-09-26
RoBERTa (ensemble)	RoBERTa: A Robustly Optimized BERT Pretraining Ap…		2019-07-26
StructBERTRoBERTa ensemble	StructBERT: Incorporating Language Structures int…		2019-08-13
FLOATER-large	Learning to Encode Position for Transformer with …		2020-03-13
SMART	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08
RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	LLM.int8(): 8-bit Matrix Multiplication for Trans…		2022-08-15
SpanBERT	SpanBERT: Improving Pre-training by Representing …		2019-07-24
XLNet (single model)	XLNet: Generalized Autoregressive Pretraining for…		2019-06-19
AutoBERT-Zero (Large)	AutoBERT-Zero: Evolving BERT Backbone from Scratch		2021-07-15
MLM+ del-word+ reorder	CLEAR: Contrastive Learning for Sentence Represen…		2020-12-31
AutoBERT-Zero (Base)	AutoBERT-Zero: Evolving BERT Backbone from Scratch		2021-07-15
DistilBERT 66M	DistilBERT, a distilled version of BERT: smaller,…		2019-10-02
MobileBERT	MobileBERT: a Compact Task-Agnostic BERT for Reso…		2020-04-06
ERNIE	ERNIE: Enhanced Language Representation with Info…		2019-05-17
FNet-Large	FNet: Mixing Tokens with Fourier Transforms		2021-05-09
SqueezeBERT	SqueezeBERT: What can computer vision teach NLP a…		2020-06-19
24hBERT	How to Train BERT with an Academic Budget		2021-04-15
ERNIE 2.0 Large	ERNIE 2.0: A Continual Pre-training Framework for…		2019-07-29
TinyBERT-6 67M	TinyBERT: Distilling BERT for Natural Language Un…		2019-09-23
RealFormer	RealFormer: Transformer Likes Residual Attention		2020-12-21
RoBERTa + SubRegWeigh (K-means)	SubRegWeigh: Effective and Efficient Annotation W…		2024-09-10
SMARTRoBERTa	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08
TinyBERT-4 14.5M	TinyBERT: Distilling BERT for Natural Language Un…		2019-09-23
ERNIE 2.0 Base	ERNIE 2.0: A Continual Pre-training Framework for…		2019-07-29
GenSen	Learning General Purpose Distributed Sentence Rep…		2018-03-30
InferSent	Supervised Learning of Universal Sentence Represe…		2017-05-05
Nyströmformer	Nyströmformer: A Nyström-Based Algorithm for Appr…		2021-02-07
BERT-Base	Intrinsic Dimensionality Explains the Effectivene…		2020-12-22
BERT-Large	Intrinsic Dimensionality Explains the Effectivene…		2020-12-22
SMART-BERT	SMART: Robust and Efficient Fine-Tuning for Pre-t…		2019-11-08

MRPC

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (43)