ML Research Wiki / Benchmarks / Natural Language Inference / CommitmentBank

CommitmentBank

Natural Language Inference Benchmark

Performance Over Time

📊 Showing 20 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	PaLM 540B (finetuned)	PaLM: Scaling Language Modeling with Pathways	100.00	2022-04-05	📦 lucidrains/CoCa-pytorch 📦 lucidrains/PaLM-pytorch 📦 google/paxml
2	Vega v2 6B (KD-based prompt transfer)	Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE	99.20	2022-12-04	-
3	ST-MoE-L 4.1B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse Expert Models	98.20	2022-02-17	📦 tensorflow/mesh 📦 xuefuzhao/openmoe 📦 yikangshen/megablocks
4	ST-MoE-32B 269B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse Expert Models	98.00	2022-02-17	📦 tensorflow/mesh 📦 xuefuzhao/openmoe 📦 yikangshen/megablocks
5	Turing NLR v5 XXL 5.4B (fine-tuned)	Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE	97.60	2022-12-04	-
6	DeBERTa-1.5B	DeBERTa: Decoding-enhanced BERT with Disentangled Attention	97.20	2020-06-05	📦 huggingface/transformers 📦 microsoft/DeBERTa 📦 osu-nlp-group/mind2web
7	T5-XXL 11B (fine-tuned)	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	96.80	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
8	T5-Large 770M (fine-tuned)	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	94.40	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
9	T5-Base 220M (fine-tuned)	Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	94.00	2019-10-23	📦 huggingface/transformers 📦 PaddlePaddle/PaddleNLP 📦 google-research/text-to-text-transfer-transformer
10	PaLM 2-L (one-shot)	PaLM 2 Technical Report	87.50	2023-05-17	📦 eternityyw/tram-benchmark

All Papers (20)

PaLM: Scaling Language Modeling with Pathways

2022

PaLM 540B (finetuned)

lucidrains/CoCa-pytorch lucidrains/PaLM-pytorch

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE

2022

Vega v2 6B (KD-based prompt transfer)

ST-MoE: Designing Stable and Transferable Sparse Expert Models

2022

ST-MoE-L 4.1B (fine-tuned)

tensorflow/mesh xuefuzhao/openmoe yikangshen/megablocks

ST-MoE: Designing Stable and Transferable Sparse Expert Models

2022

ST-MoE-32B 269B (fine-tuned)

tensorflow/mesh xuefuzhao/openmoe yikangshen/megablocks

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE

2022

Turing NLR v5 XXL 5.4B (fine-tuned)

DeBERTa: Decoding-enhanced BERT with Disentangled Attention

2020

DeBERTa-1.5B

huggingface/transformers microsoft/DeBERTa

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-XXL 11B (fine-tuned)

huggingface/transformers PaddlePaddle/PaddleNLP

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Large 770M (fine-tuned)

huggingface/transformers PaddlePaddle/PaddleNLP

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

2019

T5-Base 220M (fine-tuned)

huggingface/transformers PaddlePaddle/PaddleNLP

PaLM 2 Technical Report

2023

PaLM 2-L (one-shot)

eternityyw/tram-benchmark

PaLM 2 Technical Report

2023

PaLM 2-S (one-shot)

eternityyw/tram-benchmark

PaLM 2 Technical Report

2023

PaLM 2-M (one-shot)

eternityyw/tram-benchmark

Language Models are Few-Shot Learners

2020

GPT-3 175B (Few-Shot)

ggml-org/llama.cpp ggerganov/llama.cpp

N-Grammer: Augmenting Transformers with latent n-grams

2022

N-Grammer 343M

tensorflow/lingvo yiyixuxu/n-grammer-flax

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

2022

AlexaTM 20B

amazon-science/alexa-teacher-models

BloombergGPT: A Large Language Model for Finance

2023

Bloomberg GPT (one-shot)

yangletliu/finlora open-finance-lab/finlora

Language Models are Few-Shot Learners

2020

GPT-3 175B (few-shot, k=32)

ggml-org/llama.cpp ggerganov/llama.cpp

BloombergGPT: A Large Language Model for Finance

2023

GPT-NeoX (one-shot)

yangletliu/finlora open-finance-lab/finlora

BloombergGPT: A Large Language Model for Finance

2023

BLOOM 176B (one-shot)

yangletliu/finlora open-finance-lab/finlora

BloombergGPT: A Large Language Model for Finance

2023

OPT 66B (one-shot)

yangletliu/finlora open-finance-lab/finlora

CommitmentBank

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (20)

PaLM: Scaling Language Modeling with Pathways

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE

ST-MoE: Designing Stable and Transferable Sparse Expert Models

ST-MoE: Designing Stable and Transferable Sparse Expert Models

Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE

DeBERTa: Decoding-enhanced BERT with Disentangled Attention

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

PaLM 2 Technical Report

PaLM 2 Technical Report

PaLM 2 Technical Report

Language Models are Few-Shot Learners

N-Grammer: Augmenting Transformers with latent n-grams

AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

BloombergGPT: A Large Language Model for Finance

Language Models are Few-Shot Learners

BloombergGPT: A Large Language Model for Finance

BloombergGPT: A Large Language Model for Finance

BloombergGPT: A Large Language Model for Finance

Model	Paper	Accuracy	Date
PaLM 540B (finetuned)	PaLM: Scaling Language Modeling with Pathways	100.00	2022-04-05
Vega v2 6B (KD-based prompt transfer)	Toward Efficient Language Model Pretraining and D…	99.20	2022-12-04
ST-MoE-L 4.1B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse …	98.20	2022-02-17
ST-MoE-32B 269B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse …	98.00	2022-02-17
Turing NLR v5 XXL 5.4B (fine-tuned)	Toward Efficient Language Model Pretraining and D…	97.60	2022-12-04
DeBERTa-1.5B	DeBERTa: Decoding-enhanced BERT with Disentangled…	97.20	2020-06-05
T5-XXL 11B (fine-tuned)	Exploring the Limits of Transfer Learning with a …	96.80	2019-10-23
T5-Large 770M (fine-tuned)	Exploring the Limits of Transfer Learning with a …	94.40	2019-10-23
T5-Base 220M (fine-tuned)	Exploring the Limits of Transfer Learning with a …	94.00	2019-10-23
PaLM 2-L (one-shot)	PaLM 2 Technical Report	87.50	2023-05-17
PaLM 2-S (one-shot)	PaLM 2 Technical Report	82.10	2023-05-17
PaLM 2-M (one-shot)	PaLM 2 Technical Report	80.40	2023-05-17
GPT-3 175B (Few-Shot)	Language Models are Few-Shot Learners	75.60	2020-05-28
N-Grammer 343M	N-Grammer: Augmenting Transformers with latent n-…	67.90	2022-07-13
AlexaTM 20B	AlexaTM 20B: Few-Shot Learning Using a Large-Scal…	67.90	2022-08-02
Bloomberg GPT (one-shot)	BloombergGPT: A Large Language Model for Finance	53.57	2023-03-30
GPT-3 175B (few-shot, k=32)	Language Models are Few-Shot Learners	52.00	2020-05-28
GPT-NeoX (one-shot)	BloombergGPT: A Large Language Model for Finance	48.21	2023-03-30
BLOOM 176B (one-shot)	BloombergGPT: A Large Language Model for Finance	48.21	2023-03-30
OPT 66B (one-shot)	BloombergGPT: A Large Language Model for Finance	44.64	2023-03-30