ML Research Wiki / Benchmarks / Common Sense Reasoning / WinoGrande

WinoGrande

Common Sense Reasoning Benchmark

Performance Over Time

📊 Showing 73 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	ST-MoE-32B 269B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse Expert Models	96.10	2022-02-17	📦 tensorflow/mesh 📦 xuefuzhao/openmoe 📦 yikangshen/megablocks
2	Unicorn 11B (fine-tuned)	UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New Multitask Benchmark	91.30	2021-03-24	📦 allenai/rainbow
3	CompassMTL 567M with Tailor	Task Compass: Scaling Multi-task Pre-training with Task Prefix	90.50	2022-10-12	📦 cooelf/compassmtl
4	CompassMTL 567M	Task Compass: Scaling Multi-task Pre-training with Task Prefix	89.60	2022-10-12	📦 cooelf/compassmtl
5	UnifiedQA 11B (fine-tuned)	UnifiedQA: Crossing Format Boundaries With a Single QA System	89.40	2020-05-02	📦 allenai/unifiedqa 📦 facebookresearch/metaicl
6	GPT-4 (5-shot)	GPT-4 Technical Report	87.50	2023-03-15	📦 openai/evals 📦 shmsw25/factscore 📦 unispac/visual-adversarial-examples-jailbreak-large-language-models
7	ExDeBERTa 567M	Task Compass: Scaling Multi-task Pre-training with Task Prefix	87.00	2022-10-12	📦 cooelf/compassmtl
8	LLaMA-2 13B + MixLoRA	MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts	86.30	2024-04-22	📦 TUDB-Labs/MixLoRA 📦 mikecovlee/mLoRA
9	LLaMA3 8B+MoSLoRA	Mixture-of-Subspaces in Low-Rank Adaptation	85.80	2024-06-16	📦 wutaiqiang/moslora
10	PaLM 2-L (1-shot)	PaLM 2 Technical Report	83.00	2023-05-17	📦 eternityyw/tram-benchmark

All Papers (73)

ST-MoE: Designing Stable and Transferable Sparse Expert Models

2022

ST-MoE-32B 269B (fine-tuned)

tensorflow/mesh xuefuzhao/openmoe yikangshen/megablocks

UNICORN on RAINBOW: A Universal Commonsense Reasoning Model on a New Multitask Benchmark

2021

Unicorn 11B (fine-tuned)

allenai/rainbow

Task Compass: Scaling Multi-task Pre-training with Task Prefix

2022

CompassMTL 567M with Tailor

cooelf/compassmtl

Task Compass: Scaling Multi-task Pre-training with Task Prefix

2022

CompassMTL 567M

cooelf/compassmtl

UnifiedQA: Crossing Format Boundaries With a Single QA System

2020

UnifiedQA 11B (fine-tuned)

allenai/unifiedqa facebookresearch/metaicl

GPT-4 Technical Report

2023

GPT-4 (5-shot)

openai/evals shmsw25/factscore

Task Compass: Scaling Multi-task Pre-training with Task Prefix

2022

ExDeBERTa 567M

cooelf/compassmtl

MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts

2024

LLaMA-2 13B + MixLoRA

TUDB-Labs/MixLoRA mikecovlee/mLoRA

Mixture-of-Subspaces in Low-Rank Adaptation

2024

LLaMA3 8B+MoSLoRA

wutaiqiang/moslora

PaLM 2 Technical Report

2023

PaLM 2-L (1-shot)

eternityyw/tram-benchmark

MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts

2024

LLaMA-3 8B + MixLoRA

TUDB-Labs/MixLoRA mikecovlee/mLoRA

ST-MoE: Designing Stable and Transferable Sparse Expert Models

2022

ST-MoE-L 4.1B (fine-tuned)

tensorflow/mesh xuefuzhao/openmoe yikangshen/megablocks

GPT-4 Technical Report

2023

GPT-3.5 (5-shot)

openai/evals shmsw25/factscore

PaLM: Scaling Language Modeling with Pathways

2022

PaLM 540B (0-shot)

lucidrains/CoCa-pytorch lucidrains/PaLM-pytorch

Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks

2024

Camelidae-8×34B

wuhy68/parameter-efficient-moe ShayekhBinIslam/openrag

PaLM 2 Technical Report

2023

PaLM 2-M (1-shot)

eternityyw/tram-benchmark

WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2019

RoBERTa-Winogrande 355M (fine-tuned)

vered1986/self_talk mindspore-ai/contrib

PaLM 2 Technical Report

2023

PaLM 2-S (1-shot)

eternityyw/tram-benchmark

Mixtral of Experts

2024

Mixtral 8x7B (0-shot)

jingyaogong/minimind hit-scir/chinese-mixtral-8x7b

PaLM: Scaling Language Modeling with Pathways

2022

PaLM 62B (0-shot)

lucidrains/CoCa-pytorch lucidrains/PaLM-pytorch

PaLM: Scaling Language Modeling with Pathways

2022

PaLM-cont 62B (0-shot)

lucidrains/CoCa-pytorch lucidrains/PaLM-pytorch

LLaMA: Open and Efficient Foundation Language Models

2023

LLaMA 65B (0-shot)

huggingface/transformers ggml-org/llama.cpp

MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of Experts

2024

LLaMA-2 7B + MixLoRA

TUDB-Labs/MixLoRA mikecovlee/mLoRA

LLaMA: Open and Efficient Foundation Language Models

2023

LLaMA 33B (0-shot)

huggingface/transformers ggml-org/llama.cpp

Mistral 7B

2023

Mistral 7B (0-shot)

mistralai/mistral-src facebookresearch/fairseq2

Training Compute-Optimal Large Language Models

2022

Chinchilla 70B (0-shot)

karpathy/llama2.c nkluge-correa/teenytinyllama

Mixtral of Experts

2024

Mistral 7B (0-shot)

jingyaogong/minimind hit-scir/chinese-mixtral-8x7b

Textbooks Are All You Need II: phi-1.5 technical report

2023

phi-1.5-web 1.3B (zero-shot)

knowlab/bi-weekly-paper-presentation

UnifiedQA: Crossing Format Boundaries With a Single QA System

2020

Unified QA 406M (fine-tuned)

allenai/unifiedqa facebookresearch/metaicl

LLaMA: Open and Efficient Foundation Language Models

2023

LLaMA 13B (0-shot)

huggingface/transformers ggml-org/llama.cpp

Finetuned Language Models Are Zero-Shot Learners

2021

FLAN 137B (few-shot, k=16)

hiyouga/llama-efficient-tuning bigcode-project/starcoder

Generative Data Augmentation for Commonsense Reasoning

2020

G-DAUG-Combo + RoBERTa-Large

yangyiben/G-DAUG-c-Generative-Data-Augmentation-for-Commonsense-Reasoning

Finetuned Language Models Are Zero-Shot Learners

2021

FLAN 137B (0-shot)

hiyouga/llama-efficient-tuning bigcode-project/starcoder

Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

2024

Branch-Train-MiX 4x7B (sampling top-1 expert)

Leeroo-AI/mergoo

Language Models are Few-Shot Learners

2020

GPT-3 175B (0-shot)

ggml-org/llama.cpp ggerganov/llama.cpp

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

2021

Gopher 280B (0-shot)

allenai/dolma rvlopes/gloria bramiozo/PubScience

LLaMA: Open and Efficient Foundation Language Models

2023

LLaMA 7B (0-shot)

huggingface/transformers ggml-org/llama.cpp

BloombergGPT: A Large Language Model for Finance

2023

BLOOM 176B (1-shot)

yangletliu/finlora open-finance-lab/finlora

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

2023

Pythia 12B (5-shot)

Lightning-AI/lit-gpt jzhang38/tinyllama

BloombergGPT: A Large Language Model for Finance

2023

OPT 66B (1-shot)

yangletliu/finlora open-finance-lab/finlora

WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2019

BERT-Winogrande 345M (fine-tuned)

vered1986/self_talk mindspore-ai/contrib

BloombergGPT: A Large Language Model for Finance

2023

Bloomberg GPT (one-shot)

yangletliu/finlora open-finance-lab/finlora

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

2023

Pythia 12B (0-shot)

Lightning-AI/lit-gpt jzhang38/tinyllama

Exploring the Benefits of Training Expert Language Models over Instruction Tuning

2023

RoE-3B

joeljang/rlphf joeljang/elm

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

2023

Pythia 6.9B (0-shot)

Lightning-AI/lit-gpt jzhang38/tinyllama

BloombergGPT: A Large Language Model for Finance

2023

GPT-NeoX (one-shot)

yangletliu/finlora open-finance-lab/finlora

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

2023

FLAN-T5-Large 783M

mbzuai-nlp/lamini-lm

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

2023

Pythia 2.8B (0-shot)

Lightning-AI/lit-gpt jzhang38/tinyllama

WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2019

RoBERTa-DPR 355M (0-shot)

vered1986/self_talk mindspore-ai/contrib

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

ALBERT-xxlarge 235M

Guess the Instruction! Flipped Learning Makes Language Models Stronger Zero-Shot Learners

2022

Flipped-3B

seonghyeonye/flipped-learning

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

2023

GPT-2-XL 1.5B

mbzuai-nlp/lamini-lm

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

2023

T0-3B (CoT fine-tuned)

kaistai/cot-collection kaist-lklab/cot-collection

Language Models are Few-Shot Learners

2020

GPT-3 Large 760M (0-shot)

ggml-org/llama.cpp ggerganov/llama.cpp

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

RoBERTa-base 125M

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

2023

LaMini-F-T5 783M

mbzuai-nlp/lamini-lm

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

2023

LaMini-GPT 1.5B

mbzuai-nlp/lamini-lm

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

BERT-large 345M

Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models

2022

KiC-770M

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

2023

T5-Large 738M

mbzuai-nlp/lamini-lm

LaMini-LM: A Diverse Herd of Distilled Models from Large-Scale Instructions

2023

LaMini-T5 738M

mbzuai-nlp/lamini-lm

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

RoBERTa-large 355M

Efficient Language Modeling with Sparse all-MLP

2022

sMLP – deterministic 9.4B (0-shot)

Efficient Language Modeling with Sparse all-MLP

2022

Switch Transformer 9B (0-shot)

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

BERT-base 110M

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

ALBERT-base 11M

WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2019

BERT-large 345M (0-shot)

vered1986/self_talk mindspore-ai/contrib

Efficient Language Modeling with Sparse all-MLP

2022

HASH Layers 10B (0-shot)

Efficient Language Modeling with Sparse all-MLP

2022

Gshard 9B (0-shot)

Efficient Language Modeling with Sparse all-MLP

2022

Base Layers 10B (0-shot)

WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2019

BERT-DPR 345M (0-shot)

vered1986/self_talk mindspore-ai/contrib

Back to Square One: Artifact Detection, Training and Commonsense Disentanglement in the Winograd Schema

2021

Random baseline

WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2019

RoBERTa-large 355M (0-shot)

vered1986/self_talk mindspore-ai/contrib

Model	Paper	Accuracy	Date
ST-MoE-32B 269B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse …	96.10	2022-02-17
Unicorn 11B (fine-tuned)	UNICORN on RAINBOW: A Universal Commonsense Reaso…	91.30	2021-03-24
CompassMTL 567M with Tailor	Task Compass: Scaling Multi-task Pre-training wit…	90.50	2022-10-12
CompassMTL 567M	Task Compass: Scaling Multi-task Pre-training wit…	89.60	2022-10-12
UnifiedQA 11B (fine-tuned)	UnifiedQA: Crossing Format Boundaries With a Sing…	89.40	2020-05-02
GPT-4 (5-shot)	GPT-4 Technical Report	87.50	2023-03-15
ExDeBERTa 567M	Task Compass: Scaling Multi-task Pre-training wit…	87.00	2022-10-12
LLaMA-2 13B + MixLoRA	MixLoRA: Enhancing Large Language Models Fine-Tun…	86.30	2024-04-22
LLaMA3 8B+MoSLoRA	Mixture-of-Subspaces in Low-Rank Adaptation	85.80	2024-06-16
PaLM 2-L (1-shot)	PaLM 2 Technical Report	83.00	2023-05-17
LLaMA-3 8B + MixLoRA	MixLoRA: Enhancing Large Language Models Fine-Tun…	82.10	2024-04-22
ST-MoE-L 4.1B (fine-tuned)	ST-MoE: Designing Stable and Transferable Sparse …	81.70	2022-02-17
GPT-3.5 (5-shot)	GPT-4 Technical Report	81.60	2023-03-15
PaLM 540B (0-shot)	PaLM: Scaling Language Modeling with Pathways	81.10	2022-04-05
Camelidae-8×34B	Parameter-Efficient Sparsity Crafting from Dense …	80.90	2024-01-05
PaLM 2-M (1-shot)	PaLM 2 Technical Report	79.20	2023-05-17
RoBERTa-Winogrande 355M (fine-tuned)	WinoGrande: An Adversarial Winograd Schema Challe…	79.10	2019-07-24
PaLM 2-S (1-shot)	PaLM 2 Technical Report	77.90	2023-05-17
Mixtral 8x7B (0-shot)	Mixtral of Experts	77.20	2024-01-08
PaLM 62B (0-shot)	PaLM: Scaling Language Modeling with Pathways	77.00	2022-04-05
PaLM-cont 62B (0-shot)	PaLM: Scaling Language Modeling with Pathways	77.00	2022-04-05
LLaMA 65B (0-shot)	LLaMA: Open and Efficient Foundation Language Mod…	77.00	2023-02-27
LLaMA-2 7B + MixLoRA	MixLoRA: Enhancing Large Language Models Fine-Tun…	76.80	2024-04-22
LLaMA 33B (0-shot)	LLaMA: Open and Efficient Foundation Language Mod…	76.00	2023-02-27
Mistral 7B (0-shot)	Mistral 7B	75.30	2023-10-10
Chinchilla 70B (0-shot)	Training Compute-Optimal Large Language Models	74.90	2022-03-29
Mistral 7B (0-shot)	Mixtral of Experts	74.20	2024-01-08
phi-1.5-web 1.3B (zero-shot)	Textbooks Are All You Need II: phi-1.5 technical …	74.00	2023-09-11
Unified QA 406M (fine-tuned)	UnifiedQA: Crossing Format Boundaries With a Sing…	73.30	2020-05-02
LLaMA 13B (0-shot)	LLaMA: Open and Efficient Foundation Language Mod…	73.00	2023-02-27
FLAN 137B (few-shot, k=16)	Finetuned Language Models Are Zero-Shot Learners	72.80	2021-09-03
G-DAUG-Combo + RoBERTa-Large	Generative Data Augmentation for Commonsense Reas…	71.40	2020-04-24
FLAN 137B (0-shot)	Finetuned Language Models Are Zero-Shot Learners	71.20	2021-09-03
Branch-Train-MiX 4x7B (sampling top-1 expert)	Branch-Train-MiX: Mixing Expert LLMs into a Mixtu…	70.60	2024-03-12
GPT-3 175B (0-shot)	Language Models are Few-Shot Learners	70.20	2020-05-28
Gopher 280B (0-shot)	Scaling Language Models: Methods, Analysis & Insi…	70.10	2021-12-08
LLaMA 7B (0-shot)	LLaMA: Open and Efficient Foundation Language Mod…	70.10	2023-02-27
BLOOM 176B (1-shot)	BloombergGPT: A Large Language Model for Finance	67.00	2023-03-30
Pythia 12B (5-shot)	Pythia: A Suite for Analyzing Large Language Mode…	66.60	2023-04-03
OPT 66B (1-shot)	BloombergGPT: A Large Language Model for Finance	66.10	2023-03-30
BERT-Winogrande 345M (fine-tuned)	WinoGrande: An Adversarial Winograd Schema Challe…	64.90	2019-07-24
Bloomberg GPT (one-shot)	BloombergGPT: A Large Language Model for Finance	64.10	2023-03-30
Pythia 12B (0-shot)	Pythia: A Suite for Analyzing Large Language Mode…	63.90	2023-04-03
RoE-3B	Exploring the Benefits of Training Expert Languag…	61.60	2023-02-07
Pythia 6.9B (0-shot)	Pythia: A Suite for Analyzing Large Language Mode…	60.90	2023-04-03
GPT-NeoX (one-shot)	BloombergGPT: A Large Language Model for Finance	60.60	2023-03-30
FLAN-T5-Large 783M	LaMini-LM: A Diverse Herd of Distilled Models fro…	59.90	2023-04-27
Pythia 2.8B (0-shot)	Pythia: A Suite for Analyzing Large Language Mode…	59.40	2023-04-03
RoBERTa-DPR 355M (0-shot)	WinoGrande: An Adversarial Winograd Schema Challe…	58.90	2019-07-24
ALBERT-xxlarge 235M	Back to Square One: Artifact Detection, Training …	58.70	2021-04-16
Flipped-3B	Guess the Instruction! Flipped Learning Makes Lan…	58.56	2022-10-06
GPT-2-XL 1.5B	LaMini-LM: A Diverse Herd of Distilled Models fro…	58.30	2023-04-27
T0-3B (CoT fine-tuned)	The CoT Collection: Improving Zero-shot and Few-s…	57.50	2023-05-23
GPT-3 Large 760M (0-shot)	Language Models are Few-Shot Learners	57.40	2020-05-28
RoBERTa-base 125M	Back to Square One: Artifact Detection, Training …	56.30	2021-04-16
LaMini-F-T5 783M	LaMini-LM: A Diverse Herd of Distilled Models fro…	56.00	2023-04-27
LaMini-GPT 1.5B	LaMini-LM: A Diverse Herd of Distilled Models fro…	56.00	2023-04-27
BERT-large 345M	Back to Square One: Artifact Detection, Training …	55.60	2021-04-16
KiC-770M	Knowledge-in-Context: Towards Knowledgeable Semi-…	55.30	2022-10-28
T5-Large 738M	LaMini-LM: A Diverse Herd of Distilled Models fro…	55.20	2023-04-27
LaMini-T5 738M	LaMini-LM: A Diverse Herd of Distilled Models fro…	54.90	2023-04-27
RoBERTa-large 355M	Back to Square One: Artifact Detection, Training …	54.90	2021-04-16
sMLP – deterministic 9.4B (0-shot)	Efficient Language Modeling with Sparse all-MLP	54.30	2022-03-14
Switch Transformer 9B (0-shot)	Efficient Language Modeling with Sparse all-MLP	53.40	2022-03-14
BERT-base 110M	Back to Square One: Artifact Detection, Training …	53.10	2021-04-16
ALBERT-base 11M	Back to Square One: Artifact Detection, Training …	52.80	2021-04-16
BERT-large 345M (0-shot)	WinoGrande: An Adversarial Winograd Schema Challe…	51.90	2019-07-24
HASH Layers 10B (0-shot)	Efficient Language Modeling with Sparse all-MLP	51.70	2022-03-14
Gshard 9B (0-shot)	Efficient Language Modeling with Sparse all-MLP	51.10	2022-03-14
Base Layers 10B (0-shot)	Efficient Language Modeling with Sparse all-MLP	51.00	2022-03-14
BERT-DPR 345M (0-shot)	WinoGrande: An Adversarial Winograd Schema Challe…	51.00	2019-07-24
Random baseline	Back to Square One: Artifact Detection, Training …	50.00	2021-04-16
RoBERTa-large 355M (0-shot)	WinoGrande: An Adversarial Winograd Schema Challe…	50.00	2019-07-24

WinoGrande

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (73)