ML Research Wiki / Benchmarks / Sentence Ordering / EconLogicQA

EconLogicQA

Sentence Ordering Benchmark

Performance Over Time

📊 Showing 18 results | 📏 Metric: Accuracy

Top Performing Models

Rank	Model	Paper	Accuracy	Date	Code
1	GPT-4-Turbo	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.57	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
2	GPT-4	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.55	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
3	GPT-3.5-Turbo	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.38	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
4	Llama-3-8B-Instruct	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.35	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
5	Mistral-7B-Instruct-v0.2	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.32	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
6	Mistral-7B-v0.1	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.26	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
7	Mistral-7B-v0.2	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.26	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
8	Llama-3-8B	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.24	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
9	Zephyr-7B-Alpha	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.23	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness
10	Yi-6B-Chat	EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning	0.21	2024-05-13	📦 yinzhu-quan/lm-evaluation-harness

All Papers (18)

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

GPT-4-Turbo

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

GPT-4

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

GPT-3.5-Turbo

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Llama-3-8B-Instruct

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Mistral-7B-Instruct-v0.2

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Mistral-7B-v0.1

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Mistral-7B-v0.2

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Llama-3-8B

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Zephyr-7B-Alpha

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Yi-6B-Chat

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Zephyr-7B-Beta

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Mistral-7B-Instruct-v0.1

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Llama-2-13B-Chat

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Llama-2-7B-Chat

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Gemma-2B-IT

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Yi-6B

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Gemma-7B-IT

yinzhu-quan/lm-evaluation-harness

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

2024

Llama-2-7B

yinzhu-quan/lm-evaluation-harness

EconLogicQA

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (18)

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

Model	Paper	Accuracy	Date
GPT-4-Turbo	EconLogicQA: A Question-Answering Benchmark for E…	0.57	2024-05-13
GPT-4	EconLogicQA: A Question-Answering Benchmark for E…	0.55	2024-05-13
GPT-3.5-Turbo	EconLogicQA: A Question-Answering Benchmark for E…	0.38	2024-05-13
Llama-3-8B-Instruct	EconLogicQA: A Question-Answering Benchmark for E…	0.35	2024-05-13
Mistral-7B-Instruct-v0.2	EconLogicQA: A Question-Answering Benchmark for E…	0.32	2024-05-13
Mistral-7B-v0.1	EconLogicQA: A Question-Answering Benchmark for E…	0.26	2024-05-13
Mistral-7B-v0.2	EconLogicQA: A Question-Answering Benchmark for E…	0.26	2024-05-13
Llama-3-8B	EconLogicQA: A Question-Answering Benchmark for E…	0.24	2024-05-13
Zephyr-7B-Alpha	EconLogicQA: A Question-Answering Benchmark for E…	0.23	2024-05-13
Yi-6B-Chat	EconLogicQA: A Question-Answering Benchmark for E…	0.21	2024-05-13
Zephyr-7B-Beta	EconLogicQA: A Question-Answering Benchmark for E…	0.18	2024-05-13
Mistral-7B-Instruct-v0.1	EconLogicQA: A Question-Answering Benchmark for E…	0.15	2024-05-13
Llama-2-13B-Chat	EconLogicQA: A Question-Answering Benchmark for E…	0.15	2024-05-13
Llama-2-7B-Chat	EconLogicQA: A Question-Answering Benchmark for E…	0.09	2024-05-13
Gemma-2B-IT	EconLogicQA: A Question-Answering Benchmark for E…	0.08	2024-05-13
Yi-6B	EconLogicQA: A Question-Answering Benchmark for E…	0.04	2024-05-13
Gemma-7B-IT	EconLogicQA: A Question-Answering Benchmark for E…	0.02	2024-05-13
Llama-2-7B	EconLogicQA: A Question-Answering Benchmark for E…	0.01	2024-05-13