ML Research Wiki / Benchmarks / Code Generation / APPS

APPS

Code Generation Benchmark

Performance Over Time

📊 Showing 18 results | 📏 Metric: Introductory Pass@1

Top Performing Models

Rank	Model	Paper	Introductory Pass@1	Date	Code
1	LPW (GPT-4o)	Planning-Driven Programming: A Large Language Model Programming Workflow	87.20	2024-11-21	📦 you68681/lpw
2	MoTCoder-32B-V1.5	MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks	68.44	2023-12-26	📦 dvlab-research/motcoder
3	MoTCoder-7B-V1.5	MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks	54.26	2023-12-26	📦 dvlab-research/motcoder
4	deepseek-ai/deepseek-coder-6.7b-instruct	DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence	33.80	2024-01-25	📦 deepseek-ai/DeepSeek-Coder
5	code-davinci-002 175B	CodeT: Code Generation with Generated Tests	31.92	2022-07-21	📦 microsoft/codet
6	WizardCoder-15b	CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules	26.29	2023-10-13	📦 SalesforceAIResearch/CodeChain
7	CodeSim (GPT4)	CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging	26.04	2025-02-08	📦 kagnlp/CodeGenerator
8	AlphaCode 1B Filtered from 50000	Competition-Level Code Generation with AlphaCode	22.00	2022-02-08	📦 google-deepmind/code_contests 📦 deepmind/code_contests
9	CodeRL+CodeT5	CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning	20.00	2022-07-05	📦 salesforce/codet5 📦 salesforce/coderl
10	code-davinci-002 175B (CodeT)	CodeT: Code Generation with Generated Tests	0.00	2022-07-21	📦 microsoft/codet

All Papers (18)

Planning-Driven Programming: A Large Language Model Programming Workflow

2024

LPW (GPT-4o)

you68681/lpw

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks

2023

MoTCoder-32B-V1.5

dvlab-research/motcoder

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks

2023

MoTCoder-7B-V1.5

dvlab-research/motcoder

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

2024

deepseek-ai/deepseek-coder-6.7b-instruct

deepseek-ai/DeepSeek-Coder

CodeT: Code Generation with Generated Tests

2022

code-davinci-002 175B

microsoft/codet

CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

2023

WizardCoder-15b

SalesforceAIResearch/CodeChain

CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

2025

CodeSim (GPT4)

kagnlp/CodeGenerator

Competition-Level Code Generation with AlphaCode

2022

AlphaCode 1B Filtered from 50000

google-deepmind/code_contests deepmind/code_contests

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

2022

CodeRL+CodeT5

salesforce/codet5 salesforce/coderl

CodeT: Code Generation with Generated Tests

2022

code-davinci-002 175B (CodeT)

microsoft/codet

CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

2023

CodeChain+WizardCoder-15b

SalesforceAIResearch/CodeChain

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

2022

GPT-J 6B (Finetuned)

salesforce/codet5 salesforce/coderl

Evaluating Large Language Models Trained on Code

2021

Codex 12B (Raw)

THUDM/CodeGeeX ncoop57/gpt-code-clippy

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

2022

GPT-Neo 2.7B (Finetuned)

salesforce/codet5 salesforce/coderl

Measuring Coding Challenge Competence With APPS

2021

GPT-Neo 2.7B

ncoop57/gpt-code-clippy codedotal/gpt-code-clippy hendrycks/apps

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

2022

GPT2 1.5B (Finetuned)

salesforce/codet5 salesforce/coderl

MapCoder: Multi-Agent Code Generation for Competitive Problem Solving

2024

MapCoder APPS-150-cherrypicked (GPT-4)

md-ashraful-pramanik/mapcoder Luoji-zju/Agents4PLC_release

Competition-Level Code Generation with AlphaCode

2022

AlphaCode 1B

google-deepmind/code_contests deepmind/code_contests

APPS

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (18)

Planning-Driven Programming: A Large Language Model Programming Workflow

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks

MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

CodeT: Code Generation with Generated Tests

CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Competition-Level Code Generation with AlphaCode

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

CodeT: Code Generation with Generated Tests

CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

Evaluating Large Language Models Trained on Code

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

Measuring Coding Challenge Competence With APPS

CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning

MapCoder: Multi-Agent Code Generation for Competitive Problem Solving

Competition-Level Code Generation with AlphaCode

Model	Paper	Introductory Pass@1	Date
LPW (GPT-4o)	Planning-Driven Programming: A Large Language Mod…	87.20	2024-11-21
MoTCoder-32B-V1.5	MoTCoder: Elevating Large Language Models with Mo…	68.44	2023-12-26
MoTCoder-7B-V1.5	MoTCoder: Elevating Large Language Models with Mo…	54.26	2023-12-26
deepseek-ai/deepseek-coder-6.7b-instruct	DeepSeek-Coder: When the Large Language Model Mee…	33.80	2024-01-25
code-davinci-002 175B	CodeT: Code Generation with Generated Tests	31.92	2022-07-21
WizardCoder-15b	CodeChain: Towards Modular Code Generation Throug…	26.29	2023-10-13
CodeSim (GPT4)	CODESIM: Multi-Agent Code Generation and Problem …	26.04	2025-02-08
AlphaCode 1B Filtered from 50000	Competition-Level Code Generation with AlphaCode	22.00	2022-02-08
CodeRL+CodeT5	CodeRL: Mastering Code Generation through Pretrai…	20.00	2022-07-05
code-davinci-002 175B (CodeT)	CodeT: Code Generation with Generated Tests		2022-07-21
CodeChain+WizardCoder-15b	CodeChain: Towards Modular Code Generation Throug…		2023-10-13
GPT-J 6B (Finetuned)	CodeRL: Mastering Code Generation through Pretrai…		2022-07-05
Codex 12B (Raw)	Evaluating Large Language Models Trained on Code		2021-07-07
GPT-Neo 2.7B (Finetuned)	CodeRL: Mastering Code Generation through Pretrai…		2022-07-05
GPT-Neo 2.7B	Measuring Coding Challenge Competence With APPS		2021-05-20
GPT2 1.5B (Finetuned)	CodeRL: Mastering Code Generation through Pretrai…		2022-07-05
MapCoder APPS-150-cherrypicked (GPT-4)	MapCoder: Multi-Agent Code Generation for Competi…		2024-05-18
AlphaCode 1B	Competition-Level Code Generation with AlphaCode		2022-02-08