ML Research Wiki / Benchmarks / Audio captioning / AudioCaps

AudioCaps

Audio captioning Benchmark

Performance Over Time

📊 Showing 13 results | 📏 Metric: SPIDEr

Top Performing Models

Rank	Model	Paper	SPIDEr	Date	Code
1	SLAM-AAC 📚	SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs	0.84	2024-10-12	📦 X-LANCE/SLAM-LLM
2	AutoCap	Taming Data and Transformers for Audio Generation	0.83	2024-06-27	📦 snap-research/GenAU
3	EnCLAP++-large 📚	EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance	0.82	2024-09-02	📦 jaeyeonkim99/enclap
4	LOAE 📚	Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding	0.82	2024-06-19	📦 frankenliu/LOAE
5	EnCLAP++-base 📚	EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance	0.82	2024-09-02	📦 jaeyeonkim99/enclap
6	EnCLAP-large	EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning	0.80	2024-01-31	📦 jaeyeonkim99/enclap
7	EnCLAP-base	EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning	0.78	2024-01-31	📦 jaeyeonkim99/enclap
8	AL-MixGen	Exploring Train and Test-Time Augmentations for Audio-Language Learning	0.76	2022-10-31	-
9	CNN+Transformer	Audio Captioning Transformer	0.69	2021-07-21	📦 XinhaoMei/ACT
10	MQ-Cap 📚	Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning	0.30	2024-10-14	-

All Papers (13)

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

2024

SLAM-AAC

X-LANCE/SLAM-LLM

Taming Data and Transformers for Audio Generation

2024

AutoCap

snap-research/GenAU

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance

2024

EnCLAP++-large

jaeyeonkim99/enclap

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding

2024

LOAE

frankenliu/LOAE

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance

2024

EnCLAP++-base

jaeyeonkim99/enclap

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

2024

EnCLAP-large

jaeyeonkim99/enclap

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

2024

EnCLAP-base

jaeyeonkim99/enclap

Exploring Train and Test-Time Augmentations for Audio-Language Learning

2022

AL-MixGen

Audio Captioning Transformer

2021

CNN+Transformer

XinhaoMei/ACT

Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning

2024

MQ-Cap

LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport

2025

LAVCap

naver-intel-co-lab/gaudi-lavcap Hyeongkeun/LAVCap

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

2023

VAST

TXH-mercury/VALOR txh-mercury/vast

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2023

VALOR

TXH-mercury/VALOR

AudioCaps

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (13)

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

Taming Data and Transformers for Audio Generation

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance

Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding

EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning

Exploring Train and Test-Time Augmentations for Audio-Language Learning

Audio Captioning Transformer

Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning

LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Model	Paper	SPIDEr	Date
SLAM-AAC	SLAM-AAC: Enhancing Audio Captioning with Paraphr…	0.84	2024-10-12
AutoCap	Taming Data and Transformers for Audio Generation	0.83	2024-06-27
EnCLAP++-large	EnCLAP++: Analyzing the EnCLAP Framework for Opti…	0.82	2024-09-02
LOAE	Enhancing Automated Audio Captioning via Large La…	0.82	2024-06-19
EnCLAP++-base	EnCLAP++: Analyzing the EnCLAP Framework for Opti…	0.82	2024-09-02
EnCLAP-large	EnCLAP: Combining Neural Audio Codec and Audio-Te…	0.80	2024-01-31
EnCLAP-base	EnCLAP: Combining Neural Audio Codec and Audio-Te…	0.78	2024-01-31
AL-MixGen	Exploring Train and Test-Time Augmentations for A…	0.76	2022-10-31
CNN+Transformer	Audio Captioning Transformer	0.69	2021-07-21
MQ-Cap	Enhancing Retrieval-Augmented Audio Captioning wi…	0.30	2024-10-14
LAVCap	LAVCap: LLM-based Audio-Visual Captioning using O…	0.30	2025-01-16
VAST	VAST: A Vision-Audio-Subtitle-Text Omni-Modality …	0.30	2023-05-29
VALOR	VALOR: Vision-Audio-Language Omni-Perception Pret…	0.27	2023-04-17