ML Research Wiki / Benchmarks / Text to Audio Retrieval / Clotho

Clotho

Text to Audio Retrieval Benchmark

Performance Over Time

📊 Showing 12 results | 📏 Metric: R@1

Top Performing Models

Rank	Model	Paper	R@1	Date	Code
1	PaSST-RoBERTa & Estimated Audio–Caption Correspondences 📚	Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval	27.69	2024-08-21	📦 optimusprimus/salsa
2	InternVideo2-6B 📚	InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	27.20	2024-03-22	📦 opengvlab/internvideo 📦 opengvlab/internvideo2
3	VAST 📚	VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	26.90	2023-05-29	📦 TXH-mercury/VALOR 📦 txh-mercury/vast
4	PaSST–RoBERTa & GPT-augment 📚	Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets	26.07	2023-08-08	📦 optimusprimus/dcase2023_task6b
5	ONE-PEACE 📚	ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	22.40	2023-05-18	📦 modelscope/modelscope 📦 OFA-Sys/ONE-PEACE
6	VALOR 📚	VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	17.50	2023-04-17	📦 TXH-mercury/VALOR
7	CE (pretraining:AudioCaps)	Audio Retrieval with Natural Language Queries	0.00	2021-05-05	📦 oncescuandreea/audio-retrieval
8	MoEE (pretraining:AudioCaps)	Audio Retrieval with Natural Language Queries	0.00	2021-05-05	📦 oncescuandreea/audio-retrieval
9	CE	Audio Retrieval with Natural Language Queries	0.00	2021-05-05	📦 oncescuandreea/audio-retrieval
10	MMT	Audio Retrieval with Natural Language Queries: A Benchmark Study	0.00	2021-12-17	📦 akoepke/audio-retrieval-benchmark

All Papers (12)

Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval

2024

PaSST-RoBERTa & Estimated Audio–Caption Correspondences

optimusprimus/salsa

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

2024

InternVideo2-6B

opengvlab/internvideo opengvlab/internvideo2

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

2023

VAST

TXH-mercury/VALOR txh-mercury/vast

Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

2023

PaSST–RoBERTa & GPT-augment

optimusprimus/dcase2023_task6b

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

2023

ONE-PEACE

modelscope/modelscope OFA-Sys/ONE-PEACE

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

2023

VALOR

TXH-mercury/VALOR

Audio Retrieval with Natural Language Queries

2021

CE (pretraining:AudioCaps)

oncescuandreea/audio-retrieval

Audio Retrieval with Natural Language Queries

2021

MoEE (pretraining:AudioCaps)

oncescuandreea/audio-retrieval

Audio Retrieval with Natural Language Queries

2021

CE

oncescuandreea/audio-retrieval

Audio Retrieval with Natural Language Queries: A Benchmark Study

2021

MMT

akoepke/audio-retrieval-benchmark

Audio Retrieval with Natural Language Queries: A Benchmark Study

2021

CE(pretraining:SoundDescs)

akoepke/audio-retrieval-benchmark

Audio Retrieval with Natural Language Queries

2021

MoEE

oncescuandreea/audio-retrieval

Clotho

Performance Over Time

Edit Benchmark Results

Edit Result

Top Performing Models

All Papers (12)

Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval

InternVideo2: Scaling Foundation Models for Multimodal Video Understanding

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Audio Retrieval with Natural Language Queries

Audio Retrieval with Natural Language Queries

Audio Retrieval with Natural Language Queries

Audio Retrieval with Natural Language Queries: A Benchmark Study

Audio Retrieval with Natural Language Queries: A Benchmark Study

Audio Retrieval with Natural Language Queries

Model	Paper	R@1	Date
PaSST-RoBERTa & Estimated Audio–Caption Correspondences	Estimated Audio-Caption Correspondences Improve L…	27.69	2024-08-21
InternVideo2-6B	InternVideo2: Scaling Foundation Models for Multi…	27.20	2024-03-22
VAST	VAST: A Vision-Audio-Subtitle-Text Omni-Modality …	26.90	2023-05-29
PaSST–RoBERTa & GPT-augment	Advancing Natural-Language Based Audio Retrieval …	26.07	2023-08-08
ONE-PEACE	ONE-PEACE: Exploring One General Representation M…	22.40	2023-05-18
VALOR	VALOR: Vision-Audio-Language Omni-Perception Pret…	17.50	2023-04-17
CE (pretraining:AudioCaps)	Audio Retrieval with Natural Language Queries		2021-05-05
MoEE (pretraining:AudioCaps)	Audio Retrieval with Natural Language Queries		2021-05-05
CE	Audio Retrieval with Natural Language Queries		2021-05-05
MMT	Audio Retrieval with Natural Language Queries: A …		2021-12-17
CE(pretraining:SoundDescs)	Audio Retrieval with Natural Language Queries: A …		2021-12-17
MoEE	Audio Retrieval with Natural Language Queries		2021-05-05