MusicCaps

Name: MusicCaps
Published: 2023-01-26
License: CC BY-SA 4.0

Dataset Information

Modalities

Texts, Music

Languages

English, Vietnamese

Introduced

2023

License

CC BY-SA 4.0

Homepage

Official Website

Contents

Overview
Associated Benchmarks
Recent Benchmark Submissions
Research Papers

Overview

MusicCaps is a dataset composed of 5.5k music-text pairs, with rich text descriptions provided by human experts. For each 10-second music clip, MusicCaps provides:

1) A free-text caption consisting of four sentences on average, describing the music and

2) A list of music aspects, describing genre, mood, tempo, singer voices, instrumentation, dissonances, rhythm, etc.

Source:MusicLM: Generating Music From Text

Variants: MusicCaps

Associated Benchmarks

This dataset is used in 1 benchmark:

Text-to-Music Generation - Metrics: FAD, FD_openl3, FD, KL_passt, IS, CLAP_LAION, CLAP_MS

Recent Benchmark Submissions

Task	Model	Paper	Date
Text-to-Music Generation	ETTA	ETTA: Elucidating the Design Space …	2024-12-26
Text-to-Music Generation	FLUXMusic	FLUX that Plays Music	2024-09-01
Text-to-Music Generation	Stable Audio Open	Stable Audio Open	2024-07-19
Text-to-Music Generation	TANGO-AF	Improving Text-To-Audio Models with Synthetic …	2024-06-18
Text-to-Music Generation	MeLFusion (image-conditioned)	MeLFusion: Synthesizing Music from Image …	2024-06-07
Text-to-Music Generation	OpenMusic (QA-MDT)	Quality-aware Masked Diffusion Transformer for …	2024-05-24
Text-to-Music Generation	Stable Audio	Fast Timing-Conditioned Latent Audio Diffusion	2024-02-07
Text-to-Music Generation	AudioLDM2-large	AudioLDM 2: Learning Holistic Audio …	2023-08-10
Text-to-Music Generation	AudioLDM2-music	AudioLDM 2: Learning Holistic Audio …	2023-08-10
Text-to-Music Generation	AudioLDM 2-Full	AudioLDM 2: Learning Holistic Audio …	2023-08-10
Text-to-Music Generation	JEN-1	JEN-1: Text-Guided Universal Music Generation …	2023-08-09
Text-to-Music Generation	MusicGen w/ random melody (1.5B)	Simple and Controllable Music Generation	2023-06-08
Text-to-Music Generation	MusicGen w/o melody (1.5B)	Simple and Controllable Music Generation	2023-06-08
Text-to-Music Generation	MusicGen w/o melody (3.3B)	Simple and Controllable Music Generation	2023-06-08
Text-to-Music Generation	MeLoDy	Efficient Neural Music Generation	2023-05-25
Text-to-Music Generation	Noise2Music spectrogram	Noise2Music: Text-conditioned Music Generation with …	2023-02-08
Text-to-Music Generation	Noise2Music waveform	Noise2Music: Text-conditioned Music Generation with …	2023-02-08
Text-to-Music Generation	Riffusion	MusicLM: Generating Music From Text	2023-01-26
Text-to-Music Generation	Mubert	MusicLM: Generating Music From Text	2023-01-26
Text-to-Music Generation	MusicLM	MusicLM: Generating Music From Text	2023-01-26

Research Papers

Recent papers with results on this dataset:

ETTA: Elucidating the Design Space of Text-to-Audio Models (2024) -
FLUX that Plays Music (2024) -
Stable Audio Open (2024) -
Improving Text-To-Audio Models with Synthetic Captions (2024) -
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models (2024) -
Quality-aware Masked Diffusion Transformer for Enhanced Music Generation (2024) -
Fast Timing-Conditioned Latent Audio Diffusion (2024) -
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining (2023) -
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models (2023) -
Simple and Controllable Music Generation (2023) -
Efficient Neural Music Generation (2023) -
Noise2Music: Text-conditioned Music Generation with Diffusion Models (2023) -
MusicLM: Generating Music From Text (2023) -

External Links:

MusicCaps

Overview edit

Associated Benchmarks

Recent Benchmark Submissions

Research Papers

Edit Dataset Information

Overview