GigaSpeech

Name: GigaSpeech
Published: 2021-06-13
License: Unknown

Dataset Information

Modalities

Audio, Speech

Languages

English

Introduced

2021

License

Unknown

Homepage

Official Website

Contents

Overview
Associated Benchmarks
Recent Benchmark Submissions
Research Papers

Overview

GigaSpeech, an evolving, multi-domain English speech recognition corpus with 10,000 hours of high quality labeled audio suitable for supervised training, and 40,000 hours of total audio suitable for semi-supervised and unsupervised training.

Variants: GigaSpeech, GigaSpeech DEV, GigaSpeech TEST

Associated Benchmarks

This dataset is used in 1 benchmark:

Speech Recognition - Metrics: Word Error Rate (WER)

Recent Benchmark Submissions

Task	Model	Paper	Date
Speech Recognition	Conformer/Transformer-AED	GigaSpeech: An Evolving, Multi-domain ASR …	2021-06-13

Research Papers

Recent papers with results on this dataset:

GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio (2021) -

External Links:

GigaSpeech

Overview edit

Associated Benchmarks

Recent Benchmark Submissions

Research Papers

Edit Dataset Information

Overview