Wiki-40B

Name: Wiki-40B
License: Unknown

Dataset Information

License

Unknown

Homepage

Official Website

Contents

Overview
Associated Benchmarks
Recent Benchmark Submissions
Research Papers

Overview

A new multilingual language model benchmark that is composed of 40+ languages spanning several scripts and linguistic families containing round 40 billion characters and aimed to accelerate the research of multilingual modeling.

Source: Wiki-40B: Multilingual Language Model Dataset

Variants: Wiki-40B

Associated Benchmarks

This dataset is used in 3 benchmarks:

Language Modelling - Metrics: Perplexity
Benchmarking - Metrics: Perplexity
Quantization - Metrics: Perplexity

Recent Benchmark Submissions

Task	Model	Paper	Date
Benchmarking	OutEffHop-Bert_base	Outlier-Efficient Hopfield Layers for Large …	2024-04-04
Quantization	OutEffHop-Bert_base	Outlier-Efficient Hopfield Layers for Large …	2024-04-04
Language Modelling	FLASH-Quad-8k	Transformer Quality in Linear Time	2022-02-21
Language Modelling	Combiner-Axial-8k	Combiner: Full Attention Transformer with …	2021-07-12
Language Modelling	Combiner-Fixed-8k	Combiner: Full Attention Transformer with …	2021-07-12

Research Papers

Recent papers with results on this dataset:

Outlier-Efficient Hopfield Layers for Large Transformer-Based Models (2024) -
Transformer Quality in Linear Time (2022) -
Combiner: Full Attention Transformer with Sparse Computation Cost (2021) -

External Links:

Wiki-40B

Overview edit

Associated Benchmarks

Recent Benchmark Submissions

Research Papers

Edit Dataset Information

Overview