VCR

Name: VCR
Published: 2019-01-01
License: Custom

Visual Commonsense Reasoning

Dataset Information

Modalities

Images, Texts

Languages

English

Introduced

2019

License

Custom

Homepage

Official Website

Contents

Overview
Associated Benchmarks
Recent Benchmark Submissions
Research Papers

Overview

Visual Commonsense Reasoning (VCR) is a large-scale dataset for cognition-level visual understanding. Given a challenging question about an image, machines need to present two sub-tasks: answer correctly and provide a rationale justifying its answer. The VCR dataset contains over 212K (training), 26K (validation) and 25K (testing) questions, answers and rationales derived from 110K movie scenes.

Source: Visual Commonsense R-CNN
Image Source: From Recognition to Cognition: Visual Commonsense Reasoning

Variants: VCR, VCR (QA-R) test, VCR (QA-R) dev, VCR (Q-AR) test, VCR (Q-AR) dev, VCR (Q-A) test, VCR (Q-A) dev

Associated Benchmarks

This dataset is used in 1 benchmark:

Explanation Generation - Metrics: Human Explanation Rating

Recent Benchmark Submissions

Task	Model	Paper	Date
Explanation Generation	OFA-X-MT	Harnessing the Power of Multi-Task …	2022-12-08
Explanation Generation	OFA-X	Harnessing the Power of Multi-Task …	2022-12-08

Research Papers

Recent papers with results on this dataset:

Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations (2022) -

External Links:

VCR

Overview edit

Associated Benchmarks

Recent Benchmark Submissions

Research Papers

Edit Dataset Information

Overview