Charles Explorer logo
🇨🇿

Česká verze datasetu Multi30k

Publikace

Abstrakt

Toto je česká verze datasetu Multi30k, který se používá při soutěžích v Multimodálním strojovém překladu. Dataset je založený ja datové sadě Flickr30k, která obsahuje přes 30 tisíc fotografií opatřených anglickými popisky.

Pro soutěž na WMT16 a WMT17 byly tyto věty přeloženy do Němčiny a Francozštiny. Pro soutež v roce 2018 jsme obahatili tento dataset také o překlady do českého jazyka.