Charles Explorer logo
🇨🇿

Hindský vizuální genom: Datový soubor pro multimodální strojový překlad z angličtiny do hindštiny

Publikace na Matematicko-fyzikální fakulta |
2019

Abstrakt

Visual Genome je dataset spojující strukturované obrazové informace s anglickým jazykem. Představujeme "Hindi Visual Genome", multimodální datový soubor skládající se z textu a obrazů vhodný pro anglicko-hindský multimodální strojový překlad a multimodální výzkum.

Vybrali jsme krátké anglické segmenty (popisky) z Visual Genome spolu s přidruženými obrázky a automaticky je přeložili do hindštiny. Následovala pečlivá ruční kontrola, která vzala v úvahu související obrázky.