V článku představuje příspěvek do soutěže v multimodálním strjovém překladu na WMT18. V našem systému požíváme self-attentive neuronové sítě místo rekurentních.
Evaluujeme dvě metody, jak lze zahrnout vizuální rysy do modelu: v prvním používáme vizuální informaci jako další vstup do dekodéruů v druhé metodě trénujeme enkodér tak, aby predikoval vizuální reprezentaci. Pro náš příspěvek jsem vytěžili dodatečná data.
Obě navrhované metody přináš í výrazné zlepšení oproti obdobným modelům využívajícím neuronové sítě.