Rozpoznávání řeči a strojový překlad učinily v posledních desetiletích velký pokrok a vedly ke vzniku praktických systémů, které dovedou mapovat jednu jazykovou posloupnost na druhou. Přestože jsou stále dostupnější data ve více modalitách jako je zvuk a video, nejmodernější systémy jsou ze své podstaty unimodální v tom smyslu, že jako vstup berou jedinou modalitu - ať už řeč nebo text.
Zkušenosti z toho, jak se učí lidé učí jazyk, ukazují, že různé modality nesou navzájem se dolňující se signály, které jsou často klíčové pro řešení mnoha jazykových úkolů. V tomto článku popisujeme datovou sadu How2, rozsáhlou, kolekci videí s přepisy a jejich překlady.
Ukazujeme, jak lze tuto datovou sadu využít k vývoji systémů pro různé jazykové úlohy a představujeme řadu modelů. V rámci řešení těchto úloh zjišťujeme, že budování multimodálních architektur, které by fungovaly lépe, než jejich unimodální protějšek, zůstává i nadále velkou výzvou.
To ponechává velký prostor pro zkoumání pokročilejších řešení, která p