Sekvenční učení ukotvené v multimodálních vstupech

Publikace na Matematicko-fyzikální fakulta |

2020

Abstrakt

Rozpoznávání řeči a strojový překlad učinily v posledních desetiletích velký pokrok a vedly ke vzniku praktických systémů, které dovedou mapovat jednu jazykovou posloupnost na druhou. Přestože jsou stále dostupnější data ve více modalitách jako je zvuk a video, nejmodernější systémy jsou ze své podstaty unimodální v tom smyslu, že jako vstup berou jedinou modalitu - ať už řeč nebo text.

Zkušenosti z toho, jak se učí lidé učí jazyk, ukazují, že různé modality nesou navzájem se dolňující se signály, které jsou často klíčové pro řešení mnoha jazykových úkolů. V tomto článku popisujeme datovou sadu How2, rozsáhlou, kolekci videí s přepisy a jejich překlady.

Ukazujeme, jak lze tuto datovou sadu využít k vývoji systémů pro různé jazykové úlohy a představujeme řadu modelů. V rámci řešení těchto úloh zjišťujeme, že budování multimodálních architektur, které by fungovaly lépe, než jejich unimodální protějšek, zůstává i nadále velkou výzvou.

To ponechává velký prostor pro zkoumání pokročilejších řešení, která p

Klíčová slova

sekvenční učení ukotvené multimodálních vstupech