Charles Explorer logo
🇨🇿

Zkoumání role poziční informace v modelech kombinujích jazyk a vidění

Publikace na Matematicko-fyzikální fakulta |
2022

Abstrakt

Ve většině modelů kombinujících jazyk a vizuální informaci (Vision-Language, VL) je porozumění struktuře obrazu umožněno přidáním informací o poloze objektů v obraze. V naší případové studii se věmnujeme modelu VL modelu LXMERT a zkoumáme použití jakým způsobem poziční informaci používá a studujeme její vliv na úspěšnost v úloze odpovídání otázek o obrázcích.

Ukazujeme, že model není schopen poziční informaci využít pro přiřazování textů k obrázkům, pokud se texty liší polohou objektů. A to i přesto, že další experimenty ale ukazují, že PI je v modelech skutečně přítomna.

Představujeme dvě strategie, jak se s tímto problémem vypořádat: (i) předtrénování s přidanou informací o poloze a (ii) kontrastní učení s porovnáváním napříč modalitami. Tímto způsobem může model správně klasifikovat, zda se obrázky s podrobnými výroky PI shodují.

Kromě 2D informací o objektech na obrázku, přidáváme hloubku objektu pro lepší lokalizaci v prostoru. Přestože se nám podařilo zlepšit vlastnosti modelu, na kvalitu odpoví