Sondy nejednoznačnosti, gramatiky a složitosti vět

Publikace na Matematicko-fyzikální fakulta |

2022

Abstrakt

Není jasné, zda, jak a kde velké předem trénované jazykové modely zachycují jemné lingvistické rysy, jako je nejednoznačnost, gramatika a složitost vět. Prezentujeme výsledky automatické klasifikace těchto znaků a porovnáváme jejich životaschopnost a vzorce napříč typy reprezentace.

Ukazujeme, že datové sady založené na šablonách s artefakty na úrovni povrchu by neměly být používány pro sondování, měla by být provedena pečlivá srovnání se základními hodnotami a že grafy t-SNE by se neměly používat k určení přítomnosti rysu mezi reprezentacemi hustých vektorů. Také ukazujeme, jak mohou být prvky vysoce lokalizovány ve vrstvách těchto modelů a ztratit se v horních vrstvách.

Klíčová slova

sondy nejednoznačnosti gramatiky složitosti