Analýza modelu BERT z hlediska znalosti hypernymie

Publikace na Matematicko-fyzikální fakulta |

2021

Abstrakt

Vysoký výkon velkých předcvičených jazykových modelů (LLM), jako je BERT (Devlin et al., 2019) na úkoly NLP, vyvolal otázky ohledně jazykových schopností BERT a v tom, jak se liší od lidských. V tomto příspěvku přistupujeme k této otázce zkoumáním znalostí BERT o lexikálních sémantických vztazích.

Zaměřujeme se na hypernymii, vztah "je-a", který spojuje slovo s nadřazenou kategorií. Jednoduše používáme metodiku nabádání zeptejte se BERTe, co je hypernym daného slova.

Zjistili jsme, že v prostředí, kde jsou všechny hypernymy uhodnutelné pomocí výzvy, BERT zná hypernymy s přesností až 57%. Navíc BERT s výzvou překonává ostatní modely bez dozoru pro hypernomické objevování i v neomezeném scénáři.

Předpovědi a výkon BERT jsou však zapnuty soubor dat obsahující neobvyklé hyponymy a hypernymy naznačují, že jeho znalosti o hypernymii jsou stále omezené.

Klíčová slova

analýza modelu bert hlediska znalosti hypernymie