Charles Explorer logo
🇨🇿

KLcpos3 - míra podobnosti jazyků pro delexicalizovaný přenos parseru

Publikace na Matematicko-fyzikální fakulta |
2015

Abstrakt

Představujeme KLcpos3, míru podobnosti jazyků založenou na Kullbackově-Leiblerově divergenci rozložení trigramů hrubých značek slovních druhů v otagovaných korpusech. Tato míra byla navržena pro vícejazyčný delexicalizovaný parsing, a to jak pro výběr zdrojového treebanku při přenosu parseru s jedním zdrojem, tak pro vážení zdrojových treebanků při přenosu parseru s více zdroji.

V úloze výběru zdroje rozpozná KLcpos3 nejlepší zdrojový treebank v 8 z 18 případů. V úloze vážení zdroje přínáší zvýšení UAS o +4.5 procentního bodu oproti nevážené kombinaci stromů.