Kombinace textových a mluvených příznaků v úloze NLI pomocí moderních metod strojového učení

Publikace na Matematicko-fyzikální fakulta |

2017

Abstrakt

Shrnujeme zapojení našeho týmu CEMI do soutěže s úlohou rozpoznávání rodného jazyka autora, tzv. NLI Shared Task~2017, pro kterou byla k dispozici textová a mluvená data.

Představujeme výsledky, kterých jsme dosáhli použitím tří různých architektur, kde každá z nich kombinuje modely natrénované nad různými příznaky. Jak jsme očekávali, lepších výsledků dosáhly systémy, které kombinují textové a mluvené příznaky.

Dokonce bylo dosaženo dramatického zlepšení. Naš nejlepší systém je založen na feed-forward neural networks, jejichž výstupy skryté vrstvy jsou kombinovány pomocí softmax.

Dosáhli jsme úspěšnosti 0.9257 macro-averaged F1 na evaluační testovací sadě a náš tým spolu s dalšími třemi obsadil první místo v hlavní soutěži.

Klíčová slova

kombinace textových mluvených příznaků úloze pomocí moderních metod strojového učení