Charles Explorer logo
🇨🇿

Ladění atributů v soutěži NLI Shared Task 2013: zpráva týmu z Univerzity Karlovy

Publikace na Matematicko-fyzikální fakulta |
2013

Abstrakt

Naším cílem je predikovat rodný jazyk (L1) autorů anglických esejí za pomoci korpusu TOEFL11, ve kterém jsou známy jazykové úrovně autorů a témata esejí. Úlohu řešíme jako klasifikační úlohu pomocí řízených metod strojového učení. Zaměřujeme se na ladění atributů, mezi které jazykovou úroveň a témata nezahrnujeme.

Atributy navrhujeme napříč jazyky L1. Experimentujeme s několika technikami pro filtrování a kombinaci atributů s ohledem na kritéria z informační teorie.

Celkem jsme natrénovali čtyři modely SVM a pomocí většinového hlasování je zkombinovali do modelu dosahujícího úspěšnosti 72.5%.