Automatické hodnocení kvality strojového překladu (MT) bylo zkoumáno po několik desetiletí. Strojový překlad mluveného jazyka (SLT), zejména simultánní, musí zvážit další kritéria a nemá standardní postup hodnocení a široce využívanou sadu nástrojů.
Abychom zaplnili tuto mezeru, představujeme SLTev, open-source nástroj pro komplexní hodnocení SLT. SLTev informuje o kvalitě, latenci a stabilitě výstupu kandidáta SLT na základě časově vyznačeného přepisu a překladu odkazu do cílového jazyka.
Pokud jde o kvalitu, spoléh áme na SacreBLEU, která poskytuje MT hodnotící opatření, jako je chrF nebo BLEU. Pro latenci navrhujeme dvě nové bodovací techniky.
V zájmu stability rozšiřujeme dříve definovaná opatření normalizovaným flickerem v naší práci. Navrhujeme také nové zprůměrování starších metod.
V projektu IWSLT 2020 SHARED TASK byla použita předběžná verze programu SLTev. Navíc se rozšiřuje sbírka testovacích datových souborů, které jsou přímo přístupné přes SLTev, pro hodnocení systémů srovnatelných napříč