Automatické hodnocení kvality strojního překladu bylo zásadní pro rychlý vývoj systémů strojního překladu v posledních dvou desetiletích. Zatím se věnuje největší pozornost metrikám, které pracují s textem na úrovni vět, protože stejně tak fungují i překladové systémy.
Kvalita překladu ale závisí i na diskurzních jevech, které se nemusí vůbec projevit, pokud se nacházejí uvnitř věty (např. koreference, diskurzní konektory, časová souslednost apod.). Navrhneme tedy několik metrik hodnocení strojového překladu na úrovni dokumentů: zobecnění exsitujících metrik a jazykově nezávislé metody měření lexikální soudržnosti a zachování koreference a morfologie zachování v cílovém jazyce.
U těchto také měříme shodu s lidským úsudkem na nově vytvořené datové sadě, které obsahuje lidské hodnocení překladu pro čtyři jazykové páry.