Článek pojednává o motivacích, vývoji a hlavních principech mezinárodního projektu Merlin. Hlavním výstupem projektu je unikátní trojjazyčný korpus zahrnující němčinu, italštinu a češtinu.
Korpus bude zpřístupněn v podobě webové platformy, která ilustruje Společný evropský referenční rámec pro jazyky (SERR) autentickými příklady a umožňuje uživatelům vyhledávat v autentických žákovských projevech i přináležejících metadatech (věk kandidáta, mateřský jazyk apod.). Každý text v korpusu je lingvisticky analyzován a anotován v rámci vícefázové chybové anotace.
Tento proces s sebou přináší problémy plynoucí zejména ze specifik češtiny jako slovanského jazyka. Článek shrnuje některé z těchto potíží a jejich možná řešení.