Tento článek se zabývá použitím lingvistiké informace pro výběr dat pro trénování jazykových modelů. Navrhovaná metoda vychází ze známých a používaných postupů, které využívají povrchových tvarů slov, a obohacuje je o informace o lemmatech, pojmenovaných entitách a slovních druzích.