Charles Explorer logo
🇨🇿

Korpus InterCorp, verze 15

Publikace

Abstrakt

Nová verze rozsáhlého paralelního korpusu obsahujícího překlady mezi celkem 42 jazyky (včetně češtiny). Počet slov v cizojazyčných textech se zvýšil na 1 588 mil., z toho 362 mil. v beletristickém jádru a 1 226 mil. ve volně dostupných kolekcích.

Počet slov v českých textech činí celkem 210 mil., z toho 120 mil. jádro a 90 mil. kolekce. V kolekci Project Syndicate přibyly texty za roky 2019 až 2021, nově také texty čínské a arabské.