Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt18/. S na ším systémem se dlouhodobě umisťujeme na relativně dobrých pozicích, v letech 2013-2015 jsme vítězili mj. i nad Google Translate.
Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM, neuronový strojový překlad pak přidává výpočetní náročnost: vyžaduje GPU s minimálně 8 GB RAM a trénuje se klidně dny nebo týdny.
V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Python, C/C++, Perl, Bash, ad. Velmi často pak budeme výpočty paralelizovat na výpočetním clusteru katedry nebo MetaCentra, včetně výkonných grafických karet (GPU).
Během semestru budeme kolektivně vylepšovat volně šiřitelné implementace systémů strojového překladu. Zájemci o počítačové zpracování přirozeného jazyka nebo o hluboké učení se zaměří na analýzu nebo návrh triků a úprav modelů pro lepší kvalitu překladu, zájemci o softwarové inženýrství obecně se mohou soustředit na infrastrukturu experimentačního prostředí nebo optimalizaci existujících nástrojů.
Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.
Seminář bude probíhat v unixové laboratoři.
Seminář slouží jako doplňkové cvičení k Unixu nebo též veskrze praktické seznámení s některými aspekty počítačové lingvistiky. Budeme společně vylepšovat existující nástroje a systémy pro statistický strojový překlad včetně překladu neuronového, a účastnit se s ním soutěží jako http://www.statmt.org/wmt18/. Zaměříme se většinou na češtinu a angličtinu, ale uvážíme i další jazyky podle zájmu účastníků.
Prakticky vzato sestává seminář ze skriptování a ovládání různorodé sbírky výzkumných nástrojů a překonávání
řady technických překážek v unixovém prostředí výpočetního klastru, včetně zpracová