Charles Explorer logo
🇨🇿

Soutěžní strojový překlad

Předmět na Matematicko-fyzikální fakulta |
NPFL101

Sylabus

Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt18/. S naším systémem se dlouhodobě umisťujeme na relativně dobrých pozicích, v letech 2013-2015 jsme vítězili mj. i nad Google Translate.

Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM, neuronový strojový překlad pak přidává výpočetní náročnost: vyžaduje GPU s minimálně 8 GB RAM a trénuje se klidně dny nebo týdny.

V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Python, C/C++, Perl, Bash, ad. Velmi často pak budeme výpočty paralelizovat na výpočetním clusteru katedry nebo MetaCentra, včetně výkonných grafických karet (GPU).

Během semestru budeme kolektivně vylepšovat volně šiřitelné implementace systémů strojového překladu. Zájemci o počítačové zpracování přirozeného jazyka nebo o hluboké učení se zaměří na analýzu nebo návrh triků a úprav modelů pro lepší kvalitu překladu, zájemci o softwarové inženýrství obecně se mohou soustředit na infrastrukturu experimentačního prostředí nebo optimalizaci existujících nástrojů.

Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.

Seminář bude probíhat v unixové laboratoři.

Anotace

Seminář slouží jako doplňkové cvičení k Unixu nebo též veskrze praktické seznámení s některými aspekty počítačové lingvistiky. Budeme společně vylepšovat existující nástroje a systémy pro statistický strojový překlad včetně překladu neuronového, a účastnit se s ním soutěží jako http://www.statmt.org/wmt18/. Zaměříme se většinou na češtinu a angličtinu, ale uvážíme i další jazyky podle zájmu účastníků.

Prakticky vzato sestává seminář ze skriptování a ovládání různorodé sbírky výzkumných nástrojů a překonávání

řady technických překážek v unixovém prostředí výpočetního klastru, včetně zpracová