Představujeme přístup k vícejazyčné syntéze řeči, který využívá koncepce meta-učení - generování parametrů na základě kontextu - a produkuje přirozeně znějící vícejazyčnou řeč s využitím více jazyků a méně trénovacích dat než předchozí přístupy. Náš model je založen na Tacotronu 2 s plně konvolučním enkodérem vstupního textu, jehož váhy jsou predikovány samostatnou sítí - generátorem parametrů.
Pro zlepšení klonování hlasu napříč jazyky náš model používá adversariální klasifikaci mluvčího s vrstvou obracející gradienty, která z enkodéru odstraňuje informace specifické pro daného mluvčího. Provedli jsme dva experimenty, abychom náš model porovnali s baseliny používajícími různé úrovně sdílení parametrů napříč jazyky a přitom vyhodnotili: 1) stabilitu a výkonnost při trénování na malém množství dat, 2) přesnost výslovnosti a kvalitu hlasu při code-switchingu (změně jazyka uprostřed věty).
Pro trénování jsme použili dataset CSS10 a náš nový malý dataset založený na nahrávkách Common Voice v pěti jazycích