Bohatství jazyků na webu

Publikace na Matematicko-fyzikální fakulta |

2012

Abstrakt

Vytvořili jsme korpus obsahující texty ve 106 jazycích z dokumentů, které jsou dostupné na Internetu a Wikipedii. W2C Web Corpus obsahuje 54,7 GB textu a W2C Wiki Corpus obsahuje 8,5 GB textu.

W2C Web Corpus obsahuje více než 100 MB textu pro 75 jazyů a alespoň 10 MB textu pro 100 jazyků. Tyto korpusy jsou jedinečným zdrojem dat pro lingvistiku, protože překonávají všechny dosud publikované práce, jak v množství nashromážděných textů, tak i v množství obsažených jazyků.

Tento zdroj dat může být především užitečný pro vědce specializujícící se na vývoj vícejazyčných technologií. Také jsme vyvinuli software, který výrazně usnadňje tvorbu korpusů pro libovolný jazyk z textů volně dostupných na Internetu.

Při vývoji jsme se hlavně zaměřili na komponenty pro filtrovaní a odstraňování duplicit, což nám umožnilo dosáhnout vysoké kvality výsledných dat.

Klíčová slova

bohatství jazyků webu