Wikipedie slouží nejen jako rozsáhlá encyklopedie zasahující do mnoha odvětví, ale v poslední době stále častěji i jako zdroj jazykových dat pro nejrůznější aplikace. Jednotlivé jazykové mutace umožňují získat i paralelní data ve více jazycích.
Zařazení článků wikipedie do kategorií potom může sloužit k filtrování jazykových dat. V našem projektu se zabýváme automatickým překladem textů v oboru biologie a lékařství, proto jsme potřebovali větší množství paralelních dat.
Jedním ze zdrojů byla právě wikipedie. Pro výběr dat splňujících daná kritéria – tedy dané obory v daných jazycích – jsme využili projektu Dbpedia, který ze stránek wikipedie extrahuje strukturované informace a ve formátu RDF je zpřístupňuje uživatelům.
V příspěvku popíšeme postup extrakce dat a problémy, které jsme museli řešit, neboť u otevřeného projektu jako wikipedie, do něhož může přispívat kdokoli, nelze spoléhat na konzistenci.