Nástroj pro vyhledávání a analýzu faktů

Abstrakt

Nástroj pro vyhledávání a analýzu faktů (zkráceně Fact Search) analyzuje a porovnává různé metody sémantického a na klíčová slova orientovaného vyhledávání dokumentů. Je určen pro práci nad databázemi zpráv, lze ho snadno upravit tak, aby pracoval se samostatnými textovými informacemi.

Současná implementace je postavena na archivu zpravodajských článků České tiskové kanceláře (ČTK) z let 2000 až 2019. Implementováno je klasické vyhledávání (klíčových slov) založené na TFIDF [1] a také nejmodernější varianta, založená na Transformer-like neuronových sítích [2, 3] pro sémanticky orientované vyhledávání.

Neuronové modely jsou trénovány s ohledem na kontrolu faktů, tj. podporu/odmítnutí tvrzení. Aplikaci lze také použít pro úlohy typu dotaz/odpověď.

Aktuální modely jsou trénovány s využitím české verze datové sady pro ověřování faktů FEVER [4] Wikipedia, kterou vytvořil tým ČVUT. Trénování modelů využívá anotovaný datový soubor pro kontrolu faktů, vytvořený přímo nad daty ČTK (anotační aplikace úzce souvisí s vyhledávácí).

Z pohledu uživatele umožňuje aplikace Fact Search vyhledávání dokumentů v reálném čase v rozsáhlých textových databázích a současně slouží k porovnává různých metod vyhledávání. Spolu s vyhledáváním poskytuje statistické údaje v jednotlivých krocích vyhledávání a také popis statistické distribuce dokumentů.

Dále také poskytuje vysvětlení predikce na úrovni slova nebo věty, což pomáhá posoudit kvalitu modelu. Pro uživatele je důležité funkcionalita, která jim pomáhá zaměřit se na relevantní části analyzovaného textu.

Aplikace dále obsahuje počáteční verzi modulu klasifikátoru, který poskytuje hodnocení věrohodnosti deklarace (w.r.t.) databáze zpráv. [1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018). [2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020). [3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019). [4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).

Klíčová slova

Natural language processing žurnalistika fakta, vyhledávání fakt verifikace fakt