Při nasazování dialogového systému pro novou doménu je nutné se vypořádat s nedostatkem trénovacích dat pro doménově specifické statistické modely. V tomto článku popisujeme své zkušenosti s vytvářením dialogového systému pro informace o veřejné dopravě a počasí přímo za provozu s uživateli z řad veřejnosti.
Postupovali jsme inkrementálně od minimálního systému, který byl nasazen na bezplatné telefonní číslo ke sběru řečových dat. Na získaných datech jsme byli schopni natrénovat statistické modely – doménové jazykové modely pro rozpoznávání řeči a model pro porozumění jazyku, který používá automaticky generovanou sémantickou anotaci.
Náš postup ukazuje, že úspěšný systém lze postavit i s minimálním úsilím a bez předem dostupných trénovacích dat pro danou doménu.