Charles Explorer logo
🇨🇿

Směrem k úplnému rozpoznávání rukopisné notace s detekcí notačních objeků pomocí architektury U-Net

Publikace na Matematicko-fyzikální fakulta |
2018

Abstrakt

Detekce notačních symbolů je nejpalčivější otevřený podproblém v rozpoznávání notopisu (Optical Music Recognition, OMR). Ukazujeme, že architektura U-Net pro sémantickou segmentaci spolu s triviálním detektorem představuje silnou baseline, a navrhujeme několik triků, které výsledky ještě zlepšují: trénování proti konvexním obalům notačních objektů, a vícekanálové výstupy které umožňují sdílet parametry sítě pro několik sémanticky příbuzných tříd objektů.

Oba triky přináší výrazné zlepšení v detekci klíčů, což má zásadní následky pro výsledky OMR. Následně začleníme U-Nety do kompletního rozpoznávacího systému: přidáme model doplňující vztahy mezi rozpoznanými symboly, a dosáhneme tak výsledného f-score 0.81 pro extrakci výšek zapsaných tónů.

Nad takto automaticky extrahovanými tóny provedeme pokusy pro vyhledávání rukopisných kopií stejné hudby, které přináší první empirické indikace, že využívání mocných modelů hlubokého učení pro OMR skutečně dle očekávání přibližuje full-textové vyhledávání ve velk