Od rozpoznávání notopisu (Optical Music Recognition, OMR) si lze slibovat zpřístupnění mnoha hudebních dokumentů, které jsou podstatnou součástí kulturního dědictví. OMR však nemá adekvátní data a příslušný formát anotace, který by umožnil porovnávání systémů OMR, což představuje výraznou překážku pro měřitelný pokrok. Řešení OMR využívající strojové učení navíc potřebují trénovací data.
Navrhli jsme a sesbírali jsme nový OMR dataset MUSCIMA++. Poskytované anotace tvoří notační graf, jejž naše analýza odhalila jako nutný a postačující popis hudební notace.
Stavíme nad daty CVC-MUSCIMA pro odstraňování notových osnov. MUSCIMA++ v1.0 obsahuje 140 stran hudebního rukopisu, s 91245 ručně vyznačenými symboly a 82247 vztahy mezi nimi.
Dataset umožňuje trénovat a přímo evaluovat modely pro klasifikaci a lokalizaci symoblů, rekonstrukce logické struktury notace, a extrakce hudebního obsahu. Jsou poskytnuty open-source nástroje pro manipulaci s datasetem, vizualizaci a rozšiřování anotací, a data samotná jsou