Optimalizace nemetrického podobnostního vyhledávání v databázích MS/MS spekter s využitím klastrování

Publikace na Matematicko-fyzikální fakulta |

2012

Abstrakt

Tandemová hmotnostní spektrometrie je známá technika pro identifikaci proteinových sekvencí ze vzorku "in vitro". Pro samotnou identifikaci sekvencí ze spekter zaznamenaných s využitím spektrometru se přitom běžně používá vyhledávání v databázích spekter predikovaných z databáze již známých proteinových sekvencí.

Velikost databází proteinových sekvencí však v posledních letech rapidně roste, a proto bylo navrženo několik přístupů pro jejich indexování. V tomto článku vylepšujeme metodu založenou na nemetrickém podobnostním vyhledávání využívající M-strom a algoritmus TriGen.

Preprocessing spekter s využitím klastrování v kombinaci s uvedenou metodou přitom zrychluje identifikaci sekvencí více než 100x oproti sekvenčnímu průchodu celé databáze. Přestože je vyhledávání aproximativní, postprocessing kandidátních proteinových sekvencí umožňuje dosáhnout téměř stejné přesnosti identifikace (více než 90%) jako sekvenční průchod celé databáze.

Klíčová slova

tandemová hmotnostní spektrometrie podobnostní vyhledávání nemetrické přístupové metody identifikace proteinových sekvencí klastrování spekter