Po návrhu a implementaci prototypu nástroje ML-DSP pro klasifikaci genomových sekvencí jsme zkoumali, který typ normalizace délky a který typ vzdálenosti jsou nejvhodnější pro klasifikaci genomů pomocí této metody. Poté jsme provedli komplexní analýzu různých číselných reprezentací sekvencí DNA používaných v literatuře a určili tři nejvýkonnější. Po nastavení hlavních parametrů (metoda normalizace délky, vzdálenost a číselná reprezentace) jsme testovali schopnost ML-DSP klasifikovat genomy mtDNA na taxonomických úrovních od úrovně domény až po úroveň rodu a získali jsme průměrnou úroveň přesnosti klasifikace >97 %. Nakonec jsme porovnali ML-DSP s jinými metodami klasifikace genomů založenými na zarovnání a bez zarovnání a ukázali jsme, že ML-DSP dosahuje vyšší přesnosti a výrazně vyšší rychlosti.
- Analýza vzdáleností a přístupů normalizace délky
- Analýza různých číselných reprezentací sekvencí DNA
- ML-DSP pro tři třídy obratlovců
- Klasifikace genomů pomocí ML-DSP, na všech taxonomických úrovních
- Vizualizace mapyMoDMap vs. genom mtD. Výsledky kvantitativní klasifikace ML-DSP
- Aplikace na jiné soubory genomických dat
- Srovnání ML-DSP s nejmodernějšími nástroji založenými na zarovnání a bez zarovnání
- Diskuse
Analýza vzdáleností a přístupů normalizace délky
Pro rozhodnutí, která míra vzdálenosti a která metoda normalizace délky jsou nejvhodnější pro porovnávání genomů pomocí ML-DSP, jsme použili devět různých podmnožin úplných sekvencí mtDNA z našeho souboru dat. Tyto podskupiny byly vybrány tak, aby zahrnovaly většinu dostupných úplných genomů mtDNA (datová sada Vertebrates obsahující 4322 sekvencí mtDNA), dále podskupiny obsahující podobné sekvence, podobné délky (datová sada Primates obsahující 148 sekvencí mtDNA) a podskupiny obsahující genomy mtDNA vykazující velké rozdíly v délce (datová sada Plants obsahující 174 sekvencí mtDNA).
Skóre přesnosti klasifikace získané pomocí dvou uvažovaných měr vzdálenosti (Euklidova a Pearsonova korelačního koeficientu) a dvou různých přístupů k normalizaci délky (normalizace na maximální délku a normalizace na medián délky) na několika souborech dat jsou uvedeny v tabulce 2. Výsledky klasifikační přesnosti jsou mírně vyšší pro PCC, ale dostatečně blízké výsledkům získaným při použití euklidovské vzdálenosti, takže nejsou průkazné.
V dalším textu jsme zvolili Pearsonův korelační koeficient, protože je nezávislý na měřítku (na rozdíl od euklidovské vzdálenosti, která je např, citlivá na posunutí signálu, přičemž signály se stejným tvarem, ale různými počátečními body jsou považovány za nepodobné ), a normalizaci délky na medián délky, protože je ekonomická z hlediska využití paměti.
Analýza různých číselných reprezentací sekvencí DNA
Analyzovali jsme vliv třinácti různých jednorozměrných číselných reprezentací pro sekvence DNA, seskupených do následujících skupin, na přesnost klasifikace ML-DSP: Pevná mapování číselných reprezentací DNA (reprezentace č. 1, č. 2, č. 3, č. 6, č. 7, viz , a reprezentace č. 10, č. 11, č. 12, č. 13 – což jsou jednorozměrné varianty binární reprezentace navržené v ), mapování založená na některých fyzikálně-chemických vlastnostech nukleotidů (reprezentace č. 4, viz , a reprezentace č. 5, viz ) a mapování založená na hodnotách nejbližších sousedů (reprezentace č. 8, č. 9, viz ).
Soubory dat použité pro tuto analýzu byly stejné jako soubory uvedené v tabulce 2. Klasifikátory strojového učení pod dohledem použité pro tuto analýzu bylo šest klasifikátorů uvedených v části Metody a implementace, s výjimkou datových sad s více než 2000 sekvencemi, kde byly dva z klasifikátorů (Subspace Discriminant a Subspace KNN) vynechány jako příliš pomalé. Výsledky a průměrné skóre přesnosti pro všechny tyto číselné reprezentace, klasifikátory a datové sady jsou shrnuty v tabulce 3.
Jak lze z tabulky 3 vypozorovat, u všech číselných reprezentací jsou průměrná skóre přesnosti v tabulce (poslední řádek: průměr průměrů nejprve za šest klasifikátorů pro každou datovou sadu a poté za všechny datové sady) vysoká. Překvapivě i při použití číselné reprezentace jednoho nukleotidu, která považuje tři nukleotidy za stejné a vyčleňuje pouze jeden z nich („Just-A“), je průměrná přesnost 91,9 %. Nejlepší přesnosti je u těchto souborů dat dosaženo při použití reprezentace „PP“, která poskytuje průměrnou přesnost 92,3 %.
Pro další experimenty jsme vybrali tři nejlepší reprezentace z hlediska skóre přesnosti: „
ML-DSP pro tři třídy obratlovců
Jako aplikaci ML-DSP s použitím číselné reprezentace „PP“ pro sekvence DNA jsme analyzovali soubor genomů mtDNA obratlovců (medián délky 16 606 bp). Na obr. 3 je znázorněna mapa MoDMap, tj. vícerozměrná škálovací 3D vizualizace vzájemných vztahů genomů popsaných vzdálenostmi v matici vzdáleností. Soubor dat obsahuje 3740 kompletních genomů mtDNA: V tomto případě se jedná o 553 genomů ptáků, 2313 genomů ryb a 874 genomů savců. Kvantitativně bylo skóre přesnosti klasifikace získané kvadratickým klasifikátorem SVM 100 %.
Klasifikace genomů pomocí ML-DSP, na všech taxonomických úrovních
Testovali jsme schopnost ML-DSP klasifikovat kompletní sekvence mtDNA na různých taxonomických úrovních. U každé datové sady jsme testovali použití číselných reprezentací „PP“, „Just-A“ a „Real“
Výchozím bodem byla doména Eukaryota (7396 sekvencí), která byla klasifikována do říší, poté byla říše Animalia klasifikována do fylů atd. Na každé úrovni jsme vybrali shluk s nejvyšším počtem sekvencí a poté jej zařadili do podskupin další taxonomické úrovně. Na nejnižší úrovni byla klasifikována čeleď Cyprinidae (81 sekvencí) do jejích šesti rodů. Pro každou datovou sadu jsme otestovali všech šest klasifikátorů a maximální skóre přesnosti těchto šesti klasifikací pro každou datovou sadu je uvedeno v tabulce 4.
Všimněte si, že na každé taxonomické úrovni jsou maximální skóre klasifikační přesnosti (ze šesti klasifikátorů) pro každou ze tří uvažovaných číselných reprezentací vysoká a pohybují se v rozmezí od 91.4 % až 100 %, přičemž pouze tři skóre jsou nižší než 95 %. Protože ani tato analýza neodhalila jasného vítěze mezi třemi nejlepšími číselnými reprezentacemi, vyvstala otázka, zda na použité číselné reprezentaci vůbec záleží. Abychom na tuto otázku odpověděli, provedli jsme dva další experimenty, které využívají skutečnosti, že Pearsonův korelační koeficient je nezávislý na měřítku a při porovnávání signálů hledá pouze vzor. Pro první experiment jsme vybrali tři nejlepší číselné reprezentace („PP“, „Just-A“ a „Real“) a pro každou sekvenci v daném souboru dat byla se stejnou pravděpodobností náhodně vybrána číselná reprezentace z těchto tří, která ji reprezentuje. Výsledky jsou uvedeny v tabulce 4 ve sloupci „Random3“: maximální skóre přesnosti ve všech souborech dat je 96 %. To je téměř stejné jako přesnost dosažená při použití jedné konkrétní číselné reprezentace (o 1 % nižší, což je v rámci experimentální chyby). Poté jsme tento experiment zopakovali, tentokrát jsme náhodně vybrali některou ze třinácti uvažovaných číselných reprezentací. Výsledky jsou uvedeny v tabulce 4 ve sloupci „Random13“, přičemž průměrné skóre přesnosti v tabulce je 88,1 %.
Všechny naše výsledky naznačují, že všechny tři číselné reprezentace „PP“, „Just-A“ a „Real“ mají velmi vysoké skóre přesnosti klasifikace (průměr >97 %) a ani náhodný výběr jedné z těchto reprezentací pro každou sekvenci v souboru dat nemá významný vliv na skóre přesnosti klasifikace ML-DSP (průměr 96 %).
Poznamenáváme také, že kromě vysoké přesnosti klasifikace je ML-DSP velmi rychlý. Skutečně, i pro největší soubor dat v tabulce 2, podčeleď Vertebrata (4322 kompletních genomů mtDNA, průměrná délka 16 806 bp), trval výpočet matice vzdáleností (který tvoří většinu klasifikačního výpočtu) méně než 5 sekund. Klasifikace nového genomu mtDNA primátů trvala 0,06 s při tréninku na 148 genomech mtDNA primátů a klasifikace nového genomu mtDNA obratlovců trvala 7 s při tréninku na 4322 genomech mtDNA obratlovců. Výsledek byl aktualizován experimentem, při němž byl QSVM natrénován na 4322 kompletních genomech obratlovců uvedených v tabulce 2 a dotazován na 694 nových genomech mtDNA obratlovců nahraných na NCBI mezi 17. červnem 2017 a 7. lednem 2019. Přesnost klasifikace byla 99,6 %, přičemž pouze tři genomy mtDNA plazů byly chybně klasifikovány jako genomy obojživelníků: Bavayia robusta, robust forest bavayia – druh gekona, NC_034780, Mesoclemmys hogei, Hoge’s toadhead turtle, NC_036346, a Gonatodes albogularis, yellow-headed gecko, NC_035153.
Vizualizace mapyMoDMap vs. genom mtD. Výsledky kvantitativní klasifikace ML-DSP
Hypotéza testovaná dalšími experimenty spočívala v tom, že kvantitativní přesnost klasifikace sekvencí DNA pomocí ML-DSP bude výrazně vyšší, než naznačuje vizuální shlukování taxonů v MoDMap vytvořené pomocí stejné matice párových vzdáleností.
Na příkladu MoDMap na obr. 4a je vizualizována matice vzdáleností genomů mtDNA z čeledi Cyprinidae (81 genomů) s jejími rody Acheilognathus (10 genomů), Rhodeus (11 genomů), Schizothorax (19 genomů), Labeo (19 genomů), Acrossocheilus (12 genomů), Onychostoma (10 genomů); uvažovány jsou pouze rody s alespoň 10 genomy. Zdá se, že MoDMap naznačuje překrývání mezi klastry Acheilognathus a Rhodeus, což je biologicky pravděpodobné, protože tyto rody patří do stejné podčeledi Acheilognathinae. Při přiblížení pomocí vykreslení MoDMapy pouze těchto dvou rodů, jak je znázorněno na obr. 4b, je však vidět, že shluky jsou vizuálně jasně odděleny. Toto oddělení potvrzuje skutečnost, že skóre přesnosti kvadratického SVM klasifikátoru pro soubor dat na obr. 4b je 100 %. Stejné kvantitativní skóre přesnosti pro klasifikaci datové sady na obr. 4a pomocí Kvadratického SVM je 91,8 %, což je intuitivně mnohem lepší, než by naznačovala odpovídající mapa MoDMap. To je pravděpodobně způsobeno tím, že MoDMap je trojrozměrnou aproximací poloh bodů reprezentujících genom ve vícerozměrném prostoru (počet rozměrů je (n-1), kde n je počet sekvencí).
Takto řečeno, MoDMaps může stále sloužit pro průzkumné účely. Například MoDMap na obr. 4a naznačuje, že druhy rodu Onychostoma (podčeleď uvedená v NCBI jako „neznámá“) (žlutá), mohou být geneticky příbuzné s druhy rodu Acrossocheilus (podčeleď Barbinae) (purpurová). Při dalším zkoumání matice vzdáleností zjistíme, že skutečně vzdálenost mezi centroidy těchto dvou shluků je menší než vzdálenost mezi každým z těchto dvou centroidů shluků k ostatním centroidům shluků. To podporuje hypotézy založené na morfologických důkazech , že rod Onychostoma patří do podčeledi Barbinae, resp. že rod Onychostoma a rod Acrossocheilus jsou si blízce příbuzné. Všimněte si, že toto zkoumání, navržené MoDMap a potvrzené výpočty na základě matice vzdáleností, nemohlo být zahájeno pouze na základě ML-DSP (nebo jiných algoritmů strojového učení pod dohledem), protože ML-DSP pouze předpovídá zařazení nových rodů do jednoho z taxonů, na kterých byl natrénován, a neposkytuje žádné další dodatečné informace.
Jako další bod srovnání MoDMap a výstupů strojového učení pod dohledem ukazuje obr. 5a MoDMapu nadřádu Ostariophysi s jeho řády Cypriniformes (643 genomů), Characiformes (31 genomů) a Siluriformes (107 genomů). MoDMap ukazuje, že se shluky překrývají, ale kvadratický SVM klasifikátor, který tyto genomy kvantitativně klasifikuje, má přesnost 99 %. Matice záměny na obr. 5b skutečně ukazuje, že Quadratic SVM chybně klasifikuje pouze 8 sekvencí ze 781 (připomeňme, že pro m shluků má matice záměny m×m řádky označené skutečnými třídami a sloupce označené předpovězenými třídami; buňka (i,j) ukazuje počet sekvencí, které patří do skutečné třídy i a byly předpovězeny do třídy j). To naznačuje, že pokud vizuální zobrazení v mapě MoDMap vykazuje překrývání shluků, může to být způsobeno pouze redukcí dimenzionality na tři dimenze, zatímco ML-DSP ve skutečnosti poskytuje mnohem lepší kvantitativní klasifikaci na základě stejné matice vzdáleností.
Aplikace na jiné soubory genomických dat
Dva experimenty v této části ukazují, že použitelnost naší metody není omezena na sekvence mitochondriální DNA. První experiment, obr. 6a, ukazuje MoDMapu všech 4721 kompletních sekvencí viru dengue dostupných v NCBI k 10. srpnu 2017, rozdělených do podtypů DENV-1 (2008 genomů), DENV-2 (1349 genomů), DENV-3 (1010 genomů), DENV-4 (354 genomů). Průměrná délka těchto kompletních virových genomů je 10 595 bp. Přestože jsou genomy viru dengue velmi podobné, přesnost klasifikace tohoto souboru dat do podtypů pomocí kvadratického SVM klasifikátoru byla 100 %. Druhý experiment, obr. 6b, ukazuje MoDMapu 4710 bakteriálních genomů, klasifikovaných do tří fylů: (437 genomů), Firmicutes (1129 genomů) a Proteobacteria (3144 genomů). Průměrná délka těchto kompletních bakteriálních genomů je 104 150 bp, přičemž maximální délka je 499 136 bp a minimální délka 20 019 bp. Klasifikační přesnost klasifikátoru Quadratic SVM pro tuto sadu dat byla 95,5 %.
Srovnání ML-DSP s nejmodernějšími nástroji založenými na zarovnání a bez zarovnání
Výpočetní experimenty v této části porovnávají ML-DSP se třemi nejmodernějšími metodami založenými na zarovnání a bez zarovnání: nástrojem MEGA7 se zarovnáním pomocí MUSCLE a CLUSTALW , a metodou bez zarovnání FFP (Feature Frequency Profiles) .
Pro tuto analýzu výkonnosti jsme vybrali tři datové sady. První dvě datové sady jsou referenční datové sady používané v jiných studiích porovnávání genetických sekvencí : První soubor dat obsahuje 38 genomů chřipkových virů a druhý soubor dat obsahuje 41 kompletních sekvencí mtDNA savců. Třetí soubor dat, který jsme si vybrali, je mnohem větší a skládá se z 4322 kompletních sekvencí mtDNA obratlovců a byl vybrán pro porovnání škálovatelnosti.
Pro metody založené na zarovnání jsme použili matici vzdáleností vypočtenou v programu MEGA7 ze sekvencí zarovnaných pomocí MUSCLE nebo CLUSTALW. Pro FFP bez zarovnání jsme použili výchozí hodnotu k=5 pro k-mery (k-mer je jakákoli sekvence DNA o délce k; jakékoli zvýšení hodnoty parametru k mělo u prvního souboru dat za následek nižší skóre přesnosti klasifikace pro FFP). Pro ML-DSP jsme zvolili číselnou reprezentaci Integer a vypočítali jsme průměrnou klasifikační přesnost pro všech šest klasifikátorů pro první dvě datové sady a pro všechny klasifikátory kromě Subspace Discriminant a Subspace KNN pro třetí datovou sadu.
Tabulka 5 ukazuje srovnání výkonnosti (klasifikační přesnost a doba zpracování) těchto čtyř metod. Doba zpracování zahrnovala všechny výpočty, počínaje načtením datových sad až po dokončení matice vzdáleností – společného prvku všech čtyř metod. Uvedené doby zpracování nezahrnují čas potřebný pro výpočet fylogenetických stromů, vizualizace MoDMap nebo klasifikaci.
Jak je vidět v tabulce 5 (sloupce 3, 4 a 6), ML-DSP z hlediska doby zpracování drtivě překonává software MEGA7(MUSCLE/CLUSTALW) založený na zarovnání. Pokud jde o přesnost, u menších srovnávacích datových sad virů a savců byly průměrné přesnosti programů ML-DSP a MEGA7(MUSCLE/CLUSTALW) srovnatelné, pravděpodobně v důsledku malé velikosti trénovací sady pro ML-DSP. Výhoda ML-DSP oproti nástrojům založeným na zarovnávání se více projevila u většího souboru dat obratlovců, kde přesnost ML-DSP a nástrojů založených na zarovnávání ani nebylo možné porovnat, protože nástroje založené na zarovnávání byly tak pomalé, že musely být ukončeny. Naproti tomu ML-DSP klasifikoval celý soubor 4322 genomů mtDNA obratlovců za 28 s s průměrnou přesností klasifikace 98,3 %. To naznačuje, že ML-DSP je výrazně škálovatelnější než MEGA7(MUSCLE/CLUSTALW) založený na zarovnávání, protože dokáže rychle a přesně klasifikovat soubory dat, které nástroje založené na zarovnávání ani nedokážou zpracovat.
Jak je vidět v tabulce 5 (sloupce 5 a 6), ML-DSP výrazně překonává software FFP bez zarovnávání, pokud jde o přesnost (průměrná přesnost klasifikace 98 %.3 % pro ML-DSP oproti 48,3 % pro FFP pro velkou datovou sadu obratlovců) a zároveň je celkově rychlejší.
Toto srovnání také ukazuje, že pro tyto datové sady mají obě metody bez zarovnání (ML-DSP a FFP) drtivou převahu nad metodami založenými na zarovnání (MEGA7 (MUSCLE/CLUSTALW)) z hlediska času zpracování. Navíc při vzájemném porovnání obou metod bez zarovnání ML-DSP výrazně překonává FFP z hlediska přesnosti klasifikace.
Jako další úhel srovnání jsou na obr. 7 zobrazeny MoDMapy první srovnávací datové sady (38 genomů chřipkového viru) vytvořené z matic vzdáleností vygenerovaných FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW), respektive ML-DSP. Obrázek 7a ukazuje, že u FFP je obtížné pozorovat jakékoli vizuální rozdělení souboru dat na podtypové shluky. Obr. 7b, MEGA7 (MUSCLE) a obr. 7c MEGA7 (CLUSTALW) ukazují překrývání shluků bodů představujících podtypy H1N1 a H2N2. Naproti tomu obr. 7d, který vizualizuje matici vzdáleností vytvořenou metodou ML-DSP, ukazuje jasné oddělení všech podtypů.
Konec Obr. 1. (2 ). 8 a 9 zobrazují fylogenetické stromy vytvořené každou ze čtyř uvažovaných metod. Obr. 8a, strom vygenerovaný metodou FFP, obsahuje mnoho chybně klasifikovaných genomů, což bylo očekáváno vzhledem k vizualizaci jeho matice vzdáleností MoDMap na obr. 7a. Obrázek 9a zobrazuje fylogenetický strom vygenerovaný metodou MEGA7, který byl stejný pro MUSCLE i CLUSTALW: má pouze jeden nesprávně klasifikovaný genom H5N1, umístěný uprostřed genomů H1N1. Na obrázcích 8b a 9b je zobrazen fylogenetický strom vygenerovaný pomocí vzdálenosti vytvořené pomocí ML-DSP (pro snadnější srovnání je zobrazen dvakrát, paralelně s ostatními stromy). ML-DSP klasifikoval všechny genomy správně.
Diskuse
Výpočetní účinnost ML-DSP je dána tím, že je bez zarovnání (nepotřebuje tedy vícenásobné zarovnání sekvencí), zatímco kombinace 1D numerických reprezentací, diskrétní Fourierovy transformace a Pearsonova korelačního koeficientu ji činí extrémně výpočetně časově efektivní, a tedy škálovatelnou.
ML-DSP není bez omezení. Předpokládáme, že potřeba stejně dlouhých sekvencí a použití normalizace délky by mohlo přinést problémy při zkoumání malých fragmentů větších sekvencí genomu. Obvykle se genomy liší v délce, a proto normalizace délky vždy vede k přidání (up-sampling) nebo ztrátě (down-sampling) některých informací. Ačkoli Pearsonův korelační koeficient dokáže rozlišit vzorce signálu i v malých fragmentech sekvencí a při posuzování kompletních genomů mitochondriální DNA s jejich nevyhnutelnými délkovými odchylkami jsme nezjistili žádnou výraznou nevýhodu, normalizace délky může způsobit problémy, když se zabýváme fragmenty genomů a mnohem většími sekvencemi jaderných genomů.
Nakonec má ML-DSP dvě nevýhody, které jsou vlastní každému algoritmu strojového učení s dohledem. První je, že ML-DSP je metoda černé skříňky, která sice poskytuje velmi přesné klasifikační předpovědi, ale nenabízí (biologické) vysvětlení svých výstupů. Druhá spočívá v tom, že je závislá na existenci trénovací množiny, z níž čerpá své „znalosti“, tj. množiny sestávající ze známých genomických sekvencí a jejich taxonomických značek. ML-DSP se pomocí takového trénovacího souboru „učí“, jak zařadit nové sekvence do jedné z taxonomických tříd, na kterých byl vyškolen, ale není schopen je přiřadit k taxonu, se kterým se nesetkal
.