ML-DSP: Machine Learning with Digital Signal Processing for ultrahurtig, præcis og skalerbar genomklassifikation på alle taksonomiske niveauer
I forlængelse af udformningen og implementeringen af prototypen af ML-DSP-værktøjet til genomisk sekvensklassifikation undersøgte vi, hvilken type længde-normalisering og hvilken type afstand der var mest velegnet til genomklassifikation ved hjælp af denne metode. Vi foretog derefter en omfattende analyse af de forskellige numeriske repræsentationer af DNA-sekvenser, der anvendes i litteraturen, og bestemte de tre bedste resultater. Efter at have indstillet de vigtigste parametre (længde-normaliseringsmetode, afstand og numerisk repræsentation) testede vi ML-DSP’s evne til at klassificere mtDNA-genomer på taksonomiske niveauer fra domæneniveau ned til slægtsniveau, og opnåede gennemsnitlige niveauer for klassifikationsnøjagtighed på >97%. Endelig sammenlignede vi ML-DSP med andre alignment-baserede og alignment-frie genomklassifikationsmetoder og viste, at ML-DSP opnåede højere nøjagtighed og betydeligt højere hastigheder.
Analyse af afstande og af længde-normaliseringsmetoder
For at afgøre, hvilket afstandsmål og hvilken længde-normaliseringsmetode der var mest egnet til genomsammenligninger med ML-DSP, brugte vi ni forskellige delmængder af fulde mtDNA-sekvenser fra vores datasæt. Disse delmængder blev udvalgt for at omfatte de fleste af de tilgængelige komplette mtDNA-genomer (Vertebrates datasæt med 4322 mtDNA-sekvenser), samt delmængder, der indeholder lignende sekvenser af lignende længde (Primates datasæt med 148 mtDNA-sekvenser), og delmængder, der indeholder mtDNA-genomer, der viser store forskelle i længde (Plants datasæt med 174 mtDNA-sekvenser).
De klassifikationsnøjagtighedsscorer, der er opnået ved hjælp af de to betragtede afstandsmålinger (euklidisk og Pearson korrelationskoefficient) og to forskellige længde-normaliseringsmetoder (normalisering til maksimal længde og normalisering til medianlængde) på flere datasæt er anført i tabel 2. Klassifikationsnøjagtighedsscorerne er lidt højere for PCC, men tilstrækkeligt tæt på dem, der opnås ved brug af den euklidiske afstand, til at de ikke er entydige.
I resten af denne artikel har vi valgt Pearsons korrelationskoefficient, fordi den er skalauafhængig (i modsætning til den euklidiske afstand, som er f.eks, følsom over for signalets forskydning, hvorved signaler med samme form, men forskellige startpunkter betragtes som ulige), og længde-normaliseringen til medianlængde, fordi den er økonomisk med hensyn til hukommelsesforbrug.
Analyse af forskellige numeriske repræsentationer af DNA-sekvenser
Vi analyserede virkningen på ML-DSP-klassifikationsnøjagtigheden af tretten forskellige endimensionelle numeriske repræsentationer for DNA-sekvenser, grupperet som: Faste mappings DNA numeriske repræsentationer (Tabel 1 repræsentationer #1, #2, #3, #6, #7, se , og repræsentationer #10, #11, #12, #13 – som er endimensionelle varianter af den binære repræsentation foreslået i ), mappings baseret på nogle fysio-kemiske egenskaber ved nukleotider (Tabel 1 repræsentation #4, se , og repræsentation #5, se ), og mappings baseret på nærmest-nabo værdier (Tabel 2 repræsentationer #8, #9, se ).
De datasæt, der blev anvendt til denne analyse, var de samme som dem i tabel 2. De overvågede maskinlæringsklassifikatorer, der blev anvendt til denne analyse, var de seks klassifikatorer, der er anført i afsnittet Metoder og implementering, med undtagelse af datasættene med mere end 2000 sekvenser, hvor to af klassifikatorerne (Subspace Discriminant og Subspace KNN) blev udeladt, da de var for langsomme. Resultaterne og de gennemsnitlige nøjagtighedsscorer for alle disse numeriske repræsentationer, klassifikatorer og datasæt er opsummeret i tabel 3.
Som det fremgår af tabel 3, er de gennemsnitlige nøjagtighedsscorer i tabellen (sidste række: gennemsnit af gennemsnit, først over de seks klassifikatorer for hvert datasæt og derefter over alle datasæt) høje for alle numeriske repræsentationer (sidste række: gennemsnit af gennemsnit, først over de seks klassifikatorer for hvert datasæt og derefter over alle datasæt). Overraskende nok resulterer selv anvendelsen af en numerisk repræsentation af en enkelt nukleotid, hvor tre af nukleotiderne behandles som værende de samme og kun en af dem fremhæves (“Just-A”), i en gennemsnitlig nøjagtighed på 91,9 %. Den bedste nøjagtighed for disse datasæt opnås ved anvendelse af “PP”-repræsentationen, som giver en gennemsnitlig nøjagtighed på 92,3 %.
I de efterfølgende eksperimenter har vi udvalgt de tre bedste repræsentationer med hensyn til nøjagtighedsscore: “
ML-DSP for tre klasser af hvirveldyr
Som en anvendelse af ML-DSP ved hjælp af den numeriske repræsentation “PP” for DNA-sekvenser analyserede vi sættet af mtDNA-genomer fra hvirveldyr (medianlængde 16.606 bp). MoDMap, dvs. den flerdimensionale skalering 3D-visualisering af genomernes indbyrdes relationer som beskrevet af afstandene i afstandsmatricen, er illustreret i fig. 3. Datasættet indeholder 3740 komplette mtDNA-genomer: 553 fuglegenomer, 2313 fiskegenomer og 874 pattedyrgenomer. Kvantitativt set var den klassificeringsnøjagtighedsscore, der blev opnået af den kvadratiske SVM-klassifikator, 100 %.
Klassificering af genomer med ML-DSP, på alle taksonomiske niveauer
Vi testede ML-DSP’s evne til at klassificere komplette mtDNA-sekvenser på forskellige taksonomiske niveauer. For hvert datasæt testede vi ved hjælp af de numeriske repræsentationer “PP”, “Just-A” og “Real”.
Startpunktet var domæne Eukaryota (7396 sekvenser), som blev klassificeret i kongeriger, derefter blev kongeriget Animalia klassificeret i fylaer osv. På hvert niveau valgte vi den klynge med det højeste antal sekvenser og klassificerede den derefter i subklynger på det næste taksonomiske niveau. Det laveste niveau, der blev klassificeret, var familien Cyprinidae (81 sekvenser) i dens seks slægter. For hvert datasæt testede vi alle seks klassifikatorer, og det maksimale resultat af disse seks klassifikationsnøjagtigheder for hvert datasæt er vist i tabel 4.
Bemærk, at på hvert taksonomisk niveau er de maksimale klassifikationsnøjagtighedsscorer (blandt de seks klassifikatorer) for hver af de tre betragtede numeriske repræsentationer høje og ligger fra 91.4 % til 100 %, med kun tre scoringer under 95 %. Da denne analyse heller ikke afslørede en klar vinder blandt de tre bedste numeriske repræsentationer, rejste spørgsmålet sig, om den anvendte numeriske repræsentation overhovedet havde nogen betydning. For at besvare dette spørgsmål udførte vi to yderligere eksperimenter, som udnytter det faktum, at Pearson-korrelationskoefficienten er skalauafhængig og kun leder efter et mønster, når vi sammenligner signaler. I det første eksperiment valgte vi de tre bedste numeriske repræsentationer (“PP”, “Just-A” og “Real”), og for hver sekvens i et givet datasæt blev en numerisk repræsentation blandt disse tre tilfældigt og med samme sandsynlighed valgt som det digitale signal, der repræsenterer den. Resultaterne er vist under kolonnen “Random3” i tabel 4: Den maksimale nøjagtighedsscore for alle datasættene er 96 %. Dette er næsten det samme som den nøjagtighed, der blev opnået, når der blev anvendt en bestemt numerisk repræsentation (1 % lavere, hvilket ligger godt inden for den eksperimentelle fejl). Vi gentog derefter dette eksperiment, denne gang ved at vælge tilfældigt fra en af de tretten numeriske repræsentationer, der blev overvejet. Resultaterne er vist under kolonnen “Random13” i tabel 4, og den gennemsnitlige nøjagtighedsscore for tabellen er 88,1 %.
Overordnet set tyder vores resultater på, at alle tre numeriske repræsentationer “PP”, “Just-A” og “Real” har meget høje klassifikationsnøjagtighedsscorer (gennemsnit >97%), og selv et tilfældigt valg af en af disse repræsentationer for hver sekvens i datasættet påvirker ikke ML-DSP’s klassifikationsnøjagtighedsscore væsentligt (gennemsnit 96%).
Vi bemærker også, at ML-DSP ud over at være meget nøjagtig i sine klassifikationer er ultrahurtig. Selv for det største datasæt i tabel 2, subphylum Vertebrata (4322 komplette mtDNA-genomer, gennemsnitslængde 16 806 bp), varede afstandsmatrixberegningen (som er hovedparten af klassifikationsberegningen) under 5 s. Det tog 0,06 s at klassificere et nyt mtDNA-genom for primater, når det blev trænet på 148 mtDNA-genomer for primater, og det tog 7 s at klassificere et nyt mtDNA-genom for hvirveldyr, når det blev trænet på de 4322 mtDNA-genomer for hvirveldyr. Resultatet blev opdateret med et eksperiment, hvor QSVM blev trænet på de 4322 fuldstændige hvirveldyrgenomer i tabel 2 og querried på de 694 nye mtDNA-genomer fra hvirveldyr, der blev uploadet på NCBI mellem den 17. juni 2017 og den 7. januar 2019. Nøjagtigheden af klassificeringen var 99,6 %, og kun tre reptil mtDNA-genomer blev fejlklassificeret som amfibiegenomer: Bavayia robusta, robust skovbavayia – en art af gekko, NC_034780, Mesoclemmys hogei, Hoge’s paddehovedskildpadde, NC_036346, og Gonatodes albogularis, gulhovedet gekko, NC_035153.
MoDMap-visualisering vs. ML-DSP kvantitative klassifikationsresultater
Hypotesen, der blev testet ved de næste eksperimenter, var, at den kvantitative nøjagtighed af klassifikationen af DNA-sekvenser ved ML-DSP ville være betydeligt højere end antydet af den visuelle gruppering af taxaer i MoDMap produceret med den samme parvise afstandsmatrix.
Som eksempel visualiserer MoDMap i fig. 4a afstandsmatricen for mtDNA-genomer fra familien Cyprinidae (81 genomer) med dens slægter Acheilognathus (10 genomer), Rhodeus (11 genomer), Schizothorax (19 genomer), Labeo (19 genomer), Acrossocheilus (12 genomer), Onychostoma (10 genomer); kun de slægter med mindst 10 genomer er taget i betragtning. MoDMap synes at indikere et overlap mellem grupperne Acheilognathus og Rhodeus, hvilket er biologisk plausibelt, da disse slægter tilhører den samme underfamilie Acheilognathinae. Ved at zoome ind ved at tegne et MoDMap kun af disse to slægter, som vist i fig. 4b, kan man imidlertid se, at klyngerne er klart adskilt visuelt. Denne adskillelse bekræftes af det faktum, at nøjagtighedsscoren for den kvadratiske SVM-klassifikator for datasættet i fig. 4b er 100 %. Den samme kvantitative nøjagtighedsscore for klassificeringen af datasættet i fig. 4a med Quadratic SVM er 91,8 %, hvilket intuitivt set er meget bedre, end det tilsvarende MoDMap ville antyde. Dette skyldes sandsynligvis, at MoDMap er en tredimensionel tilnærmelse af de gen-repræsentative punkters positioner i et flerdimensionelt rum (antallet af dimensioner er (n-1), hvor n er antallet af sekvenser).