Efter utformning och implementering av prototypen för ML-DSP-verktyget för klassificering av genomsekvenser har vi undersökt vilken typ av längdnormalisering och vilken typ av avstånd som var mest lämpade för klassificering av genomer med hjälp av denna metod. Vi genomförde sedan en omfattande analys av de olika numeriska representationer av DNA-sekvenser som används i litteraturen och fastställde de tre bästa. Efter att ha ställt in de viktigaste parametrarna (längdnormaliseringsmetod, avstånd och numerisk representation) testade vi ML-DSP:s förmåga att klassificera mtDNA-genom på taxonomiska nivåer som sträcker sig från domännivå ner till genusnivå, och fick genomsnittliga nivåer av klassificeringsnoggrannhet på >97 %. Slutligen jämförde vi ML-DSP med andra alignmentbaserade och alignmentfria metoder för klassificering av genomer, och visade att ML-DSP uppnådde högre noggrannhet och betydligt högre hastigheter.
- Analys av avstånd och av metoder för längdnormalisering
- Analys av olika numeriska representationer av DNA-sekvenser
- ML-DSP för tre klasser av ryggradsdjur
- Klassificering av genomer med ML-DSP, på alla taxonomiska nivåer
- MoDMap visualisering vs. ML-DSP kvantitativa klassificeringsresultat
- Användningar på andra genomiska datamängder
- Genomgång av ML-DSP med de senaste alignment-baserade och alignment-fria verktygen
- Diskussion
Analys av avstånd och av metoder för längdnormalisering
För att avgöra vilket avståndsmått och vilken metod för längdnormalisering som var mest lämpade för genomjämförelser med ML-DSP, använde vi nio olika delmängder av fullständiga mtDNA-sekvenser från vårt dataset. Dessa delmängder valdes ut för att inkludera de flesta tillgängliga fullständiga mtDNA-genom (Vertebrates dataset med 4322 mtDNA-sekvenser), samt delmängder som innehåller liknande sekvenser, med liknande längd (Primates dataset med 148 mtDNA-sekvenser), och delmängder som innehåller mtDNA-genom som visar stora skillnader i längd (Plants dataset med 174 mtDNA-sekvenser).
De klassificeringsnoggrannhetspoäng som erhållits med hjälp av de två betraktade distansmåtten (euklidisk och Pearsons korrelationskoefficient) och två olika metoder för längdnormalisering (normalisering till maximal längd och normalisering till medianlängd) på flera dataset listas i tabell 2. Klassificeringsnoggrannheten är något högre för PCC, men tillräckligt nära de resultat som erhålls vid användning av det euklidiska avståndet för att inte vara avgörande.
I resten av detta dokument valde vi Pearsons korrelationskoefficient eftersom den är skaloberoende (till skillnad från det euklidiska avståndet, som är t.ex, känslig för signalens förskjutning, varvid signaler med samma form men olika startpunkter betraktas som olikartade ), och längdnormaliseringen till medianlängd eftersom den är ekonomisk när det gäller minnesanvändning.
Analys av olika numeriska representationer av DNA-sekvenser
Vi analyserade effekten på ML-DSP-klassificeringsnoggrannheten av tretton olika endimensionella numeriska representationer för DNA-sekvenser, grupperade som: Fasta mappningar DNA numeriska representationer (tabell 1 representationer #1, #2, #3, #6, #7, se , och representationer #10, #11, #12, #13 – som är endimensionella varianter av den binära representationen som föreslagits i ), mappningar baserade på vissa fysio-kemiska egenskaper hos nukleotider (tabell 1 representation #4, se , och representation #5, se ), och mappningar baserade på närmsta granne-värden (tabell 2 representationer #8, #9, se ).
De dataset som användes för denna analys var desamma som i tabell 2. De övervakade klassificerare för maskininlärning som användes för denna analys var de sex klassificerare som anges i avsnittet Metoder och genomförande, med undantag för dataset med mer än 2 000 sekvenser där två av klassificerarna (Subspace Discriminant och Subspace KNN) utelämnades eftersom de var för långsamma. Resultaten och de genomsnittliga noggrannhetspoängen för alla dessa numeriska representationer, klassificerare och dataset sammanfattas i tabell 3.
Som framgår av tabell 3 är tabellens genomsnittliga noggrannhetspoäng (sista raden: medelvärde av medelvärdena, först för de sex klassificerarna för varje dataset och sedan för alla dataset) höga för alla numeriska representationer. Överraskande nog ger till och med en numerisk representation av en enda nukleotid, där tre av nukleotiderna behandlas som likadana och endast en av dem utpekas (”Just-A”), en genomsnittlig noggrannhet på 91,9 %. Den bästa noggrannheten, för dessa dataset, uppnås när man använder representationen ”PP”, som ger en genomsnittlig noggrannhet på 92,3 %.
För efterföljande experiment valde vi ut de tre bästa representationerna när det gäller noggrannhetspoäng: ”
ML-DSP för tre klasser av ryggradsdjur
Som en tillämpning av ML-DSP med användning av den numeriska representationen ”PP” för DNA-sekvenser, analyserade vi uppsättningen av mtDNA-genom från ryggradsdjur (medianlängd 16 606 bp). MoDMap, dvs. den flerdimensionellt skalande 3D-visualiseringen av genomernas inbördes relationer som beskrivs av avstånden i avståndsmatrisen, illustreras i fig. 3. Datasetet innehåller 3740 kompletta mtDNA-genom: 553 fågelgenom, 2313 fiskgenom och 874 däggdjursgenom. Kvantitativt sett var den klassificeringsnoggrannhet som erhölls av den kvadratiska SVM-klassificatorn 100 %.
Klassificering av genomer med ML-DSP, på alla taxonomiska nivåer
Vi testade ML-DSP:s förmåga att klassificera kompletta mtDNA-sekvenser på olika taxonomiska nivåer. För varje dataset testade vi med hjälp av de numeriska representationerna ”PP”, ”Just-A” och ”Real”.
Utgångspunkten var domänen Eukaryota (7396 sekvenser), som klassificerades i kungadömen, därefter klassificerades kungadömet Animalia i fyler, osv. På varje nivå valde vi det kluster med det högsta antalet sekvenser och klassificerade det sedan i nästa taxonomiska nivås subkluster. Den lägsta nivån som klassificerades var familjen Cyprinidae (81 sekvenser) i dess sex släkten. För varje dataset testade vi alla sex klassificerare, och den högsta av dessa sex klassificeringsnoggrannhetspoängen för varje dataset visas i tabell 4.
Bemärk att på varje taxonomisk nivå är de maximala klassificeringsnoggrannhetsvärdena (bland de sex klassificerarna) för var och en av de tre numeriska representationer som övervägts höga, från 91.4 % till 100 %, med endast tre resultat under 95 %. Eftersom denna analys inte heller avslöjade någon klar vinnare bland de tre bästa numeriska representationerna, uppstod frågan om den numeriska representation vi använder överhuvudtaget spelar någon roll. För att besvara denna fråga utförde vi ytterligare två experiment som utnyttjar det faktum att Pearsons korrelationskoefficient är skaloberoende och endast letar efter ett mönster när vi jämför signaler. I det första experimentet valde vi ut de tre bästa numeriska representationerna (”PP”, ”Just-A” och ”Real”) och för varje sekvens i ett givet dataset valdes en numerisk representation bland dessa tre slumpmässigt, med samma sannolikhet, för att vara den digitala signal som representerar den. Resultaten visas under kolumnen ”Random3” i tabell 4: Den högsta noggrannheten för alla dataset är 96 %. Detta är nästan samma som den noggrannhet som uppnåddes när en viss numerisk representation användes (1 % lägre, vilket ligger väl inom det experimentella felet). Vi upprepade sedan experimentet och valde denna gång slumpmässigt någon av de tretton numeriska representationerna. Resultaten visas under kolumnen ”Random13” i tabell 4, med en genomsnittlig noggrannhet på 88,1 %.
Samt sett tyder våra resultat på att alla tre numeriska representationer ”PP”, ”Just-A” och ”Real” har mycket höga klassificeringsnoggrannhetspoäng (genomsnitt >97%), och även ett slumpmässigt val av en av dessa representationer för varje sekvens i datamängden påverkar inte nämnvärt ML-DSP:s klassificeringsnoggrannhetspoäng (genomsnitt 96%).
Vi noterar också att ML-DSP, förutom att det har en hög noggrannhet i sina klassificeringar, är ultrasnabbt. Till och med för det största datasetet i tabell 2, subfylum Vertebrata (4322 kompletta mtDNA-genom, med en genomsnittlig längd på 16 806 bp), tog beräkningen av distansmatrisen (som utgör huvuddelen av klassificeringsberäkningen) mindre än 5 sekunder. Att klassificera ett nytt mtDNA-genom för primater tog 0,06 s när man tränade på 148 mtDNA-genom för primater, och att klassificera ett nytt mtDNA-genom för ryggradsdjur tog 7 s när man tränade på 4322 mtDNA-genom för ryggradsdjur. Resultatet uppdaterades med ett experiment där QSVM tränades på de 4322 kompletta ryggradsdjursgenomerna i tabell 2 och frågades på de 694 nya mtDNA-genom från ryggradsdjur som laddades upp på NCBI mellan den 17 juni 2017 och den 7 januari 2019. Klassificeringsnoggrannheten var 99,6 %, med endast tre reptil mtDNA-genom som felaktigt klassificerades som amfibiegenom: Bavayia robusta, robust forest bavayia – en art av gecko, NC_034780, Mesoclemmys hogei, Hoge’s toadhead turtle, NC_036346, och Gonatodes albogularis, yellowheaded gecko, NC_035153.
MoDMap visualisering vs. ML-DSP kvantitativa klassificeringsresultat
Hypotesen som testades i nästa experiment var att den kvantitativa noggrannheten i klassificeringen av DNA-sekvenser med ML-DSP skulle vara betydligt högre än vad som antyds av den visuella klusterindelningen av taxa i MoDMap som produceras med samma parvisa avståndsmatris.
Som exempel visualiserar MoDMap i figur 4a distansmatrisen för mtDNA-genom från familjen Cyprinidae (81 genom) med dess släkten Acheilognathus (10 genom), Rhodeus (11 genom), Schizothorax (19 genom), Labeo (19 genom), Acrossocheilus (12 genom), Onychostoma (10 genom); endast de släkten med minst 10 genom beaktas. MoDMap verkar visa på en överlappning mellan grupperna Acheilognathus och Rhodeus, vilket är biologiskt rimligt eftersom dessa släkten tillhör samma underfamilj Acheilognathinae. När man zoomar in genom att plotta en MoDMap av endast dessa två släkten, vilket visas i fig. 4b, kan man dock se att klustren är tydligt åtskilda visuellt. Denna separation bekräftas av det faktum att den kvadratiska SVM-klassificatorns noggrannhet för datasetet i fig. 4b är 100 %. Samma kvantitativa noggrannhet för klassificeringen av datasetet i figur 4a med Quadratic SVM är 91,8 %, vilket intuitivt sett är mycket bättre än vad motsvarande MoDMap skulle ge vid handen. Detta beror sannolikt på att MoDMap är en tredimensionell approximation av positionerna för de punkter som representerar genomet i ett flerdimensionellt rum (antalet dimensioner är (n-1), där n är antalet sekvenser).
Med detta sagt kan MoDMaps fortfarande tjäna för utforskande ändamål. MoDMap i figur 4a tyder till exempel på att arter av släktet Onychostoma (underfamiljen ”unknown” i NCBI) (gul) kan vara genetiskt besläktade med arter av släktet Acrossocheilus (underfamiljen Barbinae) (magenta). Vid en närmare granskning av avståndsmatrisen finner man att avståndet mellan centroiderna i dessa två kluster faktiskt är lägre än avståndet mellan var och en av dessa två klustercentroider till de andra klustercentroiderna. Detta stöder hypoteserna, baserade på morfologiska bevis, att släktet Onychostoma tillhör underfamiljen Barbinae, respektive att släktet Onychostoma och släktet Acrossocheilus är nära besläktade . Observera att denna utforskning, som föreslagits av MoDMap och bekräftats av beräkningar baserade på distansmatrisen, inte kunde ha inletts enbart med hjälp av ML-DSP (eller andra övervakade algoritmer för maskininlärning), eftersom ML-DSP endast förutsäger klassificeringen av nya genomer i ett av de taxa som den tränats på, och inte ger någon annan ytterligare information.
Som en annan jämförelsepunkt mellan MoDMaps och resultat från övervakad maskininlärning visar figur 5a MoDMap av överordningen Ostariophysi med dess ordningar Cypriniformes (643 genomes), Characiformes (31 genomes) och Siluriformes (107 genomes). MoDMap visar att klustren överlappar varandra, men den kvadratiska SVM-klassificatorn som kvantitativt klassificerar dessa genomer har en noggrannhet på 99 %. Förväxlingsmatrisen i fig. 5b visar att Quadratic SVM endast felklassificerar 8 sekvenser av 781 (kom ihåg att för m kluster har m×m-förväxlingsmatrisen m×m rader markerade med de sanna klasserna och kolumner markerade med de förutspådda klasserna; cellen (i,j) visar antalet sekvenser som tillhör den sanna klassen i och som förutspåtts tillhöra klassen j). Detta visar att när den visuella representationen i en MoDMap visar klusteröverlappningar kan detta endast bero på dimensionalitetsreduktionen till tre dimensioner, medan ML-DSP faktiskt ger en mycket bättre kvantitativ klassificering baserad på samma avståndsmatris.
Användningar på andra genomiska datamängder
De två experimenten i det här avsnittet visar att tillämpbarheten av vår metod inte är begränsad till mitokondriella DNA-sekvenser. Det första experimentet, fig. 6a, visar MoDMap av alla 4721 kompletta sekvenser av denguevirus som fanns tillgängliga i NCBI den 10 augusti 2017, klassificerade i subtyperna DENV-1 (2008 genom), DENV-2 (1349 genom), DENV-3 (1010 genom), DENV-4 (354 genom). Den genomsnittliga längden på dessa fullständiga virusgenom är 10 595 bp. Trots att denguevirusgenomerna är mycket lika var klassificeringsnoggrannheten för detta dataset i subtyper med hjälp av den kvadratiska SVM-klassificatorn 100 %. Det andra experimentet, fig. 6b, visar MoDMap av 4710 bakteriegenom, klassificerade i tre fyler: Spirochaetes (437 genomer), Firmicutes (1129 genomer) och Proteobacteria (3144 genomer). Den genomsnittliga längden på dessa fullständiga bakteriegenom är 104 150 bp, med en maximal längd på 499 136 bp och en minimal längd på 20 019 bp. Klassificeringsnoggrannheten för den kvadratiska SVM-klassificatorn för detta dataset var 95,5 %.
Genomgång av ML-DSP med de senaste alignment-baserade och alignment-fria verktygen
I de beräkningsmässiga experimenten i det här avsnittet jämförs ML-DSP med tre senaste alignment-baserade och alignment-fria metoder: det alignment-baserade verktyget MEGA7 med alignment med hjälp av MUSCLE och CLUSTALW , och den alignment-fria metoden FFP (Feature Frequency Profiles) .
För denna prestandaanalys valde vi tre dataset. De två första datamängderna är referensdatamängder som används i andra studier av genetiska sekvensjämförelser : Det första datasetet omfattar 38 influensavirusgenom och det andra datasetet omfattar 41 fullständiga mtDNA-sekvenser från däggdjur. Det tredje datasetet, som vi valt, är mycket större och består av 4 322 kompletta mtDNA-sekvenser från ryggradsdjur, och valdes ut för att jämföra skalbarhet.
För de anpassningsbaserade metoderna använde vi den distansmatris som beräknats i MEGA7 från sekvenser som anpassats med antingen MUSCLE eller CLUSTALW. För den anpassningsfria FFP använde vi standardvärdet k=5 för k-mers (en k-mer är en DNA-sekvens med längden k; varje ökning av värdet på parametern k, för det första datasetet, resulterade i en lägre klassificeringsnoggrannhetspoäng för FFP). För ML-DSP valde vi den numeriska representationen för heltal och beräknade den genomsnittliga klassificeringsnoggrannheten över alla sex klassificerare för de två första datamängderna och över alla klassificerare utom Subspace Discriminant och Subspace KNN för den tredje datamängden.
Tabell 5 visar jämförelsen av prestanda (klassificeringsnoggrannhet och bearbetningstid) för dessa fyra metoder. Behandlingstiden omfattade alla beräkningar, från läsning av datamängderna till färdigställande av distansmatrisen – det gemensamma elementet för alla fyra metoderna. De angivna bearbetningstiderna omfattar inte den tid som behövs för beräkning av fylogenetiska träd, MoDMap-visualiseringar eller klassificering.
Som framgår av tabell 5 (kolumnerna 3, 4 och 6) överträffar ML-DSP överväldigande mycket bättre än den inriktningsbaserade programvaran MEGA7(MUSCLE/CLUSTALW) när det gäller bearbetningstid. När det gäller noggrannhet var den genomsnittliga noggrannheten för ML-DSP och MEGA7(MUSCLE/CLUSTALW) jämförbar för de mindre referensdatasetterna för virus och däggdjur, vilket förmodligen beror på att ML-DSP:s träningsuppsättning är liten. Fördelen med ML-DSP jämfört med de anpassningsbaserade verktygen blev tydligare för den större datamängden för ryggradsdjur, där noggrannheten hos ML-DSP och de anpassningsbaserade verktygen inte ens kunde jämföras, eftersom de anpassningsbaserade verktygen var så långsamma att de var tvungna att avbrytas. ML-DSP klassificerade däremot hela uppsättningen av 4322 mtDNA-genom från ryggradsdjur på 28 s, med en genomsnittlig klassificeringsnoggrannhet på 98,3 %. Detta tyder på att ML-DSP är betydligt mer skalbar än den anpassningsbaserade MEGA7(MUSCLE/CLUSTALW), eftersom den snabbt och noggrant kan klassificera dataset som anpassningsbaserade verktyg inte ens kan bearbeta.
Som framgår av tabell 5 (kolumnerna 5 och 6) presterar ML-DSP betydligt bättre än den anpassningsfria programvaran FFP när det gäller noggrannhet (genomsnittlig klassificeringsnoggrannhet 98.3 % för ML-DSP jämfört med 48,3 % för FFP, för den stora datamängden för ryggradsdjur), samtidigt som den är totalt sett snabbare.
Denna jämförelse visar också att för dessa datamängder har båda de inriktningsfria metoderna (ML-DSP och FFP) en överväldigande fördel jämfört med de inriktningsbaserade metoderna (MEGA7 (MUSCLE/CLUSTALW)) när det gäller bearbetningstid. Dessutom, när man jämför de två inriktningsfria metoderna med varandra, presterar ML-DSP betydligt bättre än FFP när det gäller klassificeringsnoggrannhet.
Som en annan jämförelsevinkel visar figur 7 MoDMaps för det första referensdatasetetet (38 influensavirusgenom) som producerats från de avståndsmatriser som genererats av FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW) och ML-DSP respektive. Figur 7a visar att det med FFP är svårt att observera någon visuell uppdelning av datasetet i kluster av undertyper. Figur 7b, MEGA7 (MUSCLE) och figur 7c MEGA7 (CLUSTALW) visar överlappningar av kluster av punkter som representerar subtyperna H1N1 och H2N2. Däremot visar fig. 7d, som visualiserar den distansmatris som produceras av ML-DSP, en tydlig separation mellan alla subtyper.
Finally Figs. 8 och 9 visas de fylogenetiska träd som genererats med var och en av de fyra undersökta metoderna. Figur 8a, det träd som genereras av FFP, har många felklassificerade genomer, vilket var väntat med tanke på MoDMap-visualiseringen av dess distansmatris i figur 7a. Figur 9a visar det fylogenetiska träd som genererats av MEGA7, som var detsamma för både MUSCLE och CLUSTALW: Det har endast ett felaktigt klassificerat H5N1-genom, placerat i mitten av H1N1-genomen. I figurerna 8b och 9b visas det fylogenetiska träd som genererats med hjälp av det avstånd som producerats av ML-DSP (visas två gånger, parallellt med de andra träden, för att underlätta jämförelsen). ML-DSP klassificerade alla genomer korrekt.
Diskussion
Den beräkningsmässiga effektiviteten hos ML-DSP beror på det faktum att det är anpassningsfritt (det behövs alltså ingen multipel sekvensanpassning), samtidigt som kombinationen av 1D-numeriska representationer, diskret Fouriertransform och Pearson korrelationskoefficient gör det extremt beräkningstidseffektivt, och därmed skalbart.
ML-DSP är inte utan begränsningar. Vi räknar med att behovet av lika långa sekvenser och användningen av längdnormalisering kan medföra problem vid undersökning av små fragment av större genomsekvenser. Vanligtvis varierar genomerna i längd och därför resulterar längdnormalisering alltid i att viss information läggs till (uppåtriktad sampling) eller förloras (nedåtriktad sampling). Även om Pearsonkorrelationskoefficienten kan särskilja signalmönster även i små sekvensfragment, och vi inte fann någon betydande nackdel när vi betraktade kompletta mitokondrie-DNA-genom med deras oundvikliga längdvariationer, kan längdnormalisering orsaka problem när vi behandlar fragment av genomer och de mycket större nukleära genomsekvenserna.
Slutningsvis har ML-DSP två nackdelar, som är inneboende i alla övervakade algoritmer för maskininlärning. Den första är att ML-DSP är en black-box-metod som visserligen ger en mycket noggrann klassificeringsprediktion, men som inte ger någon (biologisk) förklaring till sitt resultat. Den andra är att den är beroende av att det finns en träningsuppsättning från vilken den hämtar sin ”kunskap”, dvs. en uppsättning bestående av kända genomsekvenser och deras taxonomiska etiketter. ML-DSP använder en sådan träningsuppsättning för att ”lära” sig att klassificera nya sekvenser i en av de taxonomiska klasser som den har tränats på, men den kan inte tilldela dem en taxon som den inte har varit i kontakt med.