ML-DSP: Machine Learning with Digital Signal Processing for ultrafast, accurate, and scalable genome classification at all taxonomic levels
ML-DSP-genomisekvenssiluokittelutyökalun prototyypin suunnittelun ja toteutuksen jälkeen selvitimme, minkälainen pituuden normalisointi ja etäisyys soveltuvat sopivimmin genomiluokitteluun tällä menetelmällä. Tämän jälkeen suoritimme kattavan analyysin kirjallisuudessa käytetyistä erilaisista DNA-sekvenssien numeerisista esityksistä ja määrittelimme kolme parasta suorittajaa. Asetettuamme pääparametrit (pituusnormalisointimenetelmä, etäisyys ja numeerinen esitys) testasimme ML-DSP:n kykyä luokitella mtDNA-genomeja taksonomisilla tasoilla, jotka vaihtelivat domeenitasolta sukutasolle, ja saimme luokittelutarkkuudeksi keskimäärin >97 %. Lopuksi vertasimme ML-DSP:tä muihin kohdistukseen perustuviin ja kohdistuksesta vapaisiin genomien luokittelumenetelmiin ja osoitimme, että ML-DSP saavutti suuremman tarkkuuden ja huomattavasti suuremman nopeuden.
Edistanssien ja pituuden normalisointimenetelmien analyysi
Päättääksemme, mikä etäisyysmitta ja mikä pituuden normalisointimenetelmä soveltuvat parhaiten genomien vertailuun ML-DSP:llä, käytimme yhdeksää erilaista osajoukkoa täydellisestä aineistostamme löytyvistä mtDNA-jaksoista. Nämä osajoukot valittiin siten, että ne sisälsivät suurimman osan saatavilla olevista täydellisistä mtDNA-genomeista (4322 mtDNA-sekvenssiä sisältävä selkärankaisten tietokokonaisuus) sekä osajoukkoja, jotka sisälsivät samankaltaisia sekvenssejä, jotka olivat samanpituisia (148 mtDNA-sekvenssiä sisältävä kädellisten tietokokonaisuus), ja osajoukkoja, jotka sisälsivät mtDNA-genomeja, joissa oli huomattavia eroja pituuksissa (174:ää mtDNA-spektrin sekvenssiä sisältävä kasvitiedosto).
Taulukossa 2 on lueteltu luokittelutarkkuuspisteet, jotka saatiin käyttämällä kahta tarkasteltua etäisyysmittaa (euklidinen ja Pearsonin korrelaatiokerroin) ja kahta eri pituuden normalisointitapaa (normalisointi maksimipituuteen ja normalisointi mediaanipituuteen) useissa tietokokonaisuuksissa. Luokittelutarkkuuspisteet ovat hieman korkeammat PCC:llä, mutta riittävän lähellä Euklidista etäisyyttä käytettäessä saatuja tuloksia, jotta ne eivät ole vakuuttavia.
Tässä artikkelissa valitsimme Pearsonin korrelaatiokertoimen, koska se on mittakaavariippumaton (toisin kuin euklidinen etäisyys, joka on esim, herkkä signaalin siirtymälle, jolloin samanmuotoisia mutta eri lähtöpisteissä olevia signaaleja pidetään erilaisina ), ja pituuden normalisoinnin mediaanipituuteen, koska se on taloudellinen muistinkäytön kannalta.
Analyysi DNA-sekvenssien erilaisista numeerisista esityksistä
Analysoimme DNA-sekvenssien kolmentoista erilaisen yksiulotteisen numeerisen esitystavan, jotka ryhmiteltiin seuraaviin ryhmiin: ML-DSP:n luokittelutarkkuus: Kiinteät kartoitukset DNA:n numeeriset esitykset (taulukon 1 esitykset #1, #2, #3, #6, #7, ks , ja esitykset #10, #11, #12, #13 – jotka ovat yksiulotteisia muunnelmia binäärisestä esityksestä, joka on ehdotettu vuonna ), kartoitukset, jotka perustuvat joihinkin nukleotidien fysikaalis-kemiallisiin ominaisuuksiin (taulukon 1 esitys #4, ks , ja esitys #5, ks ), ja lähimpiin naapuriarvoihin perustuvat kartoitukset (taulukon 2 esitykset #8, #9, ks ).
Tässä analyysissä käytettiin samoja tietokokonaisuuksia kuin taulukossa 2. Tässä analyysissä käytetyt valvotun koneoppimisen luokittelijat olivat Menetelmät ja toteutus -osiossa luetellut kuusi luokittelijaa lukuun ottamatta yli 2000 sekvenssiä sisältäviä tietokokonaisuuksia, joissa kaksi luokittelijaa (Subspace Discriminant ja Subspace KNN) jätettiin pois liian hitaina. Kaikkien näiden numeeristen esitysten, luokittelijoiden ja tietokokonaisuuksien tulokset ja keskimääräiset tarkkuuspisteet on koottu taulukkoon 3.
Kuten taulukosta 3 voidaan havaita, kaikkien numeeristen esitysten osalta taulukon keskimääräiset tarkkuuspisteet (viimeinen rivi: keskiarvojen keskiarvo ensin kunkin tietokokonaisuuden kuuden luokittelijan osalta ja sitten kaikkien tietokokonaisuuksien osalta) ovat korkeat. Yllättäen jopa yhden nukleotidin numeerisen esityksen käyttäminen, jossa kolme nukleotidia käsitellään samoina ja vain yksi niistä erotetaan (”Just-A”), johtaa 91,9 prosentin keskimääräiseen tarkkuuteen. Paras tarkkuus saavutetaan näissä aineistoissa, kun käytetään ”PP”-esitystä, jonka keskimääräinen tarkkuus on 92,3 %.
Seuraaviin kokeiluihin valittiin kolme parasta esitystä tarkkuuspisteiden perusteella: ”
ML-DSP kolmelle selkärankaisten luokalle
ML-DSP:n sovelluksena, jossa käytetään ”PP”-numeerista esitystä DNA-sekvensseille, analysoimme selkärankaisten mtDNA-genomien joukkoa (mediaanipituus 16 606 bp). MoDMap eli moniulotteinen skaalautuva 3D-visualisointi genomien keskinäisistä suhteista, joita etäisyysmatriisin etäisyydet kuvaavat, on esitetty kuvassa 3. Aineisto sisältää 3740 täydellistä mtDNA-genomia: 553 lintujen genomia, 2313 kalojen genomia ja 874 nisäkkäiden genomia. Kvantitatiivisesti kvadraattisella SVM-luokittelijalla saatu luokittelutarkkuuspistemäärä oli 100 %.
Genomien luokittelu ML-DSP:llä kaikilla taksonomisilla tasoilla
Testasimme ML-DSP:n kykyä luokitella täydellisiä mtDNA- sekvenssejä erilaisilla taksonomisilla tasoilla. Testasimme jokaisen tietokokonaisuuden osalta käyttäen ”PP”-, ”Just-A”- ja ”Real”-numeerisia esitystapoja.
Aloituskohteena oli domain Eukaryota (7396 sekvenssiä), joka luokiteltiin valtakuntiin, sitten valtakunta Animalia luokiteltiin fylleihin jne. Kullakin tasolla valittiin klusteri, jossa oli eniten sekvenssejä, ja sitten se luokiteltiin seuraavan taksonomisen tason alaklustereihin. Alimmalla tasolla luokiteltiin Cyprinidae-suku (81 sekvenssiä) sen kuuteen sukuun. Kunkin tietokokonaisuuden osalta testasimme kaikkia kuutta luokittelijaa, ja taulukossa 4 esitetään näiden kuuden luokittelutarkkuuden enimmäispisteet kunkin tietokokonaisuuden osalta.
Huomaa, että kullakin taksonomisella tasolla maksimaaliset luokittelutarkkuuspisteet (kuuden luokittelijan joukosta) jokaisella kolmella tarkastellulla numeerisella esitystavalla ovat korkeita, vaihdellen 91:stä 91:een.4 %:sta 100 %:iin, ja vain kolme tulosta on alle 95 %. Koska tämäkään analyysi ei paljastanut selkeää voittajaa kolmen parhaan numeerisen esityksen joukosta, heräsi kysymys, onko käyttämällämme numeerisella esityksellä mitään merkitystä. Vastataksemme tähän kysymykseen teimme kaksi lisäkoetta, joissa hyödynnettiin sitä, että Pearsonin korrelaatiokerroin on mittakaavariippumaton ja etsii vain mallia vertaillessaan signaaleja. Ensimmäistä kokeilua varten valitsimme kolme parasta numeerista esitystä (”PP”, ”Just-A” ja ”Real”), ja tietyssä tietokokonaisuudessa kullekin sekvenssille valittiin satunnaisesti ja yhtä suurella todennäköisyydellä numeerinen esitys näiden kolmen joukosta sitä edustavaksi digitaaliseksi signaaliksi. Tulokset näkyvät taulukon 4 sarakkeessa ”Random3”: kaikkien tietokokonaisuuksien suurin tarkkuus on 96 %. Tämä on lähes sama kuin tarkkuus, joka saatiin, kun käytettiin yhtä tiettyä numeerista esitystä (1 % vähemmän, mikä on hyvin kokeellisen virheen rajoissa). Toistimme tämän kokeen valitsemalla tällä kertaa satunnaisesti minkä tahansa kolmestatoista tarkastellusta numeerisesta esityksestä. Tulokset on esitetty taulukon 4 sarakkeessa ”Random13”, ja taulukon keskimääräinen tarkkuus oli 88,1 %.
Kaiken kaikkiaan tuloksemme viittaavat siihen, että kaikilla kolmella numeerisella representaatiolla ”PP”, ”Just-A” ja ”Real” on erittäin korkeat luokittelutarkkuusarvot (keskimäärin >97 %), eikä edes satunnainen valinta yhdestä näistä representaatioista kullekin sekvenssille tietokokonaisuudessa vaikuta merkittävästi ML-DSP:n luokittelutarkkuusarvoihin (keskimäärin 96 %).
Huomautamme myös, että ML-DSP:llä on erittäin tarkkojen luokittelujensa lisäksi ultranopea. Itse asiassa jopa taulukon 2 suurimman aineiston, subphylum Vertebrata (4322 täydellistä mtDNA-genomia, keskipituus 16 806 bp), etäisyysmatriisilaskenta (joka on suurin osa luokituslaskennasta) kesti alle 5 s. Uuden kädellisten mtDNA-genomin luokittelu kesti 0,06 sekuntia, kun se koulutettiin 148 kädellisten mtDNA-genomilla, ja uuden selkärankaisten mtDNA-genomin luokittelu kesti 7 sekuntia, kun se koulutettiin 4322 selkärankaisten mtDNA-genomilla. Tulosta päivitettiin kokeella, jossa QSVM koulutettiin taulukossa 2 oleville 4322 täydelliselle selkärankaisten genomille ja kysyttiin 694 uutta selkärankaisten mtDNA-genomia, jotka oli ladattu NCBI:hen 17. kesäkuuta 2017 ja 7. tammikuuta 2019 välisenä aikana. Luokittelutarkkuus oli 99,6 %, ja vain kolme matelijoiden mtDNA-genomia luokiteltiin virheellisesti sammakkoeläinten genomeiksi: Bavayia robusta, robust forest bavayia – geckolaji, NC_034780, Mesoclemmys hogei, Hoge’s toadhead kilpikonna, NC_036346, ja Gonatodes albogularis, yellow-headed gecko, NC_035153.
MoDMap-visualisointi vs. ML-DSP:n kvantitatiivisen luokittelun tulokset
Seuraavissa kokeissa testattiin hypoteesia, jonka mukaan DNA-sekvenssien luokittelun kvantitatiivinen tarkkuus ML-DSP:llä olisi huomattavasti korkeampi kuin taksonien visuaalinen ryhmittely MoDMapissa, joka tuotettiin samalla pareittaisella etäisyysmatriisilla.
Esimerkkinä kuvassa 4a oleva MoDMap visualisoi mtDNA-genomien etäisyysmatriisin Cyprinidae-heimon (81 genomia) mtDNA-genomeista ja sen suvuista Acheilognathus (10 genomia), Rhodeus (11 genomia), Schizothorax (19 genomia), Labeo (19 genomia), Acrossocheilus (12 genomia) ja Onychostoma (10 genomia); vain suvut, joilla on vähintään 10 genomia, on otettu huomioon. MoDMap näyttää osoittavan päällekkäisyyttä Acheilognathus- ja Rhodeus-klusterien välillä, mikä on biologisesti uskottavaa, koska nämä suvut kuuluvat samaan Acheilognathinae-alaperheeseen. Kun kuitenkin suurennetaan karttaa piirtämällä MoDMap-kartta vain näistä kahdesta suvusta, kuten kuvassa 4b on esitetty, voidaan nähdä, että klusterit ovat visuaalisesti selvästi erillään. Tätä erottelua vahvistaa se, että Quadratic SVM -luokittimen tarkkuus kuvan 4b aineistossa on 100 prosenttia. Sama kvantitatiivinen tarkkuusluku kuvan 4a tietokokonaisuuden luokittelussa Quadratic SVM:llä on 91,8 %, mikä on intuitiivisesti paljon parempi kuin vastaava MoDMap-kartta antaisi ymmärtää. Tämä johtuu todennäköisesti siitä, että MoDMap on kolmiulotteinen approksimaatio genomia edustavien pisteiden sijainneista moniulotteisessa avaruudessa (ulottuvuuksien lukumäärä on (n-1), jossa n on sekvenssien lukumäärä).