În urma conceperii și implementării prototipului instrumentului de clasificare a secvențelor genomice ML-DSP, am investigat ce tip de normalizare a lungimii și ce tip de distanță sunt cele mai potrivite pentru clasificarea genomului folosind această metodă. Am efectuat apoi o analiză cuprinzătoare a diferitelor reprezentări numerice ale secvențelor ADN utilizate în literatura de specialitate și am determinat cele mai performante trei. După ce am stabilit parametrii principali (metoda de normalizare a lungimii, distanța și reprezentarea numerică), am testat capacitatea ML-DSP de a clasifica genomurile de ADNmt la niveluri taxonomice care variază de la nivelul domeniului până la nivelul genului și am obținut niveluri medii de precizie a clasificării de >97%. În cele din urmă, am comparat ML-DSP cu alte metode de clasificare a genomurilor bazate pe aliniere și fără aliniere și am arătat că ML-DSP a obținut o acuratețe mai mare și viteze semnificativ mai mari.
- Analiză a distanțelor și a abordărilor de normalizare a lungimilor
- Analiza diferitelor reprezentări numerice ale secvențelor de ADN
- Analiza diferitelor reprezentări numerice unidimensionale pentru secvențele de ADN: Reprezentări numerice fixe ale ADN (Tabelul 1 reprezentările #1, #2, #3, #6, #7, vezi , și reprezentările #10, #11, #12, #13 – care sunt variante unidimensionale ale reprezentării binare propuse în ), reprezentări bazate pe unele proprietăți fizico-chimice ale nucleotidelor (Tabelul 1 reprezentarea #4, vezi , și reprezentarea #5, vezi ), și reprezentări bazate pe valorile celui mai apropiat vecin (Tabelul 2 reprezentările #8, #9, vezi ).
- ML-DSP pentru trei clase de vertebrate
- Clasificarea genomurilor cu ML-DSP, la toate nivelurile taxonomice
- Vizualizare MoDMap vs. Rezultatele clasificării cantitative ML-DSP
- Aplicații la alte seturi de date genomice
- Compararea ML-DSP cu cele mai avansate instrumente bazate pe aliniere și fără aliniere
- Discuție
Analiză a distanțelor și a abordărilor de normalizare a lungimilor
Pentru a decide ce măsură de distanță și ce metodă de normalizare a lungimilor erau cele mai potrivite pentru compararea genomurilor cu ML-DSP, am folosit nouă subseturi diferite de secvențe complete de mtADN din setul nostru de date. Aceste subseturi au fost selectate pentru a include majoritatea genomurilor mtADN complete disponibile (setul de date Vertebrates de 4322 de secvențe mtADN), precum și subseturi care conțin secvențe similare, de lungime similară (set de date Primates de 148 de secvențe mtADN) și subseturi care conțin genomuri mtADN care prezintă diferențe mari de lungime (set de date Plants de 174 de secvențe mtADN).
Scorele de acuratețe a clasificării obținute utilizând cele două măsuri de distanță luate în considerare (coeficientul euclidian și coeficientul de corelație Pearson) și două abordări diferite de normalizare a lungimii (normalizarea la lungimea maximă și normalizarea la lungimea mediană) pe mai multe seturi de date sunt enumerate în tabelul 2. Scorurile de acuratețe a clasificării sunt ușor mai mari pentru PCC, dar suficient de apropiate de cele obținute atunci când se utilizează distanța euclidiană pentru a nu fi concludente.
În restul lucrării am ales coeficientul de corelație Pearson pentru că este independent de scară (spre deosebire de distanța euclidiană, care este, de ex, sensibilă la decalajul semnalului, prin care semnalele cu aceeași formă, dar cu puncte de plecare diferite sunt considerate ca fiind diferite ), și normalizarea lungimii la lungimea mediană deoarece este economică din punct de vedere al utilizării memoriei.
Analiza diferitelor reprezentări numerice ale secvențelor de ADN
Am analizat efectul asupra preciziei de clasificare ML-DSP a treisprezece reprezentări numerice unidimensionale diferite pentru secvențele de ADN, grupate astfel:
Analiza diferitelor reprezentări numerice unidimensionale pentru secvențele de ADN: Reprezentări numerice fixe ale ADN (Tabelul 1 reprezentările #1, #2, #3, #6, #7, vezi , și reprezentările #10, #11, #12, #13 – care sunt variante unidimensionale ale reprezentării binare propuse în ), reprezentări bazate pe unele proprietăți fizico-chimice ale nucleotidelor (Tabelul 1 reprezentarea #4, vezi , și reprezentarea #5, vezi ), și reprezentări bazate pe valorile celui mai apropiat vecin (Tabelul 2 reprezentările #8, #9, vezi ).
Seturile de date utilizate pentru această analiză au fost aceleași cu cele din tabelul 2. Clasificatorii de învățare automată supravegheată utilizați pentru această analiză au fost cei șase clasificatori enumerați în secțiunea Metode și implementare, cu excepția seturilor de date cu mai mult de 2000 de secvențe, unde doi dintre clasificatori (Subspace Discriminant și Subspace KNN) au fost omisi ca fiind prea lenți. Rezultatele și scorurile medii de precizie pentru toate aceste reprezentări numerice, clasificatori și seturi de date sunt rezumate în tabelul 3.
După cum se poate observa din tabelul 3, pentru toate reprezentările numerice, scorurile medii de acuratețe din tabel (ultimul rând: media mediilor, mai întâi pe cei șase clasificatori pentru fiecare set de date și apoi pe toate seturile de date), sunt ridicate. În mod surprinzător, chiar și utilizarea unei reprezentări numerice a unei singure nucleotide, care tratează trei dintre nucleotide ca fiind identice și evidențiază doar una dintre ele („Just-A”), duce la o precizie medie de 91,9%. Cea mai bună acuratețe, pentru aceste seturi de date, este obținută atunci când se utilizează reprezentarea „PP”, care produce o acuratețe medie de 92,3%.
Pentru experimentele ulterioare am selectat primele trei reprezentări în ceea ce privește scorurile de acuratețe: Reprezentările numerice „PP”, „Just-A” și „Real”.
ML-DSP pentru trei clase de vertebrate
Ca o aplicație a ML-DSP care utilizează reprezentarea numerică „PP” pentru secvențe ADN, am analizat setul de genomuri mtDNA de vertebrate (lungime medie de 16.606 bp). MoDMap, adică vizualizarea 3D cu scalare multidimensională a interrelațiilor dintre genomuri, așa cum sunt descrise de distanțele din matricea de distanțe, este ilustrată în Fig. 3. Setul de date conține 3740 de genomuri mtDNA complete: 553 genomuri de păsări, 2313 genomuri de pești și 874 genomuri de mamifere. Din punct de vedere cantitativ, scorul de acuratețe a clasificării obținut de clasificatorul Quadratic SVM a fost de 100%.
Clasificarea genomurilor cu ML-DSP, la toate nivelurile taxonomice
Am testat capacitatea ML-DSP de a clasifica secvențe complete de ADNmt la diferite niveluri taxonomice. Pentru fiecare set de date, am testat folosind reprezentările numerice „PP”, „Just-A” și „Real”.
Punctul de plecare a fost domeniul Eukaryota (7396 secvențe), care a fost clasificat în regnuri, apoi regnul Animalia a fost clasificat în phyla, etc. La fiecare nivel, am ales clusterul cu cel mai mare număr de secvențe și apoi l-am clasificat în următoarele subclustere de nivel taxonomic. Cel mai mic nivel de clasificare a fost familia Cyprinidae (81 de secvențe) în cele șase genuri ale sale. Pentru fiecare set de date, am testat toți cei șase clasificatori, iar scorurile maxime de acuratețe ale acestor șase clasificări pentru fiecare set de date sunt prezentate în tabelul 4.
Rețineți că, la fiecare nivel taxonomic, scorurile maxime de precizie de clasificare (dintre cei șase clasificatori) pentru fiecare dintre cele trei reprezentări numerice luate în considerare sunt ridicate, variind de la 91.4% la 100%, cu doar trei scoruri sub 95%. Întrucât nici această analiză nu a evidențiat un câștigător clar între cele trei reprezentări numerice de top, s-a pus atunci întrebarea dacă reprezentarea numerică pe care o folosim contează în vreun fel. Pentru a răspunde la această întrebare, am efectuat două experimente suplimentare, care exploatează faptul că coeficientul de corelație Pearson este independent de scară și caută doar un model în timp ce compară semnale. Pentru primul experiment, am selectat primele trei reprezentări numerice („PP”, „Just-A” și „Real”) și, pentru fiecare secvență dintr-un set de date dat, o reprezentare numerică dintre aceste trei a fost aleasă aleatoriu, cu probabilitate egală, pentru a fi semnalul digital care o reprezintă. Rezultatele sunt prezentate în coloana „Random3” din tabelul 4: scorul maxim de acuratețe pentru toate seturile de date este de 96%. Acest rezultat este aproape identic cu acuratețea obținută atunci când a fost utilizată o anumită reprezentare numerică (cu 1% mai mică, ceea ce se încadrează bine în eroarea experimentală). Am repetat apoi acest experiment, de data aceasta alegând aleatoriu din oricare dintre cele treisprezece reprezentări numerice luate în considerare. Rezultatele sunt prezentate în coloana „Random13” din tabelul 4, scorul mediu de acuratețe al tabelului fiind de 88,1%.
În ansamblu, rezultatele noastre sugerează că toate cele trei reprezentări numerice „PP”, „Just-A” și „Real” au scoruri foarte ridicate de acuratețe a clasificărilor (media >97%) și chiar și alegerea aleatorie a uneia dintre aceste reprezentări pentru fiecare secvență din setul de date nu afectează în mod semnificativ scorul de acuratețe a clasificării de către ML-DSP (media 96%).
Reținem, de asemenea, că, pe lângă faptul că este foarte precis în clasificările sale, ML-DSP este ultrarapid. Într-adevăr, chiar și pentru cel mai mare set de date din tabelul 2, subfilo Vertebrata (4322 de genomuri complete de ADNmt, cu o lungime medie de 16 806 bp), calculul matricei de distanțe (care reprezintă cea mai mare parte a calculului de clasificare) a durat mai puțin de 5 s. Clasificarea unui nou genom mtADN de primate a durat 0,06 s atunci când a fost antrenată pe 148 de genomuri mtADN de primate, iar clasificarea unui nou genom mtADN de vertebrate a durat 7 s atunci când a fost antrenată pe cele 4322 de genomuri mtADN de vertebrate. Rezultatul a fost actualizat cu un experiment prin care QSVM a fost antrenat pe cele 4322 de genomuri complete de vertebrate din tabelul 2 și interogat pe cele 694 de noi genomuri de ADNmt de vertebrate încărcate pe NCBI între 17 iunie 2017 și 7 ianuarie 2019. Acuratețea clasificării a fost de 99,6 %, cu doar trei genomuri de ADNmt de reptile clasificate greșit ca genomuri de amfibieni: Bavayia robusta, bavayia robustă de pădure – o specie de gecko, NC_034780, Mesoclemmys hogei, broasca țestoasă cu cap de broască de Hoge, NC_036346, și Gonatodes albogularis, gecko cu cap galben, NC_035153.
Vizualizare MoDMap vs. Rezultatele clasificării cantitative ML-DSP
Ipoteza testată prin următoarele experimente a fost că acuratețea cantitativă a clasificării secvențelor ADN prin ML-DSP ar fi semnificativ mai mare decât cea sugerată de gruparea vizuală a taxonilor în MoDMap produsă cu aceeași matrice de distanțe pe perechi.
Ca exemplu, MoDMap din Fig. 4a, vizualizează matricea de distanțe a genomurilor de ADNmt din familia Cyprinidae (81 genomuri) cu genurile sale Acheilognathus (10 genomuri), Rhodeus (11 genomuri), Schizothorax (19 genomuri), Labeo (19 genomuri), Acrossocheilus (12 genomuri), Onychostoma (10 genomuri); sunt luate în considerare doar genurile cu cel puțin 10 genomuri. MoDMap pare să indice o suprapunere între clusterele Acheilognathus și Rhodeus, ceea ce este plauzibil din punct de vedere biologic, deoarece aceste genuri aparțin aceleiași subfamilii Acheilognathinae. Cu toate acestea, atunci când se mărește imaginea prin trasarea unui MoDMap doar pentru aceste două genuri, așa cum se arată în Fig. 4b, se poate observa că grupurile sunt clar separate din punct de vedere vizual. Această separare este confirmată de faptul că scorul de precizie al clasificatorului Quadratic SVM pentru setul de date din Fig. 4b este de 100 %. Același scor de acuratețe cantitativă pentru clasificarea setului de date din Fig. 4a cu Quadratic SVM este de 91,8%, ceea ce, intuitiv, este mult mai bun decât ar sugera MoDMap-ul corespunzător. Acest lucru se datorează probabil faptului că MoDMap este o aproximare tridimensională a pozițiilor punctelor care reprezintă genomul într-un spațiu multidimensional (numărul de dimensiuni este (n-1), unde n este numărul de secvențe).
Acesta fiind spus, MoDMaps poate servi în continuare în scopuri exploratorii. De exemplu, MoDMap din Fig. 4a sugerează că speciile din genul Onychostoma (subfamilia listată „necunoscută” în NCBI) (galben), ar putea fi înrudite genetic cu speciile din genul Acrossocheilus (subfamilia Barbinae) (magenta). În urma unei explorări mai amănunțite a matricei de distanțe, se constată că, într-adevăr, distanța dintre centroidele acestor două grupuri este mai mică decât distanța dintre fiecare dintre aceste două centre de grup și celelalte centre de grup. Acest lucru susține ipoteza, bazată pe dovezi morfologice, că genul Onychostoma aparține subfamiliei Barbinae, respectiv că genul Onychostoma și genul Acrossocheilus sunt strâns înrudite. Rețineți că această explorare, sugerată de MoDMap și confirmată de calculele bazate pe matricea de distanțe, nu ar fi putut fi inițiată doar pe baza ML-DSP (sau a altor algoritmi supravegheați de învățare automată), deoarece ML-DSP prezice doar clasificarea noilor genomuri într-unul dintre taxonii pe care a fost antrenat și nu oferă alte informații suplimentare.
Ca un alt punct de comparație între MoDMaps și rezultatele învățării automate supravegheate, Fig. 5a prezintă MoDMap-ul superordinului Ostariophysi cu ordinele sale Cypriniformes (643 de genomuri), Characiformes (31 de genomuri) și Siluriformes (107 genomuri). MoDMap arată clusterele ca fiind suprapuse, dar clasificatorul SVM pătratic care clasifică cantitativ aceste genomuri are o precizie de 99 %. Într-adevăr, matricea de confuzie din Fig. 5b arată că Quadratic SVM clasifică greșit doar 8 secvențe din 781 (reamintim că, pentru m clustere, matricea de confuzie m×m are rândurile etichetate cu clasele adevărate și coloanele etichetate cu clasele prezise; celula (i,j) arată numărul de secvențe care aparțin clasei adevărate i și care au fost prezise a fi din clasa j). Acest lucru indică faptul că, atunci când reprezentarea vizuală într-un MoDMap arată suprapuneri de clustere, acest lucru se poate datora doar reducerii dimensionalității la trei dimensiuni, în timp ce ML-DSP oferă de fapt o clasificare cantitativă mult mai bună pe baza aceleiași matrice de distanțe.
Aplicații la alte seturi de date genomice
Cele două experimente din această secțiune indică faptul că aplicabilitatea metodei noastre nu se limitează la secvențele de ADN mitocondrial. Primul experiment, Fig. 6a, prezintă MoDMap din toate cele 4721 de secvențe complete ale virusului dengue disponibile în NCBI la 10 august,2017, clasificate în subtipurile DENV-1 (2008 genomuri), DENV-2 (1349 genomuri), DENV-3 (1010 genomuri), DENV-4 (354 genomuri). Lungimea medie a acestor genomuri virale complete este de 10.595 bp. În ciuda faptului că genomurile virale ale virusului dengue sunt foarte asemănătoare, acuratețea clasificării acestui set de date în subtipuri, utilizând clasificatorul Quadratic SVM, a fost de 100%. Al doilea experiment, Fig. 6b, prezintă MoDMap-ul a 4710 genomuri bacteriene, clasificate în trei phyla: Spirochaetes (437 genomuri), Firmicutes (1129 genomuri) și Proteobacteria (3144 genomuri). Lungimea medie a acestor genomuri bacteriene complete este de 104.150 pb, lungimea maximă fiind de 499.136 pb și cea minimă de 20.019 pb. Precizia de clasificare a clasificatorului Quadratic SVM pentru acest set de date a fost de 95,5%.
Compararea ML-DSP cu cele mai avansate instrumente bazate pe aliniere și fără aliniere
Experimentele de calcul din această secțiune compară ML-DSP cu trei metode de ultimă generație bazate pe aliniere și fără aliniere: instrumentul bazat pe aliniere MEGA7 cu aliniere folosind MUSCLE și CLUSTALW , și metoda fără aliniere FFP (Feature Frequency Profiles) .
Pentru această analiză a performanțelor am selectat trei seturi de date. Primele două seturi de date sunt seturi de date de referință utilizate în alte studii de comparare a secvențelor genetice : Primul set de date cuprinde 38 de genomuri virale de gripă, iar al doilea set de date cuprinde 41 de secvențe complete de ADNmt de mamifere. Al treilea set de date, la alegerea noastră, este mult mai mare, constând din 4.322 de secvențe complete de ADNmt de vertebrate, și a fost selectat pentru a compara scalabilitatea.
Pentru metodele bazate pe aliniere, am utilizat matricea de distanțe calculată în MEGA7 din secvențe aliniate fie cu MUSCLE, fie cu CLUSTALW. Pentru FFP fără aliniere, am utilizat valoarea implicită de k=5 pentru k-meri (un k-mer este orice secvență de ADN de lungime k; orice creștere a valorii parametrului k, pentru primul set de date, a dus la un scor mai mic al preciziei de clasificare pentru FFP). Pentru ML-DSP am ales reprezentarea numerică Integer și am calculat acuratețea medie de clasificare pentru toți cei șase clasificatori pentru primele două seturi de date și pentru toți clasificatorii, cu excepția Subspace Discriminant și Subspace KNN, pentru cel de-al treilea set de date.
Tabelul 5 prezintă comparația performanțelor (acuratețea de clasificare și timpul de procesare) ale acestor patru metode. Timpul de procesare a inclus toate calculele, începând de la citirea seturilor de date până la finalizarea matricei de distanțe – elementul comun al celor patru metode. Timpii de procesare enumerați nu includ timpul necesar pentru calcularea arborilor filogenetici, vizualizările MoDMap sau clasificarea.
După cum se observă în tabelul 5 (coloanele 3, 4 și 6), ML-DSP depășește în mod covârșitor software-ul bazat pe aliniere MEGA7(MUSCLE/CLUSTALW) în ceea ce privește timpul de procesare. În ceea ce privește acuratețea, pentru seturile de date de referință mai mici privind virușii și mamiferele, preciziile medii ale ML-DSP și MEGA7(MUSCLE/CLUSTALW) au fost comparabile, probabil din cauza dimensiunii reduse a setului de instruire pentru ML-DSP. Avantajul ML-DSP față de instrumentele bazate pe aliniere a devenit mai evident pentru setul de date mai mare pentru vertebrate, unde precizia ML-DSP și cea a instrumentelor bazate pe aliniere nici măcar nu au putut fi comparate, deoarece instrumentele bazate pe aliniere au fost atât de lente încât au trebuit să fie întrerupte. În schimb, ML-DSP a clasificat întregul set de 4322 de genomuri mtADN de vertebrate în 28 de secunde, cu o precizie medie de clasificare de 98,3%. Acest lucru indică faptul că ML-DSP este semnificativ mai scalabil decât MEGA7(MUSCLE/CLUSTALW) bazat pe aliniere, deoarece poate clasifica rapid și precis seturi de date pe care instrumentele bazate pe aliniere nici măcar nu le pot procesa.
După cum se vede în tabelul 5 (coloanele 5 și 6), ML-DSP depășește în mod semnificativ software-ul fără aliniere FFP în ceea ce privește precizia (precizie medie de clasificare 98.3% pentru ML-DSP vs. 48,3% pentru FFP, pentru setul mare de date de vertebrate), fiind în același timp, în general, mai rapid.
Această comparație indică, de asemenea, că, pentru aceste seturi de date, ambele metode fără aliniere (ML-DSP și FFP) au un avantaj covârșitor față de metodele bazate pe aliniere (MEGA7 (MUSCLE/CLUSTALW)) în ceea ce privește timpul de procesare. Mai mult, atunci când se compară cele două metode fără aliniere între ele, ML-DSP depășește semnificativ FFP în ceea ce privește acuratețea clasificării.
Ca un alt unghi de comparație, în Fig. 7 sunt afișate MoDMapurile primului set de date de referință (38 de genomuri de virusuri gripale) produse din matricile de distanțe generate de FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW) și, respectiv, ML-DSP. Figura 7a arată că, cu FFP, este dificil să se observe vreo separare vizuală a setului de date în grupuri de subtipuri. Figura 7b, MEGA7 (MUSCLE) și Fig. 7c MEGA7 (CLUSTALW) arată suprapuneri ale grupurilor de puncte reprezentând subtipurile H1N1 și H2N2. În schimb, Fig. 7d, care vizualizează matricea de distanțe produsă de ML-DSP, arată o separare clară între toate subtipurile.
În cele din urmă Fig. 8 și 9 prezintă arborii filogenetici generați de fiecare dintre cele patru metode luate în considerare. Figura 8a, arborele generat de FFP, are multe genomuri clasificate greșit, ceea ce era de așteptat având în vedere vizualizarea MoDMap a matricei sale de distanțe din Fig. 7a. Figura 9a prezintă arborele filogenetic generat de MEGA7, care a fost același atât pentru MUSCLE, cât și pentru CLUSTALW: acesta are doar un singur genom H5N1 clasificat incorect, plasat în mijlocul genomurilor H1N1. Figurile 8b și 9b afișează arborele filogenetic generat utilizând distanța produsă de ML-DSP (prezentat de două ori, în paralel cu ceilalți arbori, pentru a facilita comparația). ML-DSP a clasificat corect toate genomurile.
Discuție
Eficiența de calcul a ML-DSP se datorează faptului că nu necesită aliniere (prin urmare, nu are nevoie de aliniere de secvențe multiple), în timp ce combinația de reprezentări numerice 1D, Transformata Fourier discretă și Coeficientul de corelație Pearson îl face extrem de eficient din punct de vedere al timpului de calcul și, astfel, scalabil.
ML-DSP nu este lipsit de limitări. Anticipăm că necesitatea unor secvențe de lungime egală și utilizarea normalizării lungimii ar putea introduce probleme în cazul examinării unor fragmente mici din secvențe de genom mai mari. De obicei, genomurile variază în lungime și, prin urmare, normalizarea lungimii are întotdeauna ca rezultat adăugarea (up-sampling) sau pierderea (down-sampling) unor informații. Deși coeficientul de corelație Pearson poate distinge modelele de semnal chiar și în fragmente mici de secvențe și nu am constatat niciun dezavantaj considerabil în timp ce luăm în considerare genomurile complete de ADN mitocondrial cu variațiile lor inevitabile de lungime, normalizarea lungimii poate cauza probleme atunci când avem de-a face cu fragmente de genomuri și cu secvențe mult mai mari de genom nuclear.
În cele din urmă, ML-DSP are două dezavantaje, inerente oricărui algoritm de învățare automată supravegheată. Primul este că ML-DSP este o metodă black-box care, deși produce o predicție de clasificare foarte precisă, nu oferă o explicație (biologică) pentru rezultatul său. Al doilea este că se bazează pe existența unui set de antrenament din care își extrage „cunoștințele”, adică un set format din secvențe genomice cunoscute și etichetele lor taxonomice. ML-DSP utilizează un astfel de set de instruire pentru a „învăța” cum să clasifice noile secvențe într-una dintre clasele taxonomice pe care a fost instruit, dar nu este capabil să le atribuie unui taxon la care nu a fost expus.
.