Az ML-DSP genomic sequence classification tool prototípusának megtervezését és megvalósítását követően megvizsgáltuk, hogy a hossz-normalizáció és a távolság melyik típusa a legmegfelelőbb a genomosztályozáshoz ezzel a módszerrel. Ezt követően átfogó elemzést végeztünk a DNS-szekvenciák különböző, az irodalomban használt numerikus reprezentációiról, és meghatároztuk a három legjobban teljesítő módszert. A fő paraméterek (hossz-normalizációs módszer, távolság és numerikus reprezentáció) beállítása után teszteltük az ML-DSP képességét az mtDNS genomok taxonómiai szinteken történő osztályozására a tartományi szinttől a nemzetség szintjéig, és >97%-os átlagos osztályozási pontossági szintet kaptunk. Végül összehasonlítottuk az ML-DSP-t más illesztésalapú és illesztésmentes genomosztályozási módszerekkel, és kimutattuk, hogy az ML-DSP nagyobb pontosságot és jelentősen nagyobb sebességet ért el.
- A távolságok és a hossznormalizációs megközelítések elemzése
- A DNS-szekvenciák különböző numerikus reprezentációinak elemzése
- ML-DSP a gerincesek három osztályára
- A genomok osztályozása ML-DSP-vel, minden taxonómiai szinten
- MoDMap vizualizáció vs. ML-DSP kvantitatív osztályozási eredmények
- Alkalmazások más genomikai adatkészletekre
- Az ML-DSP összehasonlítása a legkorszerűbb igazításalapú és igazításmentes eszközökkel
- Diszkusszió
A távolságok és a hossznormalizációs megközelítések elemzése
Az ML-DSP-vel végzett genom-összehasonlításokhoz melyik távolságmérték és melyik hossznormalizációs módszer a legalkalmasabb, az adatállományunk teljes mtDNS-szekvenciáinak kilenc különböző részhalmazát használtuk. Ezeket az alhalmazokat úgy választottuk ki, hogy a rendelkezésre álló teljes mtDNS-genomok többségét (4322 mtDNS-szekvenciából álló gerincesek adathalmaz), valamint hasonló szekvenciákat tartalmazó, hasonló hosszúságú alhalmazokat (148 mtDNS-szekvenciából álló főemlősök adathalmaz), illetve nagy hosszkülönbségeket mutató mtDNS-genomokat tartalmazó alhalmazokat (174 mtDNS-szekvenciából álló növények adathalmaz).
A két figyelembe vett távolságmérték (euklideszi és Pearson korrelációs együttható) és két különböző hossz-normalizációs megközelítés (maximális hosszra való normalizálás és medián hosszra való normalizálás) alkalmazásával kapott osztályozási pontossági pontszámokat több adatkészleten a 2. táblázat tartalmazza. Az osztályozási pontossági pontszámok a PCC esetében valamivel magasabbak, de elég közel vannak az euklideszi távolság használatakor kapott eredményekhez ahhoz, hogy ne legyenek meggyőzőek.
Az írás további részében a Pearson-féle korrelációs együtthatót választottuk, mivel az skálafüggetlen (ellentétben az euklideszi távolsággal, amely pl., érzékeny a jel eltolódására, ami miatt az azonos alakú, de különböző kezdőpontú jeleket különbözőnek tekintjük ), és a hossznormálást a mediánhosszra, mert a memóriahasználat szempontjából gazdaságos.
A DNS-szekvenciák különböző numerikus reprezentációinak elemzése
Elemeztük a DNS-szekvenciák tizenhárom különböző egydimenziós numerikus reprezentációjának hatását az ML-DSP osztályozási pontosságára, amelyeket az alábbiak szerint csoportosítottunk: Fix leképezések DNS numerikus reprezentációk (1. táblázat #1, #2, #3, #6, #7, lásd , és a #10, #11, #12, #13 reprezentációk – amelyek az alábbiakban javasolt bináris reprezentáció egydimenziós változatai ), a nukleotidok egyes fiziokémiai tulajdonságain alapuló leképezések (1. táblázat #4, lásd , és #5, lásd ), és a legközelebbi szomszéd értékeken alapuló leképezések (2. táblázat #8, #9, lásd ).
Az elemzéshez használt adatkészletek megegyeztek a 2. táblázatban szereplővel. Az elemzéshez használt felügyelt gépi tanulási osztályozók a Módszerek és végrehajtás szakaszban felsorolt hat osztályozó volt, kivéve a 2000-nél több szekvenciát tartalmazó adatkészleteket, ahol két osztályozót (Subspace Discriminant és Subspace KNN) kihagytunk, mivel túl lassúak voltak. Az eredményeket és az átlagos pontossági pontszámokat mindezen numerikus reprezentációk, osztályozók és adatkészletek esetében a 3. táblázat foglalja össze.
Amint a 3. táblázatból látható, valamennyi numerikus reprezentáció esetében a táblázat átlagos pontossági pontszámai (utolsó sor: az átlagok átlaga, először az egyes adatkészletek hat osztályozójára, majd az összes adatkészletre vonatkozóan) magasak. Meglepő módon még az egyetlen nukleotid numerikus reprezentáció használata is, amely három nukleotidot azonosnak tekint, és csak egyet emel ki közülük (“Just-A”), 91,9%-os átlagos pontosságot eredményez. A legjobb pontosságot ezeknél az adatkészleteknél a “PP” reprezentáció használatával érjük el, amely 92,3%-os átlagos pontosságot eredményez.
A további kísérletekhez kiválasztottuk a pontossági pontszámok szempontjából legjobb három reprezentációt: “PP”, “Just-A” és “Real” numerikus reprezentációkat.
ML-DSP a gerincesek három osztályára
A DNS-szekvenciák “PP” numerikus reprezentációját használó ML-DSP alkalmazásaként a gerincesek mtDNS-genomjainak (medián hossza 16 606 bp) halmazát elemeztük. A MoDMapot, azaz a távolságmátrixban szereplő távolságok által leírt genomi összefüggések többdimenziós skálázású 3D-s megjelenítését a 3. ábra szemlélteti. Az adathalmaz 3740 teljes mtDNS-genomot tartalmaz: 553 madárgenom, 2313 halgenom és 874 emlősgenom. Kvantitatíve a Quadratic SVM osztályozóval kapott osztályozási pontossági pontszám 100% volt.
A genomok osztályozása ML-DSP-vel, minden taxonómiai szinten
Teszteltük az ML-DSP képességét a teljes mtDNS-szekvenciák osztályozására különböző taxonómiai szinteken. Minden adathalmaz esetében a “PP”, a “Just-A” és a “Real” numerikus reprezentációval teszteltük.
A kiindulópont az Eukaryota tartomány volt (7396 szekvencia), amelyet királyságokba soroltunk, majd az Animalia királyságot phylákba soroltuk, stb. Minden szinten kiválasztottuk a legtöbb szekvenciát tartalmazó klasztert, majd a következő taxonómiai szintű alklaszterekbe soroltuk. A legalacsonyabb szinten a Cyprinidae családot (81 szekvencia) soroltuk be a hat nemzetségébe. Minden adathalmaz esetében mind a hat osztályozót teszteltük, és a hat osztályozási pontossági pontszám maximumát minden adathalmaz esetében a 4. táblázat mutatja.
Megjegyezzük, hogy minden taxonómiai szinten a maximális osztályozási pontossági pontszámok (a hat osztályozó közül) a három vizsgált numerikus reprezentáció mindegyikénél magasak, 91 között mozognak.4% és 100% között mozog, és csak három esetben nem éri el a 95%-ot. Mivel ez az elemzés sem hozott egyértelmű győztest a három legjobb numerikus reprezentáció közül, felmerült a kérdés, hogy egyáltalán számít-e az általunk használt numerikus reprezentáció. E kérdés megválaszolására két további kísérletet végeztünk, amelyek kihasználják azt a tényt, hogy a Pearson-féle korrelációs együttható skálafüggetlen, és csak a jelek összehasonlítása során keresi a mintázatot. Az első kísérlethez kiválasztottuk a három legjobb numerikus reprezentációt (“PP”, “Just-A” és “Real”), és egy adott adathalmaz minden egyes szekvenciájához véletlenszerűen, azonos valószínűséggel kiválasztottunk egy numerikus reprezentációt e három közül, amely az azt reprezentáló digitális jel volt. Az eredmények a 4. táblázat “Random3” oszlopában láthatók: A maximális pontossági eredmény az összes adatkészletet tekintve 96%. Ez majdnem megegyezik azzal a pontossággal, amelyet akkor kaptunk, amikor egy adott numerikus reprezentációt használtunk (1%-kal alacsonyabb, ami bőven a kísérleti hibán belül van). Ezt követően megismételtük ezt a kísérletet, ezúttal véletlenszerűen választva a tizenhárom figyelembe vett numerikus reprezentáció bármelyikéből. Az eredmények a 4. táblázat “Random13” oszlopában láthatók, a táblázat átlagos pontossági eredménye 88,1%.
Eredményeink összességében azt mutatják, hogy mindhárom numerikus reprezentáció, a “PP”, a “Just-A” és a “Real” nagyon magas osztályozási pontossági pontszámokkal rendelkezik (átlagosan >97%), és még ezen reprezentációk egyikének véletlenszerű kiválasztása az adathalmaz minden egyes szekvenciájához nem befolyásolja jelentősen az ML-DSP osztályozási pontossági pontszámát (átlagosan 96%).
Megjegyezzük azt is, hogy amellett, hogy az ML-DSP rendkívül pontos az osztályozásokban, ultragyors. Valóban, még a 2. táblázatban szereplő legnagyobb adathalmaz, a Vertebrata altörzs (4322 teljes mtDNS-genom, átlagos hossza 16 806 bp) esetében is a távolságmátrix számítása (amely az osztályozási számítás nagy részét teszi ki) 5 s alatt tartott. Egy új főemlős mtDNS-genom osztályozása 0,06 másodpercig tartott, amikor 148 főemlős mtDNS-genomra tanultunk, és egy új gerinces mtDNS-genom osztályozása 7 másodpercig tartott, amikor a 4322 gerinces mtDNS-genomra tanultunk. Az eredményt egy olyan kísérlettel frissítettük, amelyben a QSVM-et a 2. táblázatban szereplő 4322 teljes gerinces genomon képeztük ki, és a 2017. június 17. és 2019. január 7. között az NCBI-ra feltöltött 694 új gerinces mtDNS-genomra kérdeztük le. Az osztályozás pontossága 99,6% volt, mindössze három hüllő mtDNS-genomot soroltak félre kétéltű genomként: Bavayia robusta, robusztus erdei bavayia – egy gekkófaj, NC_034780, Mesoclemmys hogei, Hoge varangyfejű teknős, NC_036346, és Gonatodes albogularis, sárgafejű gekkó, NC_035153.
MoDMap vizualizáció vs. ML-DSP kvantitatív osztályozási eredmények
A következő kísérletekkel tesztelt hipotézis az volt, hogy a DNS-szekvenciák ML-DSP-vel történő osztályozásának kvantitatív pontossága jelentősen nagyobb lesz, mint amit a taxonok vizuális klaszterezése sugall az azonos páros távolságmátrixszal előállított MoDMapban.
Példaként a 4a. ábrán látható MoDMap a Cyprinidae család (81 genom) mtDNS genomjainak távolságmátrixát vizualizálja az Acheilognathus (10 genom), Rhodeus (11 genom), Schizothorax (19 genom), Labeo (19 genom), Acrossocheilus (12 genom), Onychostoma (10 genom) nemzetségekkel; csak a legalább 10 genommal rendelkező nemzetségeket vettük figyelembe. A MoDMap átfedést jelez az Acheilognathus és a Rhodeus klaszterek között, ami biológiailag valószínűsíthető, mivel ezek a nemzetségek ugyanabba az Acheilognathinae alcsaládba tartoznak. Ha azonban a 4b. ábrán látható módon csak ezt a két nemzetséget ábrázoló MoDMapot nagyítjuk, látható, hogy a klaszterek vizuálisan egyértelműen elkülönülnek egymástól. Ezt a szétválasztást megerősíti az a tény, hogy a 4b. ábrán látható adathalmazra a kvadratikus SVM osztályozó pontossági pontszáma 100%. Ugyanez a mennyiségi pontossági eredmény a 4a. ábrán látható adatkészlet kvadratikus SVM-mel történő osztályozására 91,8%, ami intuitív módon sokkal jobb, mint amit a megfelelő MoDMap sugallna. Ez valószínűleg annak köszönhető, hogy a MoDMap a genomot reprezentáló pontok pozícióinak háromdimenziós közelítése egy többdimenziós térben (a dimenziók száma (n-1), ahol n a szekvenciák száma).
Ezek ellenére a MoDMaps még mindig szolgálhat feltáró célokra. A 4a. ábrán látható MoDMap például azt sugallja, hogy az Onychostoma nemzetség (az NCBI-ban “ismeretlen” alcsalád) (sárga) fajai genetikailag rokonok lehetnek az Acrossocheilus nemzetség (Barbinae alcsalád) (magenta) fajaival. A távolságmátrix további vizsgálatakor megállapítható, hogy a két klaszter középpontjai közötti távolság valóban kisebb, mint a két klaszter középpontjainak a többi klaszter középpontjához viszonyított távolsága. Ez alátámasztja azt a morfológiai bizonyítékokon alapuló feltételezést, hogy az Onychostoma nemzetség a Barbinae alcsaládba tartozik, illetve hogy az Onychostoma nemzetség és az Acrossocheilus nemzetség szoros rokonságban áll egymással. Megjegyzendő, hogy ezt a MoDMap által javasolt és a távolságmátrixon alapuló számítások által megerősített feltárást nem lehetett volna csak az ML-DSP (vagy más felügyelt gépi tanulási algoritmusok) alapján kezdeményezni, mivel az ML-DSP csak az új genomok azon taxonok egyikébe való besorolását jósolja meg, amelyekre betanították, és semmilyen más kiegészítő információval nem szolgál.
A MoDMapok és a felügyelt gépi tanulás kimenetei közötti másik összehasonlítási pontként az 5a. ábra az Ostariophysi szuperrend MoDMapját mutatja a Cypriniformes (643 genom), Characiformes (31 genom) és Siluriformes (107 genom) rendekkel. A MoDMap a klasztereket átfedőnek mutatja, de az ezeket a genomokat kvantitatívan osztályozó Quadratic SVM osztályozó 99%-os pontosságú. Az 5b. ábrán látható konfúziós mátrix valóban azt mutatja, hogy a Quadratic SVM 781 szekvenciából csak 8 szekvenciát osztályoz tévesen (emlékezzünk arra, hogy m klaszter esetén az m×m konfúziós mátrix sorait a valódi osztályok, oszlopait pedig a jósolt osztályok jelölik; az (i,j) cella azoknak a szekvenciáknak a számát mutatja, amelyek a valódi i osztályba tartoznak, és amelyeket a j osztályba tartozónak jósoltak). Ez azt jelzi, hogy amikor a MoDMap vizuális ábrázolása klaszterátfedéseket mutat, ez csak a három dimenzióra való dimenziócsökkentésnek tudható be, míg az ML-DSP valójában sokkal jobb mennyiségi osztályozást biztosít ugyanazon távolságmátrix alapján.
Alkalmazások más genomikai adatkészletekre
Az ebben a fejezetben szereplő két kísérlet azt mutatja, hogy módszerünk alkalmazhatósága nem korlátozódik a mitokondriális DNS-szekvenciákra. Az első kísérlet, a 6a. ábra az NCBI-ban 2017. augusztus 10-én elérhető összes 4721 teljes dengue-vírus szekvencia MoDMap-ját mutatja, a DENV-1 (2008 genom), DENV-2 (1349 genom), DENV-3 (1010 genom), DENV-4 (354 genom) altípusokba sorolva. E teljes vírusgenomok átlagos hossza 10 595 bp. Annak ellenére, hogy a dengue-vírus genomok nagyon hasonlóak, ennek az adathalmaznak az altípusokba történő osztályozási pontossága a kvadratikus SVM osztályozó segítségével 100%-os volt. A második kísérlet, a 6b. ábra 4710 bakteriális genom MoDMapját mutatja, három filába sorolva: Spirochaetes (437 genom), Firmicutes (1129 genom) és Proteobacteria (3144 genom). E teljes bakteriális genomok átlagos hossza 104 150 bp, a maximális hossza 499 136 bp, a minimális hossza pedig 20 019 bp. A Quadratic SVM osztályozó osztályozási pontossága erre az adathalmazra 95,5% volt.
Az ML-DSP összehasonlítása a legkorszerűbb igazításalapú és igazításmentes eszközökkel
Az ebben a szakaszban végzett számítási kísérletek az ML-DSP-t három legkorszerűbb igazításalapú és igazításmentes módszerrel hasonlítják össze: a MEGA7 igazításalapú eszköz MUSCLE és CLUSTALW segítségével történő igazítással, valamint az FFP (Feature Frequency Profiles) igazításmentes módszerrel.
A teljesítményelemzéshez három adathalmazt választottunk. Az első két adatkészlet más genetikai szekvencia-összehasonlító vizsgálatokban használt referenciaadatkészlet : Az első adathalmaz 38 influenzavírus genomot tartalmaz, a második adathalmaz pedig 41 emlős teljes mtDNS-szekvenciát. A harmadik, általunk választott adathalmaz jóval nagyobb, 4322 gerincesek teljes mtDNS-szekvenciájából áll, és a skálázhatóság összehasonlítására választottuk.
Az igazításon alapuló módszerekhez a MEGA7-ben a MUSCLE vagy a CLUSTALW segítségével igazított szekvenciákból számított távolságmátrixot használtuk. Az igazítás nélküli FFP esetében a k-merek esetében az alapértelmezett k=5 értéket használtuk (a k-mer bármely k hosszúságú DNS-szekvencia; a k paraméter értékének bármilyen növelése az első adathalmaz esetében az FFP alacsonyabb osztályozási pontossági pontszámot eredményezett). Az ML-DSP esetében az Integer numerikus ábrázolást választottuk, és az első két adatkészlet esetében mind a hat osztályozóra, a harmadik adatkészlet esetében pedig a szubtérdiszkrimináns és a szubtér KNN kivételével minden osztályozóra kiszámítottuk az átlagos osztályozási pontosságot.
Az 5. táblázat a négy módszer teljesítményének (osztályozási pontosság és feldolgozási idő) összehasonlítását mutatja. A feldolgozási idő magában foglalta az összes számítást, kezdve az adatkészletek beolvasásától a távolságmátrix – mind a négy módszer közös eleme – elkészítéséig. A felsorolt feldolgozási idők nem tartalmazzák a filogenetikai fák kiszámításához, a MoDMap megjelenítéséhez vagy az osztályozáshoz szükséges időt.
Az 5. táblázatban (3., 4. és 6. oszlop) látható, hogy az ML-DSP a feldolgozási idő tekintetében túlnyomórészt felülmúlja az igazításon alapuló MEGA7(MUSCLE/CLUSTALW) szoftvereket. Ami a pontosságot illeti, a kisebb vírus és emlős benchmark adathalmazok esetében az ML-DSP és a MEGA7(MUSCLE/CLUSTALW) átlagos pontossága hasonló volt, valószínűleg az ML-DSP kis méretű képzési halmaza miatt. Az ML-DSP előnye az igazításalapú eszközökkel szemben még nyilvánvalóbbá vált a nagyobb gerinces adathalmaz esetében, ahol az ML-DSP és az igazításalapú eszközök pontossága nem is volt összehasonlítható, mivel az igazításalapú eszközök olyan lassúak voltak, hogy le kellett őket állítani. Ezzel szemben az ML-DSP 28 s alatt osztályozta a teljes 4322 gerinces mtDNS-genomot tartalmazó halmazt, 98,3%-os átlagos osztályozási pontossággal. Ez azt jelzi, hogy az ML-DSP jelentősen skálázhatóbb, mint az igazításalapú MEGA7(MUSCLE/CLUSTALW), mivel képes gyorsan és pontosan osztályozni olyan adathalmazokat, amelyeket az igazításalapú eszközök nem is tudnak feldolgozni.
Amint az 5. táblázatban (5. és 6. oszlop) látható, az ML-DSP jelentősen felülmúlja az igazítás nélküli FFP szoftvert a pontosság tekintetében (átlagos osztályozási pontosság 98.3% az ML-DSP esetében vs. 48,3% az FFP esetében, a nagy gerinces adathalmaz esetében), ugyanakkor összességében gyorsabb is.
Ez az összehasonlítás azt is jelzi, hogy ezen adathalmazok esetében mindkét igazításmentes módszer (ML-DSP és FFP) elsöprő előnyt élvez az igazításalapú módszerekkel (MEGA7 (MUSCLE/CLUSTALW)) szemben a feldolgozási idő tekintetében. Továbbá, amikor a két igazításmentes módszert hasonlítjuk össze egymással, az ML-DSP jelentősen felülmúlja az FFP-t az osztályozási pontosság tekintetében.
Az összehasonlítás másik szemszögeként a 7. ábra az első referenciaadatkészlet (38 influenzavírus genom) MoDMapjait mutatja, amelyeket az FFP, a MEGA7 (MUSCLE), a MEGA7 (CLUSTALW) és az ML-DSP által generált távolságmátrixokból készítettek. A 7a. ábra azt mutatja, hogy az FFP-vel nehéz megfigyelni az adathalmaz altípus-klaszterekre történő vizuális szétválasztását. A 7b. ábra MEGA7 (MUSCLE) és a 7c. ábra MEGA7 (CLUSTALW) a H1N1 és H2N2 altípusokat képviselő pontklaszterek átfedéseit mutatja. Ezzel szemben a 7d. ábra, amely az ML-DSP által előállított távolságmátrixot vizualizálja, egyértelmű elkülönülést mutat az altípusok között.
segítségével kiszámított távolságmátrixok felhasználásával készültek. A 8. és 9. ábrák a négy vizsgált módszerrel előállított filogenetikai fákat mutatják. A 8a. ábra, az FFP által generált fa sok tévesen besorolt genomot tartalmaz, ami a 7a. ábrán látható távolságmátrix MoDMap vizualizációja alapján várható volt. A 9a. ábra a MEGA7 által generált filogenetikai fát mutatja, amely a MUSCLE és a CLUSTALW esetében is azonos volt: csak egy hibásan besorolt H5N1 genomot tartalmaz, amely a H1N1 genomok közepén helyezkedik el. A 8b. és a 9b. ábra az ML-DSP által előállított távolság segítségével generált filogenetikai fát mutatja (az összehasonlíthatóság kedvéért kétszer, a többi fával párhuzamosan ábrázolva). Az ML-DSP minden genomot helyesen osztályozott.
Diszkusszió
Az ML-DSP számítási hatékonysága annak köszönhető, hogy igazításmentes (tehát nincs szüksége többszörös szekvencia-illesztésre), míg az 1D numerikus reprezentációk, a diszkrét Fourier-transzformáció és a Pearson korrelációs együttható kombinációja rendkívül számítási időhatékony, és így skálázhatóvá teszi.
Az ML-DSP nem korlátlan. Arra számítunk, hogy az egyenlő hosszúságú szekvenciák szükségessége és a hossznormálás használata problémákat okozhat a nagyobb genomszekvenciák kis töredékeinek vizsgálatakor. Általában a genomok hossza változó, és így a hossznormalizálás mindig bizonyos információ hozzáadásával (felfelé mintavételezés) vagy elvesztésével (lefelé mintavételezés) jár. Bár a Pearson-féle korrelációs együttható még a kis szekvenciatöredékekben is képes megkülönböztetni a jelmintákat, és nem találtunk jelentős hátrányt a teljes mitokondriális DNS-genomok vizsgálata során, azok elkerülhetetlen hosszváltozásaival együtt, a hossznormálás problémákat okozhat, amikor a genomok töredékeivel és a sokkal nagyobb nukleáris genomszekvenciákkal foglalkozunk.
Végül az ML-DSP-nek két hátránya van, ami minden felügyelt gépi tanulási algoritmus velejárója. Az első az, hogy az ML-DSP egy black-box módszer, amely bár nagy pontosságú osztályozási előrejelzést produkál, nem ad (biológiai) magyarázatot a kimenetére. A második az, hogy egy olyan gyakorlóhalmaz meglétére támaszkodik, amelyből a “tudását” meríti, azaz egy ismert genomi szekvenciákból és azok taxonómiai címkéiből álló halmazra. Az ML-DSP egy ilyen gyakorlóhalmazt használ arra, hogy “megtanulja”, hogyan sorolja be az új szekvenciákat azon taxonómiai osztályok valamelyikébe, amelyekre kiképezték, de nem képes olyan taxonhoz rendelni, amellyel még nem találkozott.