Nach dem Entwurf und der Implementierung des Prototyps des ML-DSP-Werkzeugs zur Klassifikation genomischer Sequenzen untersuchten wir, welche Art der Längennormierung und welche Art des Abstands für die Genomklassifikation mit dieser Methode am besten geeignet sind. Anschließend führten wir eine umfassende Analyse der verschiedenen numerischen Darstellungen von DNA-Sequenzen durch, die in der Literatur verwendet werden, und ermittelten die drei am besten geeigneten. Nachdem wir die wichtigsten Parameter (Längennormierungsmethode, Abstand und numerische Darstellung) festgelegt hatten, testeten wir die Fähigkeit von ML-DSP, mtDNA-Genome auf taxonomischen Ebenen von der Domänenebene bis hinunter zur Gattungsebene zu klassifizieren, und erzielten eine durchschnittliche Klassifizierungsgenauigkeit von >97%. Schließlich verglichen wir ML-DSP mit anderen alignementbasierten und alignementfreien Genomklassifizierungsmethoden und zeigten, dass ML-DSP eine höhere Genauigkeit und signifikant höhere Geschwindigkeiten erreichte.
- Analyse der Entfernungen und der Längennormalisierungsansätze
- Analyse verschiedener numerischer Darstellungen von DNA-Sequenzen
- ML-DSP für drei Klassen von Wirbeltieren
- Klassifizierung von Genomen mit ML-DSP auf allen taxonomischen Ebenen
- MoDMap visualization vs. ML-DSP quantitative Klassifizierungsergebnisse
- Anwendungen auf andere genomische Datensätze
- Vergleich von ML-DSP mit modernsten alignement-basierten und alignement-freien Tools
- Diskussion
Analyse der Entfernungen und der Längennormalisierungsansätze
Um zu entscheiden, welches Entfernungsmaß und welche Längennormalisierungsmethode für Genomvergleiche mit ML-DSP am besten geeignet sind, verwendeten wir neun verschiedene Teilmengen vollständiger mtDNA-Sequenzen aus unserem Datensatz. Diese Teilmengen wurden so ausgewählt, dass sie die meisten der verfügbaren vollständigen mtDNA-Genome (Vertebraten-Datensatz mit 4322 mtDNA-Sequenzen) sowie Teilmengen mit ähnlichen Sequenzen von ähnlicher Länge (Primaten-Datensatz mit 148 mtDNA-Sequenzen) und Teilmengen mit mtDNA-Genomen mit großen Längenunterschieden (Pflanzen-Datensatz mit 174 mtDNA-Sequenzen) enthalten.
Die Ergebnisse der Klassifizierungsgenauigkeit, die unter Verwendung der beiden betrachteten Abstandsmaße (Euklidischer und Pearson-Korrelationskoeffizient) und zweier verschiedener Längennormalisierungsansätze (Normalisierung auf die maximale Länge und Normalisierung auf die mittlere Länge) für mehrere Datensätze erzielt wurden, sind in Tabelle 2 aufgeführt. Die Ergebnisse der Klassifizierungsgenauigkeit sind bei PCC etwas höher, liegen aber nahe genug an den Ergebnissen, die bei Verwendung des euklidischen Abstands erzielt wurden, um nicht schlüssig zu sein.
Im weiteren Verlauf dieser Arbeit haben wir uns für den Pearson-Korrelationskoeffizienten entschieden, weil er skalenunabhängig ist (im Gegensatz zum euklidischen Abstand, der z.B., (im Gegensatz zum euklidischen Abstand, der z.B. empfindlich auf den Offset des Signals reagiert, wodurch Signale mit gleicher Form, aber unterschiedlichen Ausgangspunkten als unähnlich betrachtet werden), und die Längennormierung auf die Medianlänge, weil sie in Bezug auf den Speicherverbrauch sparsam ist.
Analyse verschiedener numerischer Darstellungen von DNA-Sequenzen
Wir haben die Auswirkungen von dreizehn verschiedenen eindimensionalen numerischen Darstellungen für DNA-Sequenzen auf die ML-DSP-Klassifizierungsgenauigkeit analysiert, die wie folgt gruppiert sind: Feste Zuordnungen von numerischen DNA-Darstellungen (Tabelle 1 Darstellungen #1, #2, #3, #6, #7, siehe , und Darstellungen #10, #11, #12, #13 – die eindimensionale Varianten der in vorgeschlagenen binären Darstellung sind ), Zuordnungen, die auf einigen physikalisch-chemischen Eigenschaften von Nukleotiden basieren (Tabelle 1 Darstellung #4, siehe , und Darstellung #5, siehe ), und Zuordnungen, die auf den Werten der nächsten Nachbarn basieren (Tabelle 2 Darstellungen #8, #9, siehe ).
Die für diese Analyse verwendeten Datensätze waren die gleichen wie in Tabelle 2. Als überwachte maschinelle Lernklassifikatoren wurden die sechs im Abschnitt Methoden und Implementierung aufgeführten Klassifikatoren verwendet, mit Ausnahme der Datensätze mit mehr als 2000 Sequenzen, bei denen zwei der Klassifikatoren (Subspace Discriminant und Subspace KNN) als zu langsam ausgelassen wurden. Die Ergebnisse und die durchschnittliche Genauigkeit für all diese numerischen Darstellungen, Klassifikatoren und Datensätze sind in Tabelle 3 zusammengefasst.
Wie aus Tabelle 3 hervorgeht, sind die durchschnittlichen Genauigkeitsbewertungen für alle numerischen Darstellungen hoch (letzte Zeile: Durchschnitt der Durchschnittswerte, zunächst über die sechs Klassifikatoren für jeden Datensatz und dann über alle Datensätze). Überraschenderweise führt selbst die Verwendung einer numerischen Darstellung für ein einzelnes Nukleotid, bei der drei Nukleotide als gleichwertig behandelt werden und nur eines von ihnen („Just-A“) herausgegriffen wird, zu einer durchschnittlichen Genauigkeit von 91,9 %. Die beste Genauigkeit für diese Datensätze wird mit der „PP“-Darstellung erreicht, die eine durchschnittliche Genauigkeit von 92,3 % ergibt.
Für die folgenden Experimente haben wir die drei besten Darstellungen in Bezug auf die Genauigkeitswerte ausgewählt: „PP“, „Just-A“ und „Real“ numerische Repräsentationen.
ML-DSP für drei Klassen von Wirbeltieren
Als Anwendung von ML-DSP unter Verwendung der numerischen Repräsentation „PP“ für DNA-Sequenzen analysierten wir den Satz von mtDNA-Genomen von Wirbeltieren (mediane Länge 16.606 bp). Die MoDMap, d. h. die multidimensional skalierende 3D-Visualisierung der Genombeziehungen, wie sie durch die Abstände in der Abstandsmatrix beschrieben werden, ist in Abb. 3 dargestellt. Der Datensatz enthält 3740 vollständige mtDNA-Genome: 553 Vogelgenome, 2313 Fischgenome und 874 Säugetiergenome. Die vom quadratischen SVM-Klassifikator erzielte Klassifizierungsgenauigkeit betrug 100 %.
Klassifizierung von Genomen mit ML-DSP auf allen taxonomischen Ebenen
Wir haben die Fähigkeit von ML-DSP zur Klassifizierung vollständiger mtDNA-Sequenzen auf verschiedenen taxonomischen Ebenen getestet. Für jeden Datensatz haben wir die numerischen Darstellungen „PP“, „Just-A“ und „Real“ verwendet.
Ausgangspunkt war die Domäne Eukaryota (7396 Sequenzen), die in Königreiche eingeteilt wurde, dann wurde das Königreich Animalia in Phyla eingeteilt usw. Auf jeder Ebene wurde der Cluster mit der höchsten Anzahl von Sequenzen ausgewählt und dann in die nächsthöheren taxonomischen Sub-Cluster eingeteilt. Auf der niedrigsten Ebene wurde die Familie Cyprinidae (81 Sequenzen) in ihre sechs Gattungen unterteilt. Für jeden Datensatz haben wir alle sechs Klassifikatoren getestet, und die maximalen Ergebnisse dieser sechs Klassifikationsgenauigkeiten für jeden Datensatz sind in Tabelle 4 aufgeführt.
Anzumerken ist, dass auf jeder taxonomischen Ebene die maximalen Klassifizierungsgenauigkeitswerte (unter den sechs Klassifikatoren) für jede der drei betrachteten numerischen Darstellungen hoch sind und von 91.4% bis 100%, wobei nur drei Ergebnisse unter 95% liegen. Da auch diese Analyse keinen klaren Sieger unter den drei besten numerischen Darstellungen ergab, stellte sich die Frage, ob die von uns verwendete numerische Darstellung überhaupt von Bedeutung ist. Um diese Frage zu beantworten, haben wir zwei zusätzliche Experimente durchgeführt, die die Tatsache ausnutzen, dass der Pearson-Korrelationskoeffizient skalenunabhängig ist und nur beim Vergleich von Signalen nach einem Muster sucht. Für das erste Experiment wurden die drei besten numerischen Darstellungen („PP“, „Just-A“ und „Real“) ausgewählt, und für jede Sequenz in einem gegebenen Datensatz wurde eine numerische Darstellung aus diesen drei zufällig und mit gleicher Wahrscheinlichkeit als das digitale Signal ausgewählt, das sie repräsentiert. Die Ergebnisse sind in der Spalte „Random3“ in Tabelle 4 aufgeführt: Die maximale Genauigkeit über alle Datensätze beträgt 96 %. Dies entspricht fast der Genauigkeit, die bei der Verwendung einer bestimmten numerischen Darstellung erzielt wurde (1 % weniger, was innerhalb des experimentellen Fehlers liegt). Anschließend wiederholten wir dieses Experiment, wobei wir diesmal zufällig eine der dreizehn betrachteten numerischen Darstellungen auswählten. Die Ergebnisse sind in der Spalte „Random13“ in Tabelle 4 aufgeführt, wobei die durchschnittliche Genauigkeit der Tabelle 88,1 % beträgt.
Insgesamt deuten unsere Ergebnisse darauf hin, dass alle drei numerischen Repräsentationen „PP“, „Just-A“ und „Real“ eine sehr hohe Klassifizierungsgenauigkeit aufweisen (durchschnittlich >97%), und selbst eine zufällige Auswahl einer dieser Repräsentationen für jede Sequenz im Datensatz hat keinen signifikanten Einfluss auf die Klassifizierungsgenauigkeit von ML-DSP (durchschnittlich 96%).
Wir stellen außerdem fest, dass ML-DSP nicht nur eine hohe Klassifizierungsgenauigkeit aufweist, sondern auch extrem schnell ist. Selbst für den größten Datensatz in Tabelle 2, Unterstamm Vertebrata (4322 vollständige mtDNA-Genome, durchschnittliche Länge 16.806 bp), dauerte die Berechnung der Distanzmatrix (die den Großteil der Klassifizierungsberechnung ausmacht) weniger als 5 s. Die Klassifizierung eines neuen Primaten-mtDNA-Genoms dauerte 0,06 s, wenn es auf 148 Primaten-mtDNA-Genomen trainiert wurde, und die Klassifizierung eines neuen Wirbeltier-mtDNA-Genoms dauerte 7 s, wenn es auf den 4322 Wirbeltier-mtDNA-Genomen trainiert wurde. Das Ergebnis wurde mit einem Experiment aktualisiert, bei dem QSVM auf den 4322 vollständigen Wirbeltiergenomen in Tabelle 2 trainiert und auf den 694 neuen Wirbeltier-mtDNA-Genomen abgefragt wurde, die zwischen dem 17. Juni 2017 und dem 7. Januar 2019 auf NCBI hochgeladen wurden. Die Genauigkeit der Klassifizierung betrug 99,6 %, wobei nur drei mtDNA-Genome von Reptilien fälschlicherweise als Amphibiengenome klassifiziert wurden: Bavayia robusta, robust forest bavayia – eine Geckoart, NC_034780, Mesoclemmys hogei, Hoge’s toadhead turtle, NC_036346, und Gonatodes albogularis, yellow-headed gecko, NC_035153.
MoDMap visualization vs. ML-DSP quantitative Klassifizierungsergebnisse
Die Hypothese, die in den nächsten Experimenten getestet wurde, war, dass die quantitative Genauigkeit der Klassifizierung von DNA-Sequenzen durch ML-DSP signifikant höher sein würde als die visuelle Clusterung von Taxa in der MoDMap, die mit der gleichen paarweisen Distanzmatrix erstellt wurde.
Als Beispiel visualisiert die MoDMap in Abb. 4a die Distanzmatrix der mtDNA-Genome der Familie Cyprinidae (81 Genome) mit ihren Gattungen Acheilognathus (10 Genome), Rhodeus (11 Genome), Schizothorax (19 Genome), Labeo (19 Genome), Acrossocheilus (12 Genome), Onychostoma (10 Genome); nur die Gattungen mit mindestens 10 Genomen sind berücksichtigt. Die MoDMap scheint auf eine Überschneidung zwischen den Clustern Acheilognathus und Rhodeus hinzuweisen, was biologisch plausibel ist, da diese Gattungen zur selben Unterfamilie Acheilognathinae gehören. Wenn man jedoch eine MoDMap nur dieser beiden Gattungen erstellt, wie in Abb. 4b gezeigt, kann man sehen, dass die Cluster visuell klar getrennt sind. Diese Trennung wird durch die Tatsache bestätigt, dass die Genauigkeit des quadratischen SVM-Klassifikators für den Datensatz in Abb. 4b 100 % beträgt. Die gleiche quantitative Genauigkeit für die Klassifizierung des Datensatzes in Abb. 4a mit der quadratischen SVM beträgt 91,8 %, was intuitiv viel besser ist, als es die entsprechende MoDMap vermuten lassen würde. Dies ist wahrscheinlich auf die Tatsache zurückzuführen, dass die MoDMap eine dreidimensionale Annäherung der Positionen der das Genom repräsentierenden Punkte in einem mehrdimensionalen Raum ist (die Anzahl der Dimensionen ist (n-1), wobei n die Anzahl der Sequenzen ist).
Dennoch können die MoDMaps zu Forschungszwecken dienen. Die MoDMap in Abb. 4a deutet beispielsweise darauf hin, dass Arten der Gattung Onychostoma (Unterfamilie im NCBI als „unbekannt“ aufgeführt) (gelb) genetisch mit Arten der Gattung Acrossocheilus (Unterfamilie Barbinae) (magenta) verwandt sein könnten. Bei näherer Betrachtung der Abstandsmatrix stellt man fest, dass der Abstand zwischen den Zentren dieser beiden Cluster in der Tat geringer ist als der Abstand zwischen den Zentren der beiden Cluster zu den anderen Zentren der Cluster. Dies stützt die auf morphologischen Nachweisen beruhende Hypothese, dass die Gattung Onychostoma zur Unterfamilie Barbinae gehört, bzw. dass die Gattung Onychostoma und die Gattung Acrossocheilus eng miteinander verwandt sind. Man beachte, dass diese von MoDMap vorgeschlagene und durch Berechnungen auf der Grundlage der Abstandsmatrix bestätigte Erkundung nicht allein auf der Grundlage von ML-DSP (oder anderen überwachten Algorithmen für maschinelles Lernen) hätte eingeleitet werden können, da ML-DSP nur die Klassifizierung neuer Genome in eine der Taxa vorhersagt, auf die es trainiert wurde, und keine anderen zusätzlichen Informationen liefert.
Als weiterer Vergleichspunkt zwischen MoDMaps und Ergebnissen des überwachten maschinellen Lernens zeigt Abb. 5a die MoDMap der Überordnung Ostariophysi mit ihren Ordnungen Cypriniformes (643 Genome), Characiformes (31 Genome) und Siluriformes (107 Genome). Die MoDMap zeigt, dass sich die Cluster überschneiden, aber der quadratische SVM-Klassifikator, der diese Genome quantitativ klassifiziert, hat eine Genauigkeit von 99 %. Die Konfusionsmatrix in Abb. 5b zeigt, dass die quadratische SVM nur 8 von 781 Sequenzen falsch klassifiziert (bei m Clustern sind die Zeilen der m×m Konfusionsmatrix mit den wahren Klassen und die Spalten mit den vorhergesagten Klassen beschriftet; die Zelle (i,j) zeigt die Anzahl der Sequenzen, die zur wahren Klasse i gehören und als Klasse j vorhergesagt wurden). Dies deutet darauf hin, dass, wenn die visuelle Darstellung in einer MoDMap Clusterüberschneidungen zeigt, dies möglicherweise nur auf die Dimensionalitätsreduktion auf drei Dimensionen zurückzuführen ist, während ML-DSP tatsächlich eine viel bessere quantitative Klassifizierung auf der Grundlage derselben Distanzmatrix liefert.
Anwendungen auf andere genomische Datensätze
Die beiden Experimente in diesem Abschnitt zeigen, dass die Anwendbarkeit unserer Methode nicht auf mitochondriale DNA-Sequenzen beschränkt ist. Das erste Experiment, Abb. 6a, zeigt die MoDMap aller 4721 vollständigen Dengue-Virus-Sequenzen, die am 10. August 2017 im NCBI verfügbar waren, unterteilt in die Subtypen DENV-1 (2008 Genome), DENV-2 (1349 Genome), DENV-3 (1010 Genome), DENV-4 (354 Genome). Die durchschnittliche Länge dieser vollständigen viralen Genome beträgt 10.595 bp. Obwohl die Genome der Dengue-Viren sehr ähnlich sind, lag die Klassifizierungsgenauigkeit dieses Datensatzes in Subtypen unter Verwendung des quadratischen SVM-Klassifikators bei 100 %. Das zweite Experiment, Abb. 6b, zeigt die MoDMap von 4710 bakteriellen Genomen, die in drei Phyla klassifiziert wurden: Spirochaetes (437 Genome), Firmicutes (1129 Genome) und Proteobacteria (3144 Genome). Die durchschnittliche Länge dieser vollständigen bakteriellen Genome beträgt 104.150 bp, wobei die maximale Länge 499.136 bp und die minimale Länge 20.019 bp beträgt. Die Klassifizierungsgenauigkeit des quadratischen SVM-Klassifikators für diesen Datensatz betrug 95,5 %.
Vergleich von ML-DSP mit modernsten alignement-basierten und alignement-freien Tools
Die Berechnungsexperimente in diesem Abschnitt vergleichen ML-DSP mit drei modernsten alignement-basierten und alignement-freien Methoden: dem alignement-basierten Tool MEGA7 mit Alignment unter Verwendung von MUSCLE und CLUSTALW und der alignement-freien Methode FFP (Feature Frequency Profiles) .
Für diese Leistungsanalyse wurden drei Datensätze ausgewählt. Die ersten beiden Datensätze sind Benchmark-Datensätze, die in anderen Studien zum genetischen Sequenzvergleich verwendet werden: Der erste Datensatz umfasst 38 Genome von Influenzaviren, der zweite Datensatz umfasst 41 vollständige mtDNA-Sequenzen von Säugetieren. Der dritte Datensatz unserer Wahl ist viel größer und besteht aus 4 322 vollständigen mtDNA-Sequenzen von Wirbeltieren. Er wurde ausgewählt, um die Skalierbarkeit zu vergleichen.
Für die alignementbasierten Methoden verwendeten wir die Distanzmatrix, die in MEGA7 aus Sequenzen berechnet wurde, die entweder mit MUSCLE oder CLUSTALW aligniert wurden. Für das alignierungsfreie FFP wurde der Standardwert k=5 für k-Mere verwendet (ein k-Mer ist eine beliebige DNA-Sequenz der Länge k; jede Erhöhung des Werts des Parameters k führte beim ersten Datensatz zu einer niedrigeren Klassifizierungsgenauigkeit für FFP). Für ML-DSP wählten wir die ganzzahlige numerische Darstellung und berechneten die durchschnittliche Klassifizierungsgenauigkeit über alle sechs Klassifizierer für die ersten beiden Datensätze und über alle Klassifizierer außer Subspace Discriminant und Subspace KNN für den dritten Datensatz.
Tabelle 5 zeigt den Leistungsvergleich (Klassifizierungsgenauigkeit und Verarbeitungszeit) dieser vier Methoden. Die Verarbeitungszeit beinhaltet alle Berechnungen, angefangen vom Einlesen der Datensätze bis hin zur Fertigstellung der Distanzmatrix – dem gemeinsamen Element aller vier Methoden. Die aufgeführten Verarbeitungszeiten beinhalten nicht die Zeit, die für die Berechnung der phylogenetischen Bäume, die MoDMap-Visualisierung oder die Klassifizierung benötigt wird.
Wie in Tabelle 5 (Spalten 3, 4 und 6) zu sehen ist, übertrifft ML-DSP die auf dem Alignment basierende Software MEGA7(MUSCLE/CLUSTALW) hinsichtlich der Verarbeitungszeit bei weitem. Was die Genauigkeit betrifft, so waren die durchschnittlichen Genauigkeiten von ML-DSP und MEGA7(MUSCLE/CLUSTALW) für die kleineren Virus- und Säugetier-Benchmark-Datensätze vergleichbar, was wahrscheinlich auf die geringe Größe des Trainingssatzes für ML-DSP zurückzuführen ist. Der Vorteil von ML-DSP gegenüber den Alignment-basierten Werkzeugen wurde bei dem größeren Wirbeltier-Datensatz deutlicher, bei dem die Genauigkeiten von ML-DSP und den Alignment-basierten Werkzeugen nicht einmal verglichen werden konnten, da die Alignment-basierten Werkzeuge so langsam waren, dass sie abgebrochen werden mussten. Im Gegensatz dazu klassifizierte ML-DSP den gesamten Satz von 4322 mtDNA-Genomen von Wirbeltieren in 28 s mit einer durchschnittlichen Klassifizierungsgenauigkeit von 98,3 %. Dies deutet darauf hin, dass ML-DSP deutlich besser skalierbar ist als das Alignment-basierte MEGA7(MUSCLE/CLUSTALW), da es schnell und genau Datensätze klassifizieren kann, die Alignment-basierte Tools gar nicht verarbeiten können.
Wie in Tabelle 5 (Spalten 5 und 6) zu sehen ist, übertrifft ML-DSP die Alignment-freie Software FFP in Bezug auf die Genauigkeit deutlich (durchschnittliche Klassifizierungsgenauigkeit 98.3% für ML-DSP vs. 48,3% für FFP, für den großen Wirbeltierdatensatz), während sie gleichzeitig insgesamt schneller ist.
Dieser Vergleich zeigt auch, dass für diese Datensätze beide alignementfreien Methoden (ML-DSP und FFP) einen überwältigenden Vorteil gegenüber den alignementbasierten Methoden (MEGA7 (MUSCLE/CLUSTALW)) in Bezug auf die Verarbeitungszeit haben. Darüber hinaus übertrifft ML-DSP beim Vergleich der beiden alignementfreien Methoden FFP in Bezug auf die Klassifizierungsgenauigkeit deutlich.
Als weiteren Vergleich zeigt Abb. 7 die MoDMaps des ersten Benchmark-Datensatzes (38 Influenzavirusgenome), die aus den von FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW) bzw. ML-DSP erzeugten Distanzmatrizen erstellt wurden. Abbildung 7a zeigt, dass es mit FFP schwierig ist, eine visuelle Trennung des Datensatzes in Subtyp-Cluster zu erkennen. Abb. 7b, MEGA7 (MUSCLE), und Abb. 7c MEGA7 (CLUSTALW) zeigen Überschneidungen der Punktcluster, die die Subtypen H1N1 und H2N2 repräsentieren. Im Gegensatz dazu zeigt Abb. 7d, die die von ML-DSP erstellte Distanzmatrix visualisiert, eine klare Trennung zwischen allen Subtypen.
Abbildungen. 8 und 9 zeigen die phylogenetischen Bäume, die mit jeder der vier betrachteten Methoden erstellt wurden. Abbildung 8a, der mit FFP erzeugte Baum, weist viele falsch klassifizierte Genome auf, was angesichts der MoDMap-Visualisierung der Distanzmatrix in Abbildung 7a zu erwarten war. Abbildung 9a zeigt den von MEGA7 generierten phylogenetischen Baum, der für MUSCLE und CLUSTALW identisch war: Er weist nur ein falsch klassifiziertes H5N1-Genom auf, das in der Mitte der H1N1-Genome platziert ist. Die Abbildungen 8b und 9b zeigen den phylogenetischen Baum, der unter Verwendung des von ML-DSP erzeugten Abstands erstellt wurde (zur Vereinfachung des Vergleichs zweimal parallel zu den anderen Bäumen dargestellt). ML-DSP hat alle Genome korrekt klassifiziert.
Diskussion
Die rechnerische Effizienz von ML-DSP ist auf die Tatsache zurückzuführen, dass es ohne Alignment auskommt (also kein Multiple Sequence Alignment benötigt), während die Kombination von 1D numerischen Darstellungen, diskreter Fourier-Transformation und Pearson-Korrelationskoeffizient es extrem rechenzeiteffizient und damit skalierbar macht.
ML-DSP ist nicht ohne Einschränkungen. Wir gehen davon aus, dass die Notwendigkeit von Sequenzen gleicher Länge und die Verwendung der Längennormierung zu Problemen bei der Untersuchung kleiner Fragmente größerer Genomsequenzen führen könnte. Normalerweise variieren Genome in ihrer Länge, und daher führt die Längennormalisierung immer dazu, dass einige Informationen hinzugefügt werden (up-sampling) oder verloren gehen (down-sampling). Obwohl der Pearson-Korrelationskoeffizient die Signalmuster selbst in kleinen Sequenzfragmenten unterscheiden kann und wir bei der Betrachtung kompletter mitochondrialer DNA-Genome mit ihren unvermeidlichen Längenvariationen keinen wesentlichen Nachteil feststellen konnten, kann die Längennormalisierung Probleme verursachen, wenn wir uns mit Genomfragmenten und den viel größeren Kerngenomsequenzen befassen.
Schließlich hat ML-DSP zwei Nachteile, die jedem überwachten Algorithmus für maschinelles Lernen eigen sind. Erstens ist ML-DSP eine Blackbox-Methode, die zwar eine hochpräzise Klassifizierungsvorhersage liefert, aber keine (biologische) Erklärung für ihr Ergebnis bietet. Zweitens ist sie auf einen Trainingssatz angewiesen, aus dem sie ihr „Wissen“ bezieht, d. h. einen Satz bekannter genomischer Sequenzen und ihrer taxonomischen Bezeichnungen. ML-DSP verwendet einen solchen Trainingssatz, um zu „lernen“, wie neue Sequenzen in eine der taxonomischen Klassen einzuordnen sind, auf die es trainiert wurde, aber es ist nicht in der Lage, sie einem Taxon zuzuordnen, mit dem es noch nicht in Berührung gekommen ist.