Segundo o projeto e implementação do protótipo da ferramenta de classificação de sequência genômica ML-DSP, investigamos que tipo de padronização de comprimento e que tipo de distância eram mais adequados para a classificação do genoma usando este método. Em seguida, realizamos uma análise abrangente das várias representações numéricas das seqüências de DNA utilizadas na literatura, e determinamos os três principais executantes. Tendo definido os principais parâmetros (método de normalização de comprimento, distância e representação numérica), testamos a capacidade do ML-DSP de classificar os genomas mtDNA em níveis taxonómicos que vão desde o nível de domínio até ao nível do género, e obtivemos níveis médios de precisão de classificação de >97%. Finalmente, nós comparamos o ML-DSP com outros métodos de classificação de genoma baseados e livres de algarismos, e mostramos que o ML-DSP alcançou maior precisão e velocidades significativamente maiores.
Análise de distâncias e abordagens de normalização de comprimento
Para decidir qual medida de distância e qual método de normalização de comprimento foram mais adequados para comparações de genoma com o ML-DSP, nós usamos nove diferentes subconjuntos de seqüências completas de mtDNA do nosso conjunto de dados. Estes subconjuntos foram selecionados para incluir a maioria dos genomas de mtDNA completos disponíveis (conjunto de dados Vertebrados de 4322 sequências mtDNA), assim como subconjuntos contendo sequências similares, de comprimento similar (conjunto de dados Primates de 148 sequências mtDNA), e subconjuntos contendo genomas mtDNA mostrando grandes diferenças de comprimento (conjunto de dados Plants de 174 sequências mtDNA).
As pontuações de precisão da classificação obtidas utilizando as duas medidas de distância consideradas (Euclidean e Coeficiente de Correlação de Pearson) e duas abordagens diferentes de normalização de comprimento (normalização para comprimento máximo e normalização para comprimento mediano) em vários conjuntos de dados estão listadas na Tabela 2. As pontuações de precisão de classificação são ligeiramente superiores para PCC, mas suficientemente próximas daquelas obtidas quando se utiliza a distância Euclidiana para serem inconclusivas.
Tabela 2 Pontuações de precisão máxima de classificação quando se utiliza Euclidiano vs. Coeficiente de correlação de Pearson (PCC) como medida de distância
No restante deste trabalho escolhemos o Coeficiente de correlação de Pearson porque é independente da escala (ao contrário da distância Euclidiana, que é, por exemplo sensível ao offset do sinal, em que sinais com a mesma forma mas com pontos de partida diferentes são considerados diferentes ), e a normalização do comprimento para o comprimento mediano porque é económica em termos de utilização de memória.
Análise de várias representações numéricas de sequências de ADN
Análise do efeito na precisão da classificação ML-DSP de treze representações numéricas unidimensionais diferentes para sequências de ADN, agrupadas como: Mapeamentos fixos representações numéricas de DNA (Tabela 1 representações #1, #2, #3, #6, #7, ver , e representações #10, #11, #12, #13 – que são variantes unidimensionais da representação binária proposta em ), mapeamentos baseados em algumas propriedades físico-químicas dos nucleotídeos (Tabela 1 representações #4, ver , e representação #5, ver ), e mapeamentos baseados nos valores de vizinhança mais próxima (Tabela 2 representações #8, #9, ver ).
Os conjuntos de dados usados para esta análise foram os mesmos que os da Tabela 2. Os classificadores supervisionados de aprendizagem de máquina usados para esta análise foram os seis classificadores listados na seção Métodos e Implementação, com exceção dos conjuntos de dados com mais de 2000 sequências onde dois dos classificadores (Subspace Discriminant e Subspace KNN) foram omitidos por serem muito lentos. Os resultados e as pontuações de precisão média para todas essas representações numéricas, classificadores e conjuntos de dados estão resumidos na Tabela 3.
Table 3 Precisões médias de classificação para 13 representações numéricas. As médias sobre os seis classificadores estão em negrito
Como pode ser observado na Tabela 3, para todas as representações numéricas, as pontuações de precisão média da tabela (última linha: média das médias, primeiro sobre os seis classificadores para cada conjunto de dados, e depois sobre todos os conjuntos de dados), são altas. Surpreendentemente, mesmo usando uma única representação numérica de nucleotídeos, que trata três dos nucleotídeos como sendo o mesmo, e destaca apenas um deles (“Just-A”), resulta em uma precisão média de 91,9%. A melhor precisão, para estes conjuntos de dados, é alcançada quando se usa a representação “PP”, que produz uma precisão média de 92,3%.
Para experiências subsequentes, seleccionamos as três representações principais em termos de pontuação de precisão: representações numéricas “PP”, “Just-A” e “Real”.
ML-DSP para três classes de vertebrados
Como uma aplicação de ML-DSP usando a representação numérica “PP” para seqüências de DNA, analisamos o conjunto de genomas de vertebrados mtDNA (comprimento mediano de 16.606 bp). O MoDMap, ou seja, a visualização multidimensional em escala 3D das inter-relações do genoma, como descrito pelas distâncias na matriz de distância, é ilustrado na Fig. 3. O conjunto de dados contém 3740 genomas completos de mtDNA: 553 genomas de aves, 2313 genomas de peixes, e 874 genomas de mamíferos. Quantitativamente, a pontuação de precisão da classificação obtida pelo classificador Quadratic SVM foi de 100%.
Fig. 3
MoDMap de 3740 genomas mtDNA completos no subfilo Vertebrata, em três classes: Aves (azul, Aves: 553 genomas), peixes (vermelho, Actinopterygii 2176 genomas, Chondrichthyes 130 genomas, Coelacanthiformes 2 genomas, Dipnoi 5 genomas), e mamíferos (verde, Mamíferos: 874 genomas). A precisão da classificação do ML-DSP em três classes, usando o classificador Quadratic SVM, com a representação numérica “PP”, e PCC entre espectros de magnitude do DFT, foi de 100%
Classificando genomas com ML-DSP, em todos os níveis taxonômicos
Testes a capacidade do ML-DSP de classificar sequências completas de mtDNA em vários níveis taxonômicos. Para cada conjunto de dados, testamos usando as representações numéricas “PP”, “Just-A”, e “Real”.
O ponto de partida foi o domínio Eukaryota (7396 seqüências), que foi classificado em reinos, depois reino Animalia foi classificado em phyla, etc. Em cada nível, escolhemos o agrupamento com o maior número de sequências e depois classificámo-lo nos subgrupos de nível taxonómico seguinte. O nível mais baixo classificado foi o da família Cyprinidae (81 sequências) nos seus seis géneros. Para cada conjunto de dados, testamos os seis classificadores, sendo que o máximo destes seis resultados de precisão de classificação para cada conjunto de dados é apresentado na Tabela 4.
Tabela 4 Precisão de classificação máxima (da precisão obtida com cada um dos seis classificadores) do ML-DSP, para conjuntos de dados de diferentes níveis taxonómicos, desde ‘domínio em parênteses’ até ‘família em géneros’
Notem que, em cada nível taxonómico, a precisão de classificação máxima (entre os seis classificadores) para cada uma das três representações numéricas consideradas é elevada, variando entre 91.4% a 100%, com apenas três pontuações abaixo de 95%. Como esta análise também não revelou um vencedor claro entre as três primeiras representações numéricas, surgiu então a questão de saber se a representação numérica que utilizamos importava de alguma forma. Para responder a esta pergunta, fizemos dois experimentos adicionais, que exploram o fato de que o coeficiente de correlação de Pearson é independente da escala, e apenas procura por um padrão enquanto compara sinais. Para o primeiro experimento selecionamos as três principais representações numéricas (“PP”, “Just-A” e “Real”) e, para cada seqüência em um dado conjunto de dados, uma representação numérica entre estas três foi escolhida aleatoriamente, com igual probabilidade, para ser o sinal digital que a representa. Os resultados são mostrados na coluna “Random3” na Tabela 4: A pontuação máxima de precisão em todos os conjuntos de dados é de 96%. Isto é quase o mesmo que a precisão obtida quando uma representação numérica em particular foi utilizada (1% menor, o que está bem dentro do erro experimental). Repetimos então este experimento, desta vez escolhendo aleatoriamente qualquer uma das treze representações numéricas consideradas. Os resultados são mostrados na coluna “Random13” da Tabela 4, com o escore de precisão média da tabela sendo 88,1%.
Overtodo, nossos resultados sugerem que as três representações numéricas “PP”, “Just-A” e “Real” têm pontuações de precisão de classificação muito altas (média >97%), e mesmo uma escolha aleatória de uma dessas representações para cada seqüência no conjunto de dados não afeta significativamente a pontuação de precisão de classificação do ML-DSP (média 96%).
Nós também observamos que, além de ser altamente preciso em suas classificações, o ML-DSP é ultra-rápido. De fato, mesmo para o maior conjunto de dados da Tabela 2, subfilo Vertebrata (4322 genomas mtDNA completos, comprimento médio 16.806 bp), o cálculo da matriz de distância (que é a maior parte do cálculo da classificação) durou menos de 5 s. A classificação de um novo genoma de mtDNA de primatas levou 0,06 s quando treinado em 148 genomas de mtDNA de primatas, e a classificação de um novo genoma de mtDNA de vertebrados levou 7 s quando treinado em 4322 genomas de mtDNA de vertebrados. O resultado foi actualizado com uma experiência em que a QSVM foi treinada nos 4322 genomas de vertebrados completos do Quadro 2, e pesquisada nos 694 novos genomas de mtDNA de vertebrados carregados no NCBI entre 17 de Junho de 2017 e 7 de Janeiro de 2019. A precisão da classificação foi de 99,6%, com apenas três genomas de mtDNA de répteis classificados erroneamente como genomas anfíbios: Bavayia robusta, bavayia robusta – uma espécie de osga, NC_034780, Mesoclemmys hogei, tartaruga tartaruga-de-faces-de-galinha, NC_036346, e Gonatodes albogularis, osga de cabeça-amarela, NC_035153.
MoDMap visualização vs. Resultados da classificação quantitativa ML-DSP
A hipótese testada pelos próximos experimentos foi que a precisão quantitativa da classificação das seqüências de DNA pelo ML-DSP seria significativamente maior do que sugerido pelo agrupamento visual dos taxa no MoDMap produzido com a mesma matriz de distância pareada.
Como exemplo, o MoDMap na Fig. 4a, visualiza a matriz de distância dos genomas mtDNA da família Cyprinidae (81 genomas) com os seus generos Acheilognathus (10 genomas), Rhodeus (11 genomas), Schizothorax (19 genomas), Labeo (19 genomas), Acrossocheilus (12 genomas), Onychostoma (10 genomas); apenas os generos com pelo menos 10 genomas são considerados. O MoDMap parece indicar uma sobreposição entre os grupos Acheilognathus e Rhodeus, o que é biologicamente plausível já que estes gêneros pertencem à mesma sub-família Acheilognathinae. No entanto, quando se faz um zoom traçando um MoDMap apenas destes dois gêneros, como mostrado na Fig. 4b, pode-se ver que os aglomerados estão claramente separados visualmente. Esta separação é confirmada pelo fato de que a pontuação de precisão do classificador Quadratic SVM para o conjunto de dados na Fig. 4b é de 100%. O mesmo escore de precisão quantitativa para a classificação do conjunto de dados na Fig. 4a com SVM Quadrática é 91,8%, o que intuitivamente é muito melhor do que o MoDMap correspondente sugeriria. Isto é provavelmente devido ao facto do MoDMap ser uma aproximação tridimensional das posições dos pontos representativos do género num espaço multidimensional (o número de dimensões é (n-1), onde n é o número de sequências).
Fig. 4
>
MoDMap dos Cyprinidae da família e dos seus géneros. (a): Genera Acheilognathus (azul, 10 genomas), Rhodeus (vermelho, 11 genomas), Schizothorax (verde, 19 genomas), Labeo (preto, 19 genomas), Acrossocheilus (magenta, 12 genomas), Onychostoma (amarelo, 10 genomas); (b): Genera Acheilognathus e Rhodeus, que se sobrepõem em (a), são visualmente separados quando plotados separadamente em (b). A precisão da classificação com SVM quadrática do conjunto de dados em (a) foi 91,8%, e do conjunto de dados em (b) foi 100%
Dito isto, MoDMaps ainda pode servir para fins exploratórios. Por exemplo, o MoDMap na Fig. 4a sugere que espécies do gênero Onychostoma (subfamília listada “desconhecida” no NCBI) (amarelo), podem estar geneticamente relacionadas a espécies do gênero Acrossocheilus (subfamília Barbinae) (magenta). Ao aprofundar a exploração da matriz de distância, verifica-se que a distância entre os centroides destes dois aglomerados é menor do que a distância entre cada um destes dois aglomerados-centroides aos outros aglomerados-centroides. Isto suporta as hipóteses, baseadas em evidências morfológicas , de que o gênero Onychostoma pertence à subfamília Barbinae, respectivamente, que o gênero Onychostoma e o gênero Acrossocheilus estão intimamente relacionados. Note-se que esta exploração, sugerida pelo MoDMap e confirmada por cálculos baseados na matriz de distância, não poderia ter sido iniciada apenas com base no ML-DSP (ou outros algoritmos de aprendizagem supervisionada por máquinas), pois o ML-DSP apenas prevê a classificação de novos genomas em um dos táxons sobre o qual foi treinado, e não fornece qualquer outra informação adicional.
Como outro ponto de comparação entre MoDMaps e os resultados da aprendizagem supervisionada da máquina, a Fig. 5a mostra o MoDMap da superordem Ostariophysi com as suas ordens Cypriniformes (643 genomas), Characiformes (31 genomas) e Siluriformes (107 genomas). O MoDMap mostra os clusters como sobrepostos, mas o classificador quadrático SVM que classifica quantitativamente estes genomas tem uma precisão de 99%. De fato, a matriz de confusão na Fig. 5b mostra que a SVM Quadrática classifica erroneamente apenas 8 sequências de 781 (lembre-se que, para m clusters, a matriz de confusão m×m tem suas linhas etiquetadas pelas classes verdadeiras e colunas etiquetadas pelas classes previstas; a célula (i,j) mostra o número de sequências que pertencem à classe verdadeira i, e que foram previstas como sendo da classe j). Isso indica que quando a representação visual em um MoDMap mostra sobreposições de clusters, isso pode ser devido apenas à redução da dimensionalidade para três dimensões, enquanto o ML-DSP na verdade fornece uma classificação quantitativa muito melhor com base na mesma matriz de distância.
Fig. 5
MoDMap da superordem Ostariophysi, e a matriz de confusão para a classificação Quadrática SVM desta superordem em ordens. (a): MoDMap de ordens Cypriniformes (azul, 643 genomas), Characiformes (vermelho, 31 genomas), Siluriformes (verde, 107 genomas). (b): A matriz de confusão gerada pela SVM Quadrática, ilustrando a sua verdadeira classe vs. desempenho previsto da classe (de cima para baixo e da esquerda para a direita): Cypriniformes, Characiformes, Siluriformes). Os números nos quadrados da diagonal superior esquerda para inferior direita (azul) indicam os números das sequências de ADN correctamente classificadas, por ordem. Os quadrados fora da diagonal rosa indicam que 6 mtDNA genomas da ordem dos caracciformes foram erroneamente previstos para a ordem dos Cypriniformes (centro-esquerda), e 2 mtDNA genomas da ordem dos Siluriformes foram erroneamente previstos para a ordem dos Cypriniformes (fundo-esquerda). A SVM quadrática que gerou esta matriz de confusão teve uma precisão de classificação de 99%
Aplicações a outros conjuntos de dados genómicos
As duas experiências nesta secção indicam que a aplicabilidade do nosso método não se limita às sequências de ADN mitocondrial. A primeira experiência, Fig. 6a, mostra o MoDMap de todas as 4721 sequências completas do vírus da dengue disponíveis no NCBI em 10 de Agosto de 2017, classificadas nos subtipos DENV-1 (genomas 2008), DENV-2 (1349 genomas), DENV-3 (1010 genomas), DENV-4 (354 genomas). O comprimento médio destes genomas virais completos é de 10.595 bp. Apesar dos genomas virais da dengue serem muito semelhantes, a precisão de classificação deste conjunto de dados em subtipos, usando o classificador Quadratic SVM, foi de 100%. O segundo experimento, Fig. 6b, mostra o MoDMap de 4710 genomas bacterianos, classificados em três phyla: Spirochaetes (437 genomas), Firmicutes (1129 genomas), e Proteobacteria (3144 genomas). O comprimento médio destes genomas bacterianos completos é de 104.150 bp, sendo o comprimento máximo de 499.136 bp e o comprimento mínimo de 20.019 bp. A precisão de classificação do classificador Quadratic SVM para este conjunto de dados foi 95,5%.
Fig. 6
>
(a) MoDMap de 4271 genomas do vírus da dengue. As cores representam os subtipos de vírus DENV-1 (azul, genomas 2008), DENV-2 (vermelho, 1349 genomas), DENV-3 (verde, 1010 genomas), DENV-4 (preto, 354 genomas); A precisão da classificação do classificador Quadratic SVM para este conjunto de dados foi de 100%. (b) MoDMap de 4710 genomas de bactérias. As cores representam a phyla bacteriana: Spirochaetes (azul, 437 genomas), Firmicutes (vermelho, 1129 genomas), Proteobacteria (verde, 3144 genomas). A precisão do classificador Quadratic SVM para este conjunto de dados foi 95,5%
Comparação do ML-DSP com ferramentas baseadas e livres de algarismos de última geração
Os experimentos computacionais nesta seção comparam o ML-DSP com três métodos baseados e livres de algarismos de última geração: a ferramenta baseada em algarismos MEGA7 com alinhamento usando MUSCLE e CLUSTALW , e o método livre de algarismos FFP (Feature Frequency Profiles) .
Para esta análise de desempenho, selecionamos três conjuntos de dados. Os dois primeiros são conjuntos de dados de referência utilizados em outros estudos de comparação de sequências genéticas : O primeiro conjunto de dados inclui 38 genomas virais da gripe, e o segundo conjunto de dados inclui 41 sequências completas de mtDNA de mamíferos. O terceiro conjunto de dados, de nossa escolha, é muito maior, consistindo de 4.322 seqüências de mtDNA completas de vertebrados, e foi selecionado para comparar a escalabilidade.
Para os métodos baseados em algarismos, usamos a matriz de distância calculada em MEGA7 a partir de seqüências alinhadas com MUSCLE ou CLUSTALW. Para o FFP sem algarismos, usamos o valor padrão de k=5 para k-mers (um k-mer é qualquer seqüência de DNA de comprimento k; qualquer aumento no valor do parâmetro k, para o primeiro conjunto de dados, resultou em uma pontuação de precisão de classificação mais baixa para o FFP). Para o ML-DSP escolhemos a representação numérica Inteira e calculamos a precisão média da classificação sobre todos os seis classificadores para os dois primeiros conjuntos de dados, e sobre todos os classificadores, exceto Subspace Discriminant e Subspace KNN para o terceiro conjunto de dados.
Table 5 mostra a comparação de desempenho (precisão da classificação e tempo de processamento) desses quatro métodos. O tempo de processamento incluiu todos os cálculos, desde a leitura dos conjuntos de dados até a conclusão da matriz de distância – o elemento comum de todos os quatro métodos. Os tempos de processamento listados não incluem o tempo necessário para o cálculo de árvores filogenéticas, visualizações do MoDMap, ou classificação.
Tabela 5 Comparação da precisão de classificação e tempo de processamento para o cálculo da matriz de distância com MEGA7(MUSCLE), MEGA7(CLUSTALW), FPP, e ML-DSP
Como visto na Tabela 5 (colunas 3, 4, e 6) ML-DSP tem um desempenho esmagadoramente superior ao do software baseado em algarismos MEGA7(MUSCLE/CLUSTALW) em termos de tempo de processamento. Em termos de precisão, para os conjuntos menores de dados de referência de vírus e mamíferos, a precisão média do ML-DSP e do MEGA7(MUSCLE/CLUSTALW) foi comparável, provavelmente devido ao pequeno tamanho do conjunto de treinamento para o ML-DSP. A vantagem do ML-DSP sobre as ferramentas baseadas em aligmentação tornou-se mais aparente para o conjunto de dados de vertebrados maiores, onde as precisões do ML-DSP e das ferramentas baseadas em aligmentação não puderam sequer ser comparadas, já que as ferramentas baseadas em aligmentação eram tão lentas que tiveram que ser terminadas. Em contraste, o ML-DSP classificou todo o conjunto de 4322 genomas de vertebrados mtDNA em 28 s, com precisão média de classificação de 98,3%. Isto indica que o ML-DSP é significativamente mais escalável que o MEGA7(MUSCLE/CLUSTALW) baseado em algarismos, pois ele pode classificar com rapidez e precisão conjuntos de dados que as ferramentas baseadas em algarismos não podem sequer processar.
Como visto na Tabela 5 (colunas 5 e 6), o ML-DSP tem um desempenho significativamente melhor que o FFP do software livre de algarismos em termos de precisão (precisão de classificação média 98.3% para o ML-DSP vs. 48,3% para o FFP, para o conjunto de dados de vertebrados grandes), ao mesmo tempo em que é globalmente mais rápido.
Esta comparação também indica que, para estes conjuntos de dados, ambos os métodos livres de algarismos (ML-DSP e FFP) têm uma vantagem esmagadora sobre os métodos baseados em algarismos (MEGA7 (MUSCLE/CLUSTALW)) em termos de tempo de processamento. Além disso, ao comparar os dois métodos livres de algarismos um com o outro, o ML-DSP tem um desempenho significativamente superior ao FFP em termos de precisão de classificação.
Como outro ângulo de comparação, a Fig. 7 exibe os MoDMaps do primeiro conjunto de dados de referência (38 genomas do vírus influenza) produzidos a partir das matrizes de distância geradas pelo FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW), e ML-DSP respectivamente. A Figura 7a mostra que com FFP é difícil observar qualquer separação visual do conjunto de dados em clusters de subtipos. Figura 7b, MEGA7 (MUSCLE) e Figura 7c MEGA7 (CLUSTALW) mostram sobreposições dos conjuntos de pontos que representam os subtipos H1N1 e H2N2. Em contraste, Fig. 7d, que visualiza a matriz de distância produzida pelo ML-DSP, mostra uma clara separação entre todos os subtipos.
Fig. 7
>
MoDMaps do conjunto de dados do vírus influenza da Tabela 5, com base nos quatro métodos. Os pontos representam os genomas virais dos subtipos H1N1 (vermelho, 13 genomas), H2N2 (preto, 3 genomas), H5N1 (azul, 11 genomas), H7N3 (magenta, 5 genomas), H7N9 (verde, 6 genomas); ModMaps são gerados usando matrizes de distância calculadas com (a) FFP; (b) MEGA7(MUSCLE); (c) MEGA7(CLUSTALW); (d) ML-DSP
Finally Figs. 8 e 9 mostram as árvores filogenéticas geradas por cada um dos quatro métodos considerados. A figura 8a, a árvore gerada pela FFP, tem muitos genomas mal classificados, o que era esperado dada a visualização do MoDMap da sua matriz de distância na figura 7a. A Figura 9a mostra a árvore filogenética gerada pelo MEGA7, que foi a mesma tanto para o MUSCLE quanto para a CLUSTALW: Ela tem apenas um genoma H5N1 incorretamente classificado, colocado no meio dos genomas H1N1. As figuras 8b e 9b mostram a árvore filogenética gerada utilizando a distância produzida pelo ML-DSP (mostrada duas vezes, em paralelo com as outras árvores, para facilidade de comparação). O ML-DSP classificou corretamente todos os genomas.
Fig. 8
>
Comparação da árvore filogenética: FFP com ML-DSP. A árvore filogenética gerada para 38 genomas do vírus da gripe usando (a): FFP (b): ML-DSP
Fig. 9
>
Comparação da árvore filogenética: MEGA7(MUSCLE/CLUSTALW) com ML-DSP. A árvore filogenética gerada para 38 genomas do vírus influenza usando (a): MEGA7(MUSCLE/CLUSTALW) (b): ML-DSP
Discussão
A eficiência computacional do ML-DSP deve-se ao fato de ser livre de algarismos (portanto não precisa de alinhamento de sequências múltiplas), enquanto que a combinação de representações numéricas 1D, Transformada Discreta de Fourier e Coeficiente de Correlação de Pearson a torna extremamente eficiente em termos de tempo computacional, e portanto escalável.
ML-DSP não é sem limitações. Nós antecipamos que a necessidade de seqüências de comprimento igual e o uso de normalização de comprimento poderia introduzir problemas com o exame de pequenos fragmentos de seqüências de genoma maiores. Normalmente os genomas variam em comprimento e assim a normalização do comprimento resulta sempre em somar (amostragem para cima) ou perder (amostragem para baixo) alguma informação. Embora o Coeficiente de Correlação Pearson possa distinguir os padrões de sinal mesmo em pequenos fragmentos de seqüência, e nós não encontramos nenhuma desvantagem considerável ao considerarmos genomas completos de DNA mitocondrial com suas inevitáveis variações de comprimento, a normalização do comprimento pode causar problemas quando lidamos com os fragmentos de genomas, e as seqüências de genomas nucleares muito maiores.
Por último, o ML-DSP tem dois inconvenientes, inerentes a qualquer algoritmo de aprendizagem supervisionada da máquina. O primeiro é que o ML-DSP é um método de caixa preta que, enquanto produz uma previsão de classificação altamente precisa, não oferece uma explicação (biológica) para sua saída. O segundo é que ele se baseia na existência de um conjunto de treinamento do qual extrai seu “conhecimento”, ou seja, um conjunto composto de seqüências genômicas conhecidas e seus rótulos taxonômicos. O ML-DSP usa tal conjunto de treinamento para “aprender” a classificar novas seqüências em uma das classes taxonômicas nas quais foi treinado, mas não é capaz de atribuí-lo a um táxon ao qual não tenha sido exposto.