Siguiendo el diseño e implementación del prototipo de la herramienta de clasificación de secuencias genómicas ML-DSP, investigamos qué tipo de normalización de longitud y qué tipo de distancia eran los más adecuados para la clasificación de genomas utilizando este método. A continuación, realizamos un análisis exhaustivo de las distintas representaciones numéricas de las secuencias de ADN utilizadas en la literatura, y determinamos las tres mejores. Una vez establecidos los parámetros principales (método de normalización de la longitud, distancia y representación numérica), probamos la capacidad de ML-DSP para clasificar genomas de ADNmt en niveles taxonómicos que van desde el nivel de dominio hasta el nivel de género, y obtuvimos niveles medios de precisión en la clasificación de >97%. Por último, comparamos ML-DSP con otros métodos de clasificación de genomas basados en la alineación y sin ella, y demostramos que ML-DSP alcanzó una mayor precisión y una velocidad significativamente mayor.
- Análisis de las distancias y de los enfoques de normalización de la longitud
- Análisis de varias representaciones numéricas de secuencias de ADN
- ML-DSP para tres clases de vertebrados
- Clasificación de genomas con ML-DSP, en todos los niveles taxonómicos
- Visualización de MoDMap vs. Resultados de la clasificación cuantitativa de ML-DSP
- Aplicaciones a otros conjuntos de datos genómicos
- Comparación de ML-DSP con herramientas de vanguardia basadas en la alineación y sin ella
- Discusión
Análisis de las distancias y de los enfoques de normalización de la longitud
Para decidir qué medida de distancia y qué método de normalización de la longitud eran los más adecuados para las comparaciones de genomas con ML-DSP, utilizamos nueve subconjuntos diferentes de secuencias completas de ADNmt de nuestro conjunto de datos. Estos subconjuntos se seleccionaron para incluir la mayoría de los genomas de ADNmt completos disponibles (conjunto de datos de Vertebrados de 4322 secuencias de ADNmt), así como subconjuntos que contienen secuencias similares, de longitud similar (conjunto de datos de Primates de 148 secuencias de ADNmt), y subconjuntos que contienen genomas de ADNmt que muestran grandes diferencias de longitud (conjunto de datos de Plantas de 174 secuencias de ADNmt).
Las puntuaciones de precisión de la clasificación obtenidas utilizando las dos medidas de distancia consideradas (Euclides y Coeficiente de Correlación de Pearson) y dos enfoques diferentes de normalización de la longitud (normalización a la longitud máxima y normalización a la longitud media) en varios conjuntos de datos se enumeran en la Tabla 2. Las puntuaciones de precisión de la clasificación son ligeramente más altas para el PCC, pero lo suficientemente cercanas a las obtenidas cuando se utiliza la distancia euclidiana como para no ser concluyentes.
En el resto de este trabajo elegimos el Coeficiente de correlación de Pearson porque es independiente de la escala (a diferencia de la distancia euclidiana, que es, por ejemplo, sensible al desplazamiento de la señal, por lo que las señales con la misma forma pero diferentes puntos de partida se consideran disímiles ), y la normalización de la longitud a la mediana de la longitud porque es económica en términos de uso de memoria.
Análisis de varias representaciones numéricas de secuencias de ADN
Analizamos el efecto sobre la precisión de la clasificación ML-DSP de trece representaciones numéricas unidimensionales diferentes para secuencias de ADN, agrupadas como: Mapeos fijos representaciones numéricas de ADN (Tabla 1 representaciones #1, #2, #3, #6, #7, ver , y representaciones #10, #11, #12, #13 – que son variantes unidimensionales de la representación binaria propuesta en ), mapeos basados en algunas propiedades fisicoquímicas de los nucleótidos (Tabla 1 representación #4, ver , y representación #5, ver ), y mapeos basados en los valores del vecino más cercano (Tabla 2 representaciones #8, #9, ver ).
Los conjuntos de datos utilizados para este análisis fueron los mismos que los de la Tabla 2. Los clasificadores de aprendizaje automático supervisado utilizados para este análisis fueron los seis clasificadores enumerados en la sección Métodos e implementación, con la excepción de los conjuntos de datos con más de 2000 secuencias, en los que se omitieron dos de los clasificadores (Subspace Discriminant y Subspace KNN) por ser demasiado lentos. Los resultados y las puntuaciones medias de precisión para todas estas representaciones numéricas, clasificadores y conjuntos de datos se resumen en la Tabla 3.
Como puede observarse en la Tabla 3, para todas las representaciones numéricas, las puntuaciones de precisión promedio de la tabla (última fila: promedio de los promedios, primero sobre los seis clasificadores para cada conjunto de datos, y luego sobre todos los conjuntos de datos), son altas. Sorprendentemente, incluso el uso de una representación numérica de un solo nucleótido, que trata tres de los nucleótidos como si fueran el mismo, y sólo distingue uno de ellos («Just-A»), da como resultado una precisión media del 91,9%. La mejor precisión, para estos conjuntos de datos, se consigue cuando se utiliza la representación «PP», que produce una precisión media del 92,3%.
Para los experimentos posteriores seleccionamos las tres mejores representaciones en términos de puntuación de precisión: «PP», «Just-A», y «Real» representaciones numéricas.
ML-DSP para tres clases de vertebrados
Como una aplicación de ML-DSP utilizando la representación numérica «PP» para las secuencias de ADN, analizamos el conjunto de genomas de ADNmt de vertebrados (longitud mediana 16.606 pb). El MoDMap, es decir, la visualización en 3D a escala multidimensional de las interrelaciones de los genomas descritas por las distancias en la matriz de distancias, se ilustra en la Fig. 3. El conjunto de datos contiene 3740 genomas completos de ADNmt: 553 genomas de aves, 2313 de peces y 874 de mamíferos. Cuantitativamente, la puntuación de precisión de la clasificación obtenida por el clasificador SVM cuadrático fue del 100%.
Clasificación de genomas con ML-DSP, en todos los niveles taxonómicos
Probamos la capacidad de ML-DSP para clasificar secuencias completas de ADNmt en varios niveles taxonómicos. Para cada conjunto de datos, probamos utilizando las representaciones numéricas «PP», «Just-A» y «Real».
El punto de partida fue el dominio Eukaryota (7396 secuencias), que se clasificó en reinos, luego el reino Animalia se clasificó en filos, etc. En cada nivel, elegimos el cluster con el mayor número de secuencias y luego lo clasificamos en los sub-clusters del siguiente nivel taxonómico. El nivel más bajo clasificado fue la familia Cyprinidae (81 secuencias) en sus seis géneros. Para cada conjunto de datos, probamos los seis clasificadores, y el máximo de estas seis puntuaciones de precisión de clasificación para cada conjunto de datos se muestra en la Tabla 4.
Nótese que, en cada nivel taxonómico, las puntuaciones máximas de precisión de clasificación (entre los seis clasificadores) para cada una de las tres representaciones numéricas consideradas son altas, oscilando entre el 91.4% al 100%, con sólo tres puntuaciones por debajo del 95%. Como este análisis tampoco reveló un claro ganador entre las tres representaciones numéricas principales, se planteó entonces la cuestión de si la representación numérica que utilizamos importaba en absoluto. Para responder a esta pregunta, realizamos dos experimentos adicionales, que aprovechan el hecho de que el coeficiente de correlación de Pearson es independiente de la escala, y sólo busca un patrón al comparar las señales. Para el primer experimento, seleccionamos las tres mejores representaciones numéricas («PP», «Just-A» y «Real») y, para cada secuencia de un conjunto de datos determinado, se eligió al azar, con la misma probabilidad, una representación numérica de entre estas tres para que fuera la señal digital que la representara. Los resultados se muestran en la columna «Random3» de la Tabla 4: la puntuación máxima de precisión en todos los conjuntos de datos es del 96%. Esto es casi igual a la precisión obtenida cuando se utilizó una representación numérica concreta (un 1% menos, lo que está bien dentro del error experimental). A continuación, repetimos este experimento, esta vez eligiendo al azar cualquiera de las trece representaciones numéricas consideradas. Los resultados se muestran en la columna «Random13» de la Tabla 4, y la puntuación media de la tabla es del 88,1%.
En general, nuestros resultados sugieren que las tres representaciones numéricas «PP», «Just-A» y «Real» tienen puntuaciones de precisión de clasificación muy altas (media >97%), e incluso la elección aleatoria de una de estas representaciones para cada secuencia del conjunto de datos no afecta significativamente a la puntuación de precisión de clasificación de ML-DSP (media del 96%).
También observamos que, además de ser muy preciso en sus clasificaciones, ML-DSP es ultrarrápido. De hecho, incluso para el conjunto de datos más grande de la Tabla 2, el subfilo Vertebrata (4322 genomas completos de ADNmt, con una longitud media de 16.806 pb), el cálculo de la matriz de distancia (que es la mayor parte del cálculo de clasificación) duró menos de 5 s. La clasificación de un nuevo genoma de ADNmt de primates tardó 0,06 s cuando se entrenó con 148 genomas de ADNmt de primates, y la clasificación de un nuevo genoma de ADNmt de vertebrados tardó 7 s cuando se entrenó con los 4322 genomas de ADNmt de vertebrados. El resultado se actualizó con un experimento en el que QSVM se entrenó en los 4322 genomas completos de vertebrados de la Tabla 2, y se consultó sobre los 694 nuevos genomas de ADNmt de vertebrados cargados en el NCBI entre el 17 de junio de 2017 y el 7 de enero de 2019. La precisión de la clasificación fue del 99,6%, con solo tres genomas de ADNmt de reptiles clasificados erróneamente como genomas de anfibios: Bavayia robusta, bavayia robusta del bosque – una especie de gecko, NC_034780, Mesoclemmys hogei, tortuga de cabeza de sapo de Hoge, NC_036346, y Gonatodes albogularis, gecko de cabeza amarilla, NC_035153.
Visualización de MoDMap vs. Resultados de la clasificación cuantitativa de ML-DSP
La hipótesis puesta a prueba por los siguientes experimentos fue que la precisión cuantitativa de la clasificación de las secuencias de ADN por ML-DSP sería significativamente mayor que la sugerida por la agrupación visual de los taxones en el MoDMap producido con la misma matriz de distancia por pares.
Como ejemplo, el MoDMap en la Fig. 4a, visualiza la matriz de distancia de los genomas de ADNmt de la familia Cyprinidae (81 genomas) con sus géneros Acheilognathus (10 genomas), Rhodeus (11 genomas), Schizothorax (19 genomas), Labeo (19 genomas), Acrossocheilus (12 genomas), Onychostoma (10 genomas); sólo se consideran los géneros con al menos 10 genomas. El MoDMap parece indicar un solapamiento entre los grupos Acheilognathus y Rhodeus, lo que es biológicamente plausible ya que estos géneros pertenecen a la misma subfamilia Acheilognathinae. Sin embargo, cuando se amplía el mapa MoDM de sólo estos dos géneros, como se muestra en la Fig. 4b, se puede ver que los grupos están claramente separados visualmente. Esta separación se confirma por el hecho de que la puntuación de precisión del clasificador SVM cuadrático para el conjunto de datos de la Fig. 4b es del 100%. La misma puntuación de precisión cuantitativa para la clasificación del conjunto de datos de la Fig. 4a con SVM cuadrática es del 91,8%, que intuitivamente es mucho mejor de lo que sugeriría el correspondiente MoDMap. Esto se debe probablemente al hecho de que el MoDMap es una aproximación tridimensional de las posiciones de los puntos que representan el genoma en un espacio multidimensional (el número de dimensiones es (n-1), donde n es el número de secuencias).
Dicho esto, los MoDMaps pueden seguir sirviendo para fines exploratorios. Por ejemplo, el MoDMap de la Fig. 4a sugiere que las especies del género Onychostoma (subfamilia listada como «desconocida» en el NCBI) (amarillo), pueden estar genéticamente relacionadas con especies del género Acrossocheilus (subfamilia Barbinae) (magenta). Al explorar más a fondo la matriz de distancias, se encuentra que, efectivamente, la distancia entre los centroides de estos dos clusters es menor que la distancia entre cada uno de estos dos centros de clusters a los otros centros de clusters. Esto apoya las hipótesis, basadas en la evidencia morfológica , de que el género Onychostoma pertenece a la subfamilia Barbinae, respectivamente que el género Onychostoma y el género Acrossocheilus están estrechamente relacionados . Nótese que esta exploración, sugerida por MoDMap y confirmada por los cálculos basados en la matriz de distancias, no podría haberse iniciado basándose únicamente en ML-DSP (u otros algoritmos de aprendizaje automático supervisado), ya que ML-DSP sólo predice la clasificación de nuevos genomas en uno de los taxones en los que fue entrenado, y no proporciona ninguna otra información adicional.
Como otro punto de comparación entre los MoDMaps y los resultados del aprendizaje automático supervisado, la Fig. 5a muestra el MoDMap del superorden Ostariophysi con sus órdenes Cypriniformes (643 genomas), Characiformes (31 genomas) y Siluriformes (107 genomas). El MoDMap muestra los clusters como superpuestos, pero el clasificador SVM cuadrático que clasifica cuantitativamente estos genomas tiene una precisión del 99%. De hecho, la matriz de confusión de la Fig. 5b muestra que el SVM cuadrático clasifica erróneamente sólo 8 secuencias de 781 (recordemos que, para m clusters, la matriz de confusión m×m tiene sus filas etiquetadas por las clases verdaderas y sus columnas etiquetadas por las clases predichas; la celda (i,j) muestra el número de secuencias que pertenecen a la clase verdadera i, y que han sido predichas como de clase j). Esto indica que cuando la representación visual en un MoDMap muestra solapamientos de clústeres, esto puede deberse únicamente a la reducción de la dimensionalidad a tres dimensiones, mientras que ML-DSP proporciona en realidad una clasificación cuantitativa mucho mejor basada en la misma matriz de distancia.
Aplicaciones a otros conjuntos de datos genómicos
Los dos experimentos de esta sección indican que la aplicabilidad de nuestro método no se limita a las secuencias de ADN mitocondrial. El primer experimento, Fig. 6a, muestra el MoDMap de todas las 4721 secuencias completas del virus del dengue disponibles en el NCBI el 10 de agosto de 2017, clasificadas en los subtipos DENV-1 (2008 genomas), DENV-2 (1349 genomas), DENV-3 (1010 genomas), DENV-4 (354 genomas). La longitud media de estos genomas virales completos es de 10.595 pb. A pesar de que los genomas virales del dengue son muy similares, la precisión de la clasificación de este conjunto de datos en subtipos, utilizando el clasificador SVM cuadrático, fue del 100%. El segundo experimento, Fig. 6b, muestra el MoDMap de 4710 genomas bacterianos, clasificados en tres filos: Spirochaetes (437 genomas), Firmicutes (1129 genomas) y Proteobacteria (3144 genomas). La longitud media de estos genomas bacterianos completos es de 104.150 pb, siendo la longitud máxima de 499.136 pb y la mínima de 20.019 pb. La precisión de clasificación del clasificador SVM cuadrático para este conjunto de datos fue del 95,5%.
Comparación de ML-DSP con herramientas de vanguardia basadas en la alineación y sin ella
Los experimentos computacionales de esta sección comparan ML-DSP con tres métodos de vanguardia basados en la alineación y sin ella: la herramienta basada en la alineación MEGA7 con alineación mediante MUSCLE y CLUSTALW , y el método sin alineación FFP (Feature Frequency Profiles) .
Para este análisis de rendimiento hemos seleccionado tres conjuntos de datos. Los dos primeros son conjuntos de datos de referencia utilizados en otros estudios de comparación de secuencias genéticas: El primer conjunto de datos comprende 38 genomas virales de la gripe, y el segundo conjunto de datos comprende 41 secuencias completas de ADNmt de mamíferos. El tercer conjunto de datos, de nuestra elección, es mucho mayor, y consiste en 4.322 secuencias completas de ADNmt de vertebrados, y fue seleccionado para comparar la escalabilidad.
Para los métodos basados en la alineación, utilizamos la matriz de distancia calculada en MEGA7 a partir de secuencias alineadas con MUSCLE o CLUSTALW. Para el FFP sin alineación, utilizamos el valor por defecto de k=5 para los k-mers (un k-mer es cualquier secuencia de ADN de longitud k; cualquier aumento en el valor del parámetro k, para el primer conjunto de datos, resultó en una puntuación de precisión de clasificación más baja para el FFP). Para ML-DSP elegimos la representación numérica entera y calculamos la precisión media de la clasificación sobre los seis clasificadores para los dos primeros conjuntos de datos, y sobre todos los clasificadores excepto el subespacio discriminante y el subespacio KNN para el tercer conjunto de datos.
La tabla 5 muestra la comparación del rendimiento (precisión de la clasificación y tiempo de procesamiento) de estos cuatro métodos. El tiempo de procesamiento incluye todos los cálculos, desde la lectura de los conjuntos de datos hasta la finalización de la matriz de distancia, el elemento común de los cuatro métodos. Los tiempos de procesamiento enumerados no incluyen el tiempo necesario para el cálculo de los árboles filogenéticos, las visualizaciones de MoDMap o la clasificación.
Como se ve en la Tabla 5 (columnas 3, 4 y 6) ML-DSP supera de forma abrumadora al software basado en la alineación MEGA7(MUSCLE/CLUSTALW) en términos de tiempo de procesamiento. En términos de precisión, para los conjuntos de datos de referencia de virus y mamíferos más pequeños, las precisiones medias de ML-DSP y MEGA7(MUSCLE/CLUSTALW) fueron comparables, probablemente debido al pequeño tamaño del conjunto de entrenamiento para ML-DSP. La ventaja de ML-DSP sobre las herramientas basadas en la alineación se hizo más evidente para el conjunto de datos de vertebrados más grande, en el que las precisiones de ML-DSP y las herramientas basadas en la alineación ni siquiera podían compararse, ya que las herramientas basadas en la alineación eran tan lentas que tenían que terminar. En cambio, ML-DSP clasificó todo el conjunto de 4322 genomas de ADNmt de vertebrados en 28 s, con una precisión de clasificación media del 98,3%. Esto indica que ML-DSP es significativamente más escalable que el MEGA7(MUSCLE/CLUSTALW) basado en la alineación, ya que puede clasificar rápidamente y con precisión conjuntos de datos que las herramientas basadas en la alineación ni siquiera pueden procesar.
Como se ve en la Tabla 5 (columnas 5 y 6), ML-DSP supera significativamente al software sin alineación FFP en términos de precisión (precisión de clasificación media 98.Esta comparación también indica que, para estos conjuntos de datos, ambos métodos sin alineación (ML-DSP y FFP) tienen una ventaja abrumadora sobre los métodos basados en la alineación (MEGA7 (MUSCLE/CLUSTALW)) en términos de tiempo de procesamiento. Además, cuando se comparan los dos métodos sin alineación entre sí, ML-DSP supera significativamente a FFP en términos de precisión de la clasificación.
Como otro ángulo de comparación, la Fig. 7 muestra los MoDMaps del primer conjunto de datos de referencia (38 genomas del virus de la gripe) producidos a partir de las matrices de distancia generadas por FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW), y ML-DSP respectivamente. La figura 7a muestra que con FFP es difícil observar cualquier separación visual del conjunto de datos en clusters de subtipos. La Figura 7b, MEGA7 (MUSCLE), y la Fig. 7c MEGA7 (CLUSTALW) muestran solapamientos de los clusters de puntos que representan los subtipos H1N1 y H2N2. En cambio, la Fig. 7d, que visualiza la matriz de distancia producida por ML-DSP, muestra una clara separación entre todos los subtipos.
Finalmente las Figs. 8 y 9 muestran los árboles filogenéticos generados por cada uno de los cuatro métodos considerados. La Figura 8a, el árbol generado por FFP, tiene muchos genomas mal clasificados, lo que era de esperar dada la visualización de MoDMap de su matriz de distancia en la Fig. 7a. La Figura 9a muestra el árbol filogenético generado por MEGA7, que fue el mismo tanto para MUSCLE como para CLUSTALW: sólo tiene un genoma H5N1 mal clasificado, situado en medio de los genomas H1N1. Las figuras 8b y 9b muestran el árbol filogenético generado utilizando la distancia producida por ML-DSP (mostrado dos veces, en paralelo con los otros árboles, para facilitar la comparación). ML-DSP clasificó correctamente todos los genomas.
Discusión
La eficiencia computacional de ML-DSP se debe al hecho de que es libre de alineación (por lo tanto, no necesita alineación de secuencias múltiples), mientras que la combinación de representaciones numéricas 1D, la Transformada Discreta de Fourier y el Coeficiente de Correlación de Pearson hace que sea extremadamente eficiente desde el punto de vista del tiempo computacional, y por lo tanto escalable.
ML-DSP no está exento de limitaciones. Anticipamos que la necesidad de secuencias de igual longitud y el uso de la normalización de la longitud podría introducir problemas con el examen de pequeños fragmentos de secuencias genómicas más grandes. Por lo general, los genomas varían en longitud y, por lo tanto, la normalización de la longitud siempre resulta en la adición (muestreo hacia arriba) o la pérdida (muestreo hacia abajo) de alguna información. Aunque el Coeficiente de Correlación de Pearson puede distinguir los patrones de señal incluso en pequeños fragmentos de secuencia, y no encontramos ninguna desventaja considerable al considerar genomas completos de ADN mitocondrial con sus inevitables variaciones de longitud, la normalización de la longitud puede causar problemas cuando tratamos con los fragmentos de genomas, y las secuencias del genoma nuclear mucho más grandes.
Por último, ML-DSP tiene dos inconvenientes, inherentes a cualquier algoritmo de aprendizaje automático supervisado. El primero es que ML-DSP es un método de caja negra que, aunque produce una predicción de clasificación muy precisa, no ofrece una explicación (biológica) para su resultado. La segunda es que depende de la existencia de un conjunto de entrenamiento del que extrae su «conocimiento», es decir, un conjunto formado por secuencias genómicas conocidas y sus etiquetas taxonómicas. El ML-DSP utiliza dicho conjunto de entrenamiento para «aprender» a clasificar nuevas secuencias en una de las clases taxonómicas en las que fue entrenado, pero no es capaz de asignarlas a un taxón al que no ha sido expuesto.