Suite à la conception et à la mise en œuvre du prototype d’outil de classification de séquences génomiques ML-DSP, nous avons étudié quel type de normalisation de la longueur et quel type de distance étaient les plus appropriés pour la classification des génomes à l’aide de cette méthode. Nous avons ensuite effectué une analyse complète des différentes représentations numériques des séquences d’ADN utilisées dans la littérature, et avons déterminé les trois plus performantes. Après avoir défini les principaux paramètres (méthode de normalisation de la longueur, distance et représentation numérique), nous avons testé la capacité de ML-DSP à classifier les génomes d’ADNmt à des niveaux taxonomiques allant du niveau du domaine au niveau du genre, et avons obtenu des niveaux moyens de précision de classification de >97%. Enfin, nous avons comparé ML-DSP avec d’autres méthodes de classification des génomes basées sur l’alignement et sans alignement, et nous avons montré que ML-DSP obtenait une plus grande précision et des vitesses significativement plus élevées.
- Analyse des distances et des approches de normalisation de la longueur
- Analyse de diverses représentations numériques de séquences d’ADN
- ML-DSP pour trois classes de vertébrés
- Classification des génomes avec ML-DSP, à tous les niveaux taxonomiques
- Visualisation de MoDMap vs. Résultats de classification quantitative ML-DSP
- Applications à d’autres ensembles de données génomiques
- Comparaison de ML-DSP avec des outils de pointe basés sur l’alignement et sans alignement
- Discussion
Analyse des distances et des approches de normalisation de la longueur
Pour décider quelle mesure de distance et quelle méthode de normalisation de la longueur étaient les plus appropriées pour les comparaisons de génomes avec ML-DSP, nous avons utilisé neuf sous-ensembles différents de séquences complètes d’ADNmt de notre ensemble de données. Ces sous-ensembles ont été sélectionnés pour inclure la plupart des génomes complets d’ADNmt disponibles (ensemble de données des vertébrés de 4322 séquences d’ADNmt), ainsi que des sous-ensembles contenant des séquences similaires, de longueur similaire (ensemble de données des primates de 148 séquences d’ADNmt), et des sous-ensembles contenant des génomes d’ADNmt présentant de grandes différences de longueur (ensemble de données des plantes de 174 séquences d’ADNmt).
Les scores de précision de la classification obtenus en utilisant les deux mesures de distance considérées (coefficient de corrélation euclidien et de Pearson) et deux approches différentes de normalisation de la longueur (normalisation à la longueur maximale et normalisation à la longueur médiane) sur plusieurs ensembles de données sont répertoriés dans le tableau 2. Les scores de précision de classification sont légèrement supérieurs pour le CCP, mais suffisamment proches de ceux obtenus lors de l’utilisation de la distance euclidienne pour ne pas être concluants.
Dans la suite de cet article, nous avons choisi le coefficient de corrélation de Pearson car il est indépendant de l’échelle (contrairement à la distance euclidienne, qui est, par ex, sensible au décalage du signal, ce qui fait que des signaux ayant la même forme mais des points de départ différents sont considérés comme dissemblables ), et la normalisation de la longueur à la longueur médiane parce qu’elle est économique en termes d’utilisation de la mémoire.
Analyse de diverses représentations numériques de séquences d’ADN
Nous avons analysé l’effet sur la précision de classification ML-DSP de treize représentations numériques unidimensionnelles différentes pour les séquences d’ADN, regroupées comme suit : Des mappings fixes Représentations numériques de l’ADN (tableau 1 représentations #1, #2, #3, #6, #7, voir , et représentations #10, #11, #12, #13 – qui sont des variantes unidimensionnelles de la représentation binaire proposée dans ), des mappings basés sur certaines propriétés physio-chimiques des nucléotides (tableau 1 représentation #4, voir , et représentation #5, voir ), et des mappings basés sur les valeurs du plus proche voisin (tableau 2 représentations #8, #9, voir ).
Les ensembles de données utilisés pour cette analyse étaient les mêmes que ceux du tableau 2. Les classificateurs d’apprentissage automatique supervisé utilisés pour cette analyse étaient les six classificateurs énumérés dans la section Méthodes et mise en œuvre, à l’exception des ensembles de données avec plus de 2000 séquences où deux des classificateurs (Subspace Discriminant et Subspace KNN) ont été omis car trop lents. Les résultats et les scores de précision moyens pour toutes ces représentations numériques, ces classificateurs et ces ensembles de données sont résumés dans le tableau 3.
Comme on peut l’observer dans le tableau 3, pour toutes les représentations numériques, les scores de précision moyens du tableau (dernière ligne : moyenne des moyennes, d’abord sur les six classificateurs pour chaque ensemble de données, puis sur tous les ensembles de données), sont élevés. De manière surprenante, même en utilisant une représentation numérique d’un seul nucléotide, qui traite trois des nucléotides comme étant les mêmes, et n’en distingue qu’un seul (« Just-A »), on obtient une précision moyenne de 91,9 %. La meilleure précision, pour ces ensembles de données, est obtenue en utilisant la représentation « PP », qui donne une précision moyenne de 92,3%.
Pour les expériences suivantes, nous avons sélectionné les trois meilleures représentations en termes de scores de précision : « PP », « Just-A » et les représentations numériques « Real ».
ML-DSP pour trois classes de vertébrés
Comme application de ML-DSP utilisant la représentation numérique « PP » pour les séquences d’ADN, nous avons analysé l’ensemble des génomes d’ADNmt des vertébrés (longueur médiane 16 606 pb). La MoDMap, c’est-à-dire la visualisation 3D à l’échelle multidimensionnelle des interrelations entre les génomes telles que décrites par les distances dans la matrice de distance, est illustrée à la figure 3. L’ensemble de données contient 3740 génomes complets d’ADNmt : 553 génomes d’oiseaux, 2313 génomes de poissons et 874 génomes de mammifères. Quantitativement, le score de précision de classification obtenu par le classificateur SVM quadratique était de 100%.
Classification des génomes avec ML-DSP, à tous les niveaux taxonomiques
Nous avons testé la capacité de ML-DSP à classifier les séquences complètes d’ADNmt à différents niveaux taxonomiques. Pour chaque ensemble de données, nous avons testé en utilisant les représentations numériques « PP », « Just-A » et « Real ».
Le point de départ était le domaine Eukaryota (7396 séquences), qui a été classé en royaumes, puis le royaume Animalia a été classé en phyla, etc. À chaque niveau, nous avons choisi le cluster avec le plus grand nombre de séquences, puis nous l’avons classé dans les sous-clusters du niveau taxonomique suivant. Le niveau de classification le plus bas était la famille des cyprinidés (81 séquences) dans ses six genres. Pour chaque ensemble de données, nous avons testé les six classificateurs, et le maximum de ces six scores de précision de classification pour chaque ensemble de données est présenté dans le tableau 4.
Notez que, à chaque niveau taxonomique, les scores de précision de classification maximale (parmi les six classificateurs) pour chacune des trois représentations numériques considérées sont élevés, allant de 91.4% à 100%, avec seulement trois scores inférieurs à 95%. Comme cette analyse n’a pas non plus révélé de vainqueur clair parmi les trois principales représentations numériques, la question s’est alors posée de savoir si la représentation numérique que nous utilisons avait une quelconque importance. Pour répondre à cette question, nous avons réalisé deux expériences supplémentaires, qui exploitent le fait que le coefficient de corrélation de Pearson est indépendant de l’échelle et qu’il ne recherche qu’un modèle lors de la comparaison des signaux. Pour la première expérience, nous avons sélectionné les trois meilleures représentations numériques (« PP », « Just-A » et « Real ») et, pour chaque séquence d’un ensemble de données donné, une représentation numérique parmi ces trois a été choisie au hasard, avec une probabilité égale, pour être le signal numérique qui la représente. Les résultats sont indiqués dans la colonne « Random3 » du tableau 4 : le score de précision maximal pour tous les ensembles de données est de 96%. Ce résultat est presque identique à la précision obtenue lorsqu’une représentation numérique particulière a été utilisée (1 % de moins, ce qui est bien dans les limites de l’erreur expérimentale). Nous avons ensuite répété cette expérience, en choisissant cette fois-ci au hasard l’une des treize représentations numériques considérées. Les résultats sont indiqués dans la colonne « Random13 » du tableau 4, le score de précision moyen du tableau étant de 88,1%.
Dans l’ensemble, nos résultats suggèrent que les trois représentations numériques « PP », « Just-A » et « Real » ont des scores de précision de classification très élevés (moyenne >97%), et même un choix aléatoire d’une de ces représentations pour chaque séquence du jeu de données n’affecte pas significativement le score de précision de classification de ML-DSP (moyenne 96%).
Nous notons également que, en plus d’être très précis dans ses classifications, ML-DSP est ultra-rapide. En effet, même pour le plus grand ensemble de données du tableau 2, le sous-phylum Vertebrata (4322 génomes ADNmt complets, longueur moyenne 16 806 pb), le calcul de la matrice de distance (qui constitue l’essentiel du calcul de classification) a duré moins de 5 s. La classification d’un nouveau génome d’ADNmt de primate a pris 0,06 s lorsqu’il a été entraîné sur 148 génomes d’ADNmt de primate, et la classification d’un nouveau génome d’ADNmt de vertébré a pris 7 s lorsqu’il a été entraîné sur les 4322 génomes d’ADNmt de vertébré. Le résultat a été mis à jour avec une expérience où QSVM a été entraîné sur les 4322 génomes complets de vertébrés du tableau 2, et interrogé sur les 694 nouveaux génomes ADNmt de vertébrés téléchargés sur NCBI entre le 17 juin 2017 et le 7 janvier 2019. La précision de la classification était de 99,6 %, avec seulement trois génomes d’ADNmt de reptiles classés à tort comme des génomes d’amphibiens : Bavayia robusta, robust forest bavayia – une espèce de gecko, NC_034780, Mesoclemmys hogei, tortue tête de crapaud de Hoge, NC_036346, et Gonatodes albogularis, gecko à tête jaune, NC_035153.
Visualisation de MoDMap vs. Résultats de classification quantitative ML-DSP
L’hypothèse testée par les expériences suivantes était que la précision quantitative de la classification des séquences d’ADN par ML-DSP serait significativement plus élevée que celle suggérée par le regroupement visuel des taxons dans la MoDMap produite avec la même matrice de distance par paire.
À titre d’exemple, la MoDMap de la figure 4a, visualise la matrice de distance des génomes ADNmt de la famille Cyprinidae (81 génomes) avec ses genres Acheilognathus (10 génomes), Rhodeus (11 génomes), Schizothorax (19 génomes), Labeo (19 génomes), Acrossocheilus (12 génomes), Onychostoma (10 génomes) ; seuls les genres ayant au moins 10 génomes sont considérés. Le MoDMap semble indiquer un chevauchement entre les groupes Acheilognathus et Rhodeus, ce qui est biologiquement plausible puisque ces genres appartiennent à la même sous-famille Acheilognathinae. Cependant, lorsqu’on fait un zoom avant en traçant une carte MoDMap de ces deux genres seulement, comme le montre la figure 4b, on peut voir que les clusters sont clairement séparés visuellement. Cette séparation est confirmée par le fait que le score de précision du classificateur SVM quadratique pour le jeu de données de la Fig. 4b est de 100%. Le même score quantitatif de précision pour la classification du jeu de données de la Fig. 4a avec le SVM quadratique est de 91,8%, ce qui est intuitivement bien meilleur que ce que la carte MoDM correspondante suggère. Cela est probablement dû au fait que la MoDMap est une approximation tridimensionnelle des positions des points représentant le génome dans un espace multidimensionnel (le nombre de dimensions est (n-1), où n est le nombre de séquences).
Cela étant dit, les MoDMaps peuvent toujours servir à des fins exploratoires. Par exemple, la MoDMap de la figure 4a suggère que les espèces du genre Onychostoma (sous-famille répertoriée » inconnue » dans le NCBI) (jaune), peuvent être génétiquement liées aux espèces du genre Acrossocheilus (sous-famille Barbinae) (magenta). En explorant plus avant la matrice de distance, on constate qu’effectivement la distance entre les centroïdes de ces deux groupes est inférieure à la distance entre chacun de ces deux centroïdes de groupes et les autres centroïdes de groupes. Ceci soutient l’hypothèse, basée sur des preuves morphologiques, que le genre Onychostoma appartient à la sous-famille des Barbinae, respectivement que le genre Onychostoma et le genre Acrossocheilus sont étroitement liés. Notez que cette exploration, suggérée par MoDMap et confirmée par les calculs basés sur la matrice de distance, n’aurait pas pu être initiée sur la base de ML-DSP seul (ou d’autres algorithmes d’apprentissage automatique supervisé), car ML-DSP ne fait que prédire la classification de nouveaux génomes dans l’un des taxons sur lesquels il a été entraîné, et ne fournit aucune autre information supplémentaire.
Comme autre point de comparaison entre les MoDMaps et les sorties d’apprentissage automatique supervisé, la figure 5a montre la MoDMap du superordre Ostariophysi avec ses ordres Cypriniformes (643 génomes), Characiformes (31 génomes) et Siluriformes (107 génomes). La carte MoDM montre que les clusters se chevauchent, mais le classificateur SVM quadratique qui classifie quantitativement ces génomes a une précision de 99%. En effet, la matrice de confusion de la figure 5b montre que le SVM quadratique ne classe mal que 8 séquences sur 781 (rappelons que, pour m clusters, la matrice de confusion m×m a ses lignes étiquetées par les vraies classes et ses colonnes étiquetées par les classes prédites ; la cellule (i,j) montre le nombre de séquences qui appartiennent à la vraie classe i, et ont été prédites comme étant de la classe j). Cela indique que lorsque la représentation visuelle dans une MoDMap montre des chevauchements de clusters, cela peut être uniquement dû à la réduction de la dimensionnalité à trois dimensions, alors que ML-DSP fournit en fait une bien meilleure classification quantitative basée sur la même matrice de distance.
Applications à d’autres ensembles de données génomiques
Les deux expériences de cette section indiquent que l’applicabilité de notre méthode ne se limite pas aux séquences d’ADN mitochondrial. La première expérience, Fig. 6a, montre la MoDMap de toutes les 4721 séquences complètes du virus de la dengue disponibles dans le NCBI le 10 août 2017, classées dans les sous-types DENV-1 (2008 génomes), DENV-2 (1349 génomes), DENV-3 (1010 génomes), DENV-4 (354 génomes). La longueur moyenne de ces génomes viraux complets est de 10 595 pb. Bien que les génomes viraux de la dengue soient très similaires, la précision de la classification de cet ensemble de données en sous-types, en utilisant le classificateur SVM quadratique, était de 100%. La deuxième expérience, Fig. 6b, montre la carte MoDM de 4710 génomes bactériens, classés en trois phyla : Spirochaetes (437 génomes), Firmicutes (1129 génomes), et Proteobacteria (3144 génomes). La longueur moyenne de ces génomes bactériens complets est de 104 150 pb, la longueur maximale étant de 499 136 pb et la longueur minimale de 20 019 pb. La précision de classification du classificateur SVM quadratique pour cet ensemble de données était de 95,5%.
Comparaison de ML-DSP avec des outils de pointe basés sur l’alignement et sans alignement
Les expériences de calcul dans cette section comparent ML-DSP avec trois méthodes de pointe basées sur l’alignement et sans alignement : l’outil basé sur l’alignement MEGA7 avec alignement utilisant MUSCLE et CLUSTALW , et la méthode sans alignement FFP (Feature Frequency Profiles) .
Pour cette analyse de performance, nous avons sélectionné trois jeux de données. Les deux premiers jeux de données sont des jeux de données de référence utilisés dans d’autres études de comparaison de séquences génétiques : Le premier jeu de données comprend 38 génomes viraux de la grippe, et le second jeu de données comprend 41 séquences complètes d’ADNmt de mammifères. Le troisième ensemble de données, de notre choix, est beaucoup plus grand, composé de 4 322 séquences complètes d’ADNmt de vertébrés, et a été sélectionné pour comparer l’évolutivité.
Pour les méthodes basées sur l’alignement, nous avons utilisé la matrice de distance calculée dans MEGA7 à partir des séquences alignées avec MUSCLE ou CLUSTALW. Pour la FFP sans alignement, nous avons utilisé la valeur par défaut de k=5 pour les k-mers (un k-mer est toute séquence d’ADN de longueur k ; toute augmentation de la valeur du paramètre k, pour le premier ensemble de données, a entraîné un score de précision de classification plus faible pour la FFP). Pour ML-DSP, nous avons choisi la représentation numérique Integer et calculé la précision de classification moyenne sur les six classificateurs pour les deux premiers ensembles de données, et sur tous les classificateurs sauf Subspace Discriminant et Subspace KNN pour le troisième ensemble de données.
Le tableau 5 montre la comparaison des performances (précision de classification et temps de traitement) de ces quatre méthodes. Le temps de traitement comprenait tous les calculs, depuis la lecture des jeux de données jusqu’à l’achèvement de la matrice de distance – l’élément commun aux quatre méthodes. Les temps de traitement indiqués ne comprennent pas le temps nécessaire au calcul des arbres phylogénétiques, aux visualisations MoDMap ou à la classification.
Comme on le voit dans le tableau 5 (colonnes 3, 4 et 6), ML-DSP surpasse de manière écrasante le logiciel basé sur l’alignement MEGA7(MUSCLE/CLUSTALW) en termes de temps de traitement. En termes de précision, pour les petits ensembles de données de référence sur les virus et les mammifères, les précisions moyennes de ML-DSP et de MEGA7(MUSCLE/CLUSTALW) étaient comparables, probablement en raison de la petite taille de l’ensemble d’apprentissage de ML-DSP. L’avantage de ML-DSP sur les outils basés sur l’alignement est devenu plus évident pour le plus grand ensemble de données sur les vertébrés, où les précisions de ML-DSP et des outils basés sur l’alignement ne pouvaient même pas être comparées, car les outils basés sur l’alignement étaient si lents qu’ils ont dû être interrompus. En revanche, ML-DSP a classé l’ensemble des 4322 génomes d’ADNmt de vertébrés en 28 s, avec une précision moyenne de classification de 98,3%. Cela indique que ML-DSP est significativement plus évolutif que le MEGA7(MUSCLE/CLUSTALW) basé sur l’alignement, car il peut classer rapidement et avec précision des ensembles de données que les outils basés sur l’alignement ne peuvent même pas traiter.
Comme on le voit dans le tableau 5 (colonnes 5 et 6), ML-DSP surpasse significativement le logiciel FFP sans alignement en termes de précision (précision de classification moyenne 98.3% pour ML-DSP contre 48,3% pour FFP, pour le grand ensemble de données de vertébrés), tout en étant globalement plus rapide.
Cette comparaison indique également que, pour ces ensembles de données, les deux méthodes sans alignement (ML-DSP et FFP) ont un avantage écrasant sur les méthodes basées sur l’alignement (MEGA7 (MUSCLE/CLUSTALW)) en termes de temps de traitement. De plus, en comparant les deux méthodes sans alignement entre elles, ML-DSP surpasse significativement FFP en termes de précision de classification.
Pour un autre angle de comparaison, la figure 7 affiche les MoDMaps du premier jeu de données de référence (38 génomes du virus de la grippe) produites à partir des matrices de distance générées par FFP, MEGA7 (MUSCLE), MEGA7 (CLUSTALW) et ML-DSP respectivement. La figure 7a montre qu’avec FFP, il est difficile d’observer une séparation visuelle de l’ensemble de données en groupes de sous-types. La figure 7b, MEGA7 (MUSCLE), et la figure 7c MEGA7 (CLUSTALW) montrent des chevauchements des clusters de points représentant les sous-types H1N1 et H2N2. En revanche, la figure 7d, qui visualise la matrice de distance produite par ML-DSP, montre une séparation nette entre tous les sous-types.
Enfin, les Figs. 8 et 9 présentent les arbres phylogénétiques générés par chacune des quatre méthodes considérées. La figure 8a, l’arbre généré par FFP, présente de nombreux génomes mal classés, ce qui était attendu étant donné la visualisation MoDMap de sa matrice de distance dans la figure 7a. La figure 9a affiche l’arbre phylogénétique généré par MEGA7, qui était le même pour MUSCLE et CLUSTALW : il ne comporte qu’un seul génome H5N1 mal classé, placé au milieu des génomes H1N1. Les figures 8b et 9b présentent l’arbre phylogénétique généré à l’aide de la distance produite par ML-DSP (présenté deux fois, en parallèle avec les autres arbres, pour faciliter la comparaison). ML-DSP a classé tous les génomes correctement.
Discussion
L’efficacité de calcul de ML-DSP est due au fait qu’elle est sans alignement (elle n’a donc pas besoin d’alignement de séquences multiples), tandis que la combinaison de représentations numériques 1D, de la transformée de Fourier discrète et du coefficient de corrélation de Pearson la rend extrêmement efficace en termes de temps de calcul, et donc évolutive.
ML-DSP n’est pas sans limites. Nous prévoyons que la nécessité de séquences de longueur égale et l’utilisation de la normalisation de la longueur pourraient introduire des problèmes avec l’examen de petits fragments de séquences de génomes plus grands. Habituellement, les génomes varient en longueur et donc la normalisation de la longueur entraîne toujours l’ajout (échantillonnage vers le haut) ou la perte (échantillonnage vers le bas) de certaines informations. Bien que le coefficient de corrélation de Pearson puisse distinguer les modèles de signaux même dans les petits fragments de séquence, et que nous n’ayons pas trouvé d’inconvénient considérable en considérant les génomes complets d’ADN mitochondrial avec leurs inévitables variations de longueur, la normalisation de la longueur peut poser des problèmes lorsque nous traitons les fragments de génomes, et les séquences de génome nucléaire beaucoup plus grandes.
Enfin, ML-DSP présente deux inconvénients, inhérents à tout algorithme d’apprentissage automatique supervisé. Le premier est que ML-DSP est une méthode de boîte noire qui, tout en produisant une prédiction de classification très précise, n’offre pas d’explication (biologique) pour sa sortie. La seconde est qu’elle repose sur l’existence d’un ensemble d’apprentissage dont elle tire ses « connaissances », c’est-à-dire un ensemble constitué de séquences génomiques connues et de leurs étiquettes taxonomiques. ML-DSP utilise un tel ensemble d’entraînement pour « apprendre » à classer de nouvelles séquences dans l’une des classes taxonomiques sur lesquelles il a été formé, mais il n’est pas capable de l’affecter à un taxon auquel il n’a pas été exposé.