Formulaire BLAST
Tous les formulaires BLAST génériques liés à la page d’accueil partagent désormais un design commun. Seules les options correspondant au type de programme et à l’algorithme sélectionnés apparaissent sur chaque formulaire.
La section Enter Query Sequence en haut du formulaire (figure 1) offre un endroit où saisir une ou plusieurs séquences de requête, soit par numéro d’accession ou de gi, soit comme séquence IUPAC au format FASTA. Les caractères IUPAC supportés sont documentés dans l’aide BLAST à http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Les cases optionnelles Query Subrange limitent la recherche à une sous-plage de la séquence d’interrogation. Comme alternative au copier/coller de la séquence dans une zone de texte, vous pouvez également télécharger la ou les séquences de requête à partir d’un fichier disque local.
Le nouveau titre du travail est le nom du travail qui apparaît dans Stratégies sauvegardées et Résultats récents, ainsi qu’en haut de chaque rapport BLAST. Le titre apparaît également dans la barre de titre de la fenêtre ou de l’onglet du navigateur pour le rapport, et comme titre par défaut de tout signet vers le rapport. Le titre par défaut d’un travail est la ligne de définition de la séquence de requête (en FASTA, la ligne commençant par ‘>’), mais vous pouvez taper par-dessus le titre par défaut pour étiqueter le travail comme vous le souhaitez. Lorsque la séquence d’entrée est un numéro d’accession ou de gi, l’interface web BLAST recherche automatiquement la ligne de définition dans GenBank sans recharger la page. Si plusieurs séquences sont présentes, un titre descriptif approprié est généré (par exemple, ‘5 séquences nucléotidiques’).
La section Choose Search Set du formulaire BLAST sélectionne la base de données BLAST à rechercher et applique des critères limitatifs, comme l’organisme ou la requête Entrez. Les recherches peuvent être limitées à un organisme spécifique (espèce ou groupe taxonomique) en tapant le nom scientifique, le nom commun ou le taxid (l’identifiant entier du taxon dans la base de données taxonomique du NCBI). Lorsque l’utilisateur tape le nom de l’organisme, la zone de saisie Organisme lui propose une liste déroulante de compléments potentiels (Figure 3.) À tout moment, l’utilisateur peut appuyer sur la touche flèche vers le bas pour faire défiler la liste des choix, et/ou appuyer sur la touche Retour pour choisir le taxon sélectionné. La liste est limitée à 20 éléments et est triée dans l’ordre inverse de la fréquence d’apparition de chaque taxon dans GenBank, ce qui place les organismes les plus fréquemment étudiés en tête de liste. Cette fonction de » complétion automatique » permet à la fois d’aider les utilisateurs à savoir quels noms d’organismes sont disponibles et d’éviter les erreurs d’orthographe et de frappe.
Les compléments potentiels des noms d’organismes sont suggérés au fur et à mesure que l’utilisateur tape. Les 20 premières correspondances à la requête de l’utilisateur sont présentées, les correspondances n’importe où dans l’organisme correspondant étant autorisées (par exemple, plat trouve » ornithorynque à bec de canard » même si » plat » n’est pas au début du texte cible). Voir le texte pour plus de détails.
Les limites et autres valeurs spécifiées sur chaque formulaire BLAST restent en vigueur pour la durée de la session du navigateur, ou jusqu’à ce qu’elles soient réinitialisées par l’utilisateur. Si l’utilisateur se connecte à My NCBI, elles restent en vigueur d’une session de navigateur à l’autre.
Le formulaire BLAST sur les nucléotides comporte des options de jeu de recherche supplémentaires. La section Base de données de nucléotides fournit trois choix courants : Génomique humaine + transcription, Génomique de la souris + transcription et Autre. Les bases de données génomique + transcription contiennent uniquement des séquences de référence NCBI. Elles contiennent à la fois des séquences génomiques et des ARNm pour l’organisme, de sorte que les deux types de séquences apparaissent sur le rapport résultant. Other contient les bases de données disponibles précédemment dans une liste déroulante. Si l’utilisateur sélectionne une base de données dans cette liste, Other est choisi automatiquement.
Les bases de données génomique + transcription facilitent la recherche de séquences humaines et de souris, et elles affichent automatiquement les alignements de transcription sur le génome. Les ensembles de données sur l’homme et la souris utilisent un nouvel algorithme de recherche indexée rapide qui diminue le temps de réalisation d’une recherche typique par un facteur de quatre (Morgulis,A. et al., manuscrit en préparation). Les recherches pour des organismes autres que l’homme ou la souris nécessitent simplement la sélection d’une autre base de données et d’une limite d’organismes optionnelle. Dans une session de navigateur, chaque formulaire BLAST sélectionne automatiquement la base de données que l’utilisateur a choisie en dernier, de sorte qu’une base de données alternative ne doit être choisie qu’une seule fois.
La section Sélection du programme du formulaire BLAST sélectionne l’algorithme utilisé pour la recherche et l’alignement. Pour les recherches de nucléotides, les choix sont megablast (par défaut), discontiguous megablast et blastn. Pour les recherches de protéines, les options sont blastp (par défaut), PSI-BLAST et PHI-BLAST. Le lien d’aide de cette section mène au guide de sélection du programme BLAST, qui décrit les algorithmes et les critères de choix entre eux.
À ce stade du formulaire, la plupart des utilisateurs appuieront simplement sur le bouton BLAST pour lancer une nouvelle recherche. Auparavant, BLAST ouvrait les résultats dans une nouvelle fenêtre par défaut, ce que de nombreux utilisateurs trouvaient ennuyeux et désorientant. Le nouveau comportement par défaut est que les résultats apparaissent dans la même fenêtre que le formulaire (remplaçant ainsi le formulaire). L’utilisateur peut demander les résultats dans une nouvelle fenêtre en cochant la case à côté du bouton BLAST.
Les paramètres détaillés pour régler le programme choisi restent sur le formulaire, mais ils sont maintenant regroupés sous un lien intitulé Algorithm Parameters, car seule une infime partie des utilisateurs les utilise jamais. En cliquant sur le lien, on fait apparaître les contrôles des paramètres. Bien entendu, une fois le lien cliqué, les paramètres restent visibles pour le reste de la session du navigateur. Ces paramètres changent en fonction de l’algorithme sélectionné.
Sur le formulaire nucléotide, les algorithmes disponibles sont megablast, discontiguous megablast et blastn. Le choix de megablast sélectionne une grande taille de mot (actuellement 28) et optimise la récompense et la pénalité (1 et -2) pour des alignements d’environ 95% d’identité (3). Discontigué megablast et blastn ont des paramètres plus adaptés aux comparaisons inter-espèces, avec une taille de mot plus petite (11) et une récompense et une pénalité (2, -3) qui optimisent pour des alignements d’environ 85% d’identité (3).
Sur le formulaire des protéines, les choix disponibles sont blastp, PSI-BLAST et PHI-BLAST. Choisir PSI-BLAST au lieu de blastp affiche plus de séquences cibles, et permet à l’utilisateur de sélectionner des séquences pour construire le PSSM pour la prochaine itération PSI-BLAST. Ces deux cas utilisent des « ajustements conditionnels de la matrice de score de composition » (4). PHI-BLAST ne prend pas en charge les ajustements de composition, l’option disparaît donc si PHI-BLAST est sélectionné.
Une nouvelle fonctionnalité avancée a été ajoutée : BLAST détecte désormais les séquences d’entrée courtes pour les formes de recherche nucléotides et protéines, et ajuste les paramètres pour améliorer les chances de trouver des correspondances pertinentes. Pour les séquences courtes (jusqu’à 30 résidus pour les protéines, 50 bases pour les nucléotides), BLAST diminue désormais automatiquement la taille des mots (jusqu’à sept pour les nucléotides, deux pour les protéines), augmente la valeur attendue (jusqu’à 1000) et désactive le filtrage à faible complexité. En outre, les protéines utilisent la matrice de notation PAM30 pour les séquences courtes, comme suggéré par Altschul (5). Cette fonctionnalité peut être désactivée dans la section Paramètres de l’algorithme du formulaire.