Formulario BLAST
Todos los formularios genéricos de BLAST enlazados desde la página de inicio comparten ahora un diseño común. En cada formulario sólo aparecen las opciones correspondientes al tipo de programa y al algoritmo seleccionados.
La sección Enter Query Sequence (Introducir Secuencia de Consulta) en la parte superior del formulario (Figura 1) proporciona un lugar para introducir una o más secuencias de consulta, ya sea por número de accesión o gi, o como secuencia IUPAC en formato FASTA. Los caracteres IUPAC soportados están documentados en la ayuda de BLAST en http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Las casillas opcionales Query Subrange limitan la búsqueda a un subrango de la secuencia de consulta. Como alternativa a cortar/pegar la secuencia en un cuadro de texto, también puede cargar la(s) secuencia(s) de consulta desde un archivo de disco local.
El nuevo Título del Trabajo es el nombre del trabajo que aparece en Estrategias Guardadas y Resultados Recientes, así como en la parte superior de cada informe BLAST. El título también aparece en la barra de título de la ventana o pestaña del navegador para el informe, y como el título por defecto de cualquier marcador del informe. El título por defecto de un trabajo es la línea de definición de la secuencia de consulta (en FASTA, la línea que comienza con ‘>’), pero puede escribir sobre el título por defecto para etiquetar el trabajo de la forma que desee. Cuando la secuencia de entrada es un número de acceso o gi, la interfaz web de BLAST busca automáticamente la línea de definición en GenBank sin recargar la página. Si hay varias secuencias, se genera un título descriptivo apropiado (por ejemplo, «5 secuencias de nucleótidos»).
La sección Choose Search Set del formulario BLAST selecciona la base de datos BLAST en la que se va a buscar y aplica criterios de limitación, como organismo o consulta Entrez. Las búsquedas pueden limitarse a un organismo específico (especie o grupo taxonómico) escribiendo el nombre científico, el nombre común o el taxid (el identificador entero del taxón en la base de datos de la taxonomía del NCBI). A medida que el usuario teclea el nombre del organismo, el cuadro de entrada del organismo le pide al usuario una lista desplegable de posibles complementos (Figura 3.) En cualquier momento, el usuario puede pulsar la tecla de la flecha hacia abajo para desplazarse por la lista de opciones, y/o pulsar la tecla Return para elegir el taxón seleccionado. La lista está limitada a 20 elementos y se ordena en orden inverso a la frecuencia con la que cada taxón aparece en el GenBank, colocando los organismos más estudiados al principio de la lista. Esta función de «autocompletar» ayuda a los usuarios a saber qué nombres de organismos están disponibles y evita los errores ortográficos y de escritura.
Las posibles terminaciones de los nombres de los organismos se sugieren a medida que el usuario escribe. Se presentan las 20 primeras coincidencias con la consulta del usuario, permitiéndose las coincidencias en cualquier parte del organismo coincidente (por ejemplo, plat encuentra «ornitorrinco» aunque «plat» no esté al principio del texto de destino). Véase el texto para más detalles.
Los límites y otros valores especificados en cada formulario BLAST permanecen en vigor mientras dure la sesión del navegador, o hasta que el usuario los restablezca. Si el usuario se registra en My NCBI, permanecen en efecto a través de las sesiones del navegador.
El formulario de BLAST de nucleótidos tiene opciones adicionales de conjuntos de búsqueda. La sección de la base de datos de nucleótidos ofrece tres opciones comunes: Genómica humana + transcripción, Genómica de ratón + transcripción y Otros. Las bases de datos genómica + transcripción contienen sólo secuencias de referencia del NCBI. Contienen tanto secuencias genómicas como ARNm para el organismo, por lo que ambos tipos de secuencias aparecen en el informe resultante. Otras contiene las bases de datos disponibles anteriormente en una lista desplegable. Si el usuario selecciona una base de datos de esa lista, se elige automáticamente Otra.
Las bases de datos genómicas + de transcripción facilitan la búsqueda de secuencias humanas y de ratón, y muestran automáticamente las alineaciones de transcripción con el genoma. Los conjuntos de datos de humanos y ratones utilizan un nuevo algoritmo de búsqueda indexada rápida que reduce el tiempo de finalización de una búsqueda típica en un factor de cuatro (Morgulis,A. et al., manuscrito en preparación). Las búsquedas de organismos distintos de los humanos o los ratones requieren simplemente la selección de una base de datos alternativa y un límite de organismo opcional. Dentro de una sesión de navegación, cada formulario BLAST selecciona automáticamente la base de datos que el usuario eligió por última vez, por lo que una base de datos alternativa debe ser elegida sólo una vez.
La sección de Selección de Programa del formulario BLAST selecciona el algoritmo utilizado para la búsqueda y la alineación. Para las búsquedas de nucleótidos, las opciones son megablast (por defecto), megablast discontinuo y blastn. Para las búsquedas de proteínas, las opciones son blastp (por defecto), PSI-BLAST y PHI-BLAST. El enlace de ayuda de esta sección lleva a la guía de selección del programa BLAST, que describe los algoritmos y los criterios para elegir entre ellos.
En este punto del formulario, la mayoría de los usuarios simplemente pulsarán el botón BLAST para iniciar una nueva búsqueda. Anteriormente, BLAST abría los resultados en una nueva ventana por defecto, lo que muchos usuarios encontraban molesto y desorientador. El nuevo comportamiento por defecto es que los resultados aparezcan en la misma ventana que el formulario (sustituyendo así al formulario). El usuario puede solicitar los resultados en una nueva ventana marcando la casilla de verificación junto al botón BLAST.
Los parámetros detallados para afinar el programa elegido permanecen en el formulario, pero ahora están colapsados bajo un enlace titulado Parámetros del Algoritmo, ya que sólo una pequeña fracción de usuarios los utiliza. Al hacer clic en el enlace se muestran los controles de los parámetros. Por supuesto, una vez que se hace clic en el enlace, los parámetros permanecen visibles durante el resto de la sesión del navegador. Estos parámetros cambian dependiendo del algoritmo seleccionado.
En el formulario de nucleótidos los algoritmos disponibles son megablast, megablast discontinuo y blastn. La elección de megablast selecciona un tamaño de palabra grande (actualmente 28) y optimiza la recompensa y la penalización (1 y -2) para alineaciones de aproximadamente el 95% de identidad (3). Discontiguous megablast y blastn tienen parámetros más adecuados para comparaciones entre especies, con un tamaño de palabra más pequeño (11) y recompensa y penalización (2, -3) que optimizan para alineaciones de alrededor del 85% de identidad (3).
En el formulario de proteínas las opciones disponibles son blastp, PSI-BLAST y PHI-BLAST. La elección de PSI-BLAST en lugar de blastp muestra más secuencias objetivo, y permite al usuario seleccionar secuencias para construir el PSSM para la siguiente iteración de PSI-BLAST. En ambos casos se utilizan «ajustes condicionales de la matriz de puntuación composicional» (4). PHI-BLAST no admite ajustes composicionales, por lo que la opción desaparece si se selecciona PHI-BLAST.
Se ha añadido una nueva característica avanzada: BLAST detecta ahora secuencias de entrada cortas para las formas de búsqueda de nucleótidos y proteínas, y ajusta los parámetros para mejorar la posibilidad de encontrar coincidencias relevantes. Para las secuencias cortas (hasta 30 residuos para las proteínas, 50 bases para los nucleótidos), BLAST disminuye ahora automáticamente el tamaño de las palabras (a siete para los nucleótidos, a dos para las proteínas), aumenta el valor esperado (a 1000) y desactiva el filtrado de baja complejidad. Además, las proteínas utilizan la matriz de puntuación PAM30 para las secuencias cortas, como sugiere Altschul (5). Esta característica puede ser desactivada en la sección de Parámetros del Algoritmo del formulario.