Modulo BLAST
Tutti i moduli BLAST generici collegati dalla home page hanno ora un design comune. Solo le opzioni corrispondenti al tipo di programma e all’algoritmo selezionato appaiono su ogni modulo.
La sezione Enter Query Sequence in cima al modulo (Figura 1) fornisce un posto per inserire una o più sequenze di ricerca, sia per numero di adesione o gi, o come sequenza IUPAC in formato FASTA. I caratteri IUPAC supportati sono documentati nella guida di BLAST a http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Le caselle opzionali Query Subrange limitano la ricerca a un sottogruppo della sequenza di query. Come alternativa al taglia/incolla della sequenza in una casella di testo, puoi anche caricare la sequenza della query da un file su disco locale.
Il nuovo Job Title è il nome del lavoro che appare in Saved Strategies e Recent Results, così come nella parte superiore di ogni rapporto BLAST. Il titolo appare anche nella barra del titolo della finestra del browser o della scheda del report, e come titolo predefinito di ogni segnalibro del report. Il titolo di default per un lavoro è la linea di definizione della sequenza della query (in FASTA, la linea che inizia con ‘>’), ma puoi digitare sopra il titolo di default per etichettare il lavoro in qualsiasi modo tu voglia. Quando la sequenza di input è un numero di accession o gi, l’interfaccia web BLAST cerca automaticamente la linea di definizione in GenBank senza ricaricare la pagina. Se sono presenti più sequenze, viene generato un titolo descrittivo appropriato (ad esempio ‘5 sequenze nucleotidiche’).
La sezione Choose Search Set del modulo BLAST seleziona il database BLAST da cercare e applica criteri limitativi, come l’organismo o la query Entrez. Le ricerche possono essere limitate a un organismo specifico (specie o gruppo tassonomico) digitando il nome scientifico, il nome comune o il taxid (l’id intero del taxon nel database NCBI Taxonomy). Mentre l’utente digita il nome dell’organismo, la casella di inserimento dell’organismo richiede all’utente un elenco a discesa di potenziali completamenti (Figura 3.) In qualsiasi momento, l’utente può premere il tasto freccia giù per scorrere l’elenco delle scelte, e/o premere il tasto Return per scegliere il taxon selezionato. La lista è limitata a 20 elementi, ed è ordinata in ordine inverso a quanto spesso ogni taxon appare in GenBank, mettendo gli organismi più comunemente studiati in cima alla lista. Questa funzione di ‘autocompletamento’ aiuta gli utenti a sapere quali nomi di organismi sono disponibili, e previene gli errori di ortografia e di digitazione.
I potenziali completamenti per i nomi degli organismi sono suggeriti dall’utente mentre scrive. Vengono presentate le prime 20 corrispondenze con la richiesta dell’utente, con corrispondenze in qualsiasi punto dell’organismo corrispondente consentite (ad esempio plat trova ‘duck billed platypus’ anche se ‘plat’ non è all’inizio del testo di destinazione). Vedi il testo per i dettagli.
I limiti e gli altri valori specificati in ogni modulo BLAST rimangono in vigore per la durata della sessione del browser, o finché non vengono reimpostati dall’utente. Se l’utente accede a My NCBI, rimangono in vigore per tutte le sessioni del browser.
Il modulo nucleotide BLAST ha ulteriori opzioni di ricerca. La sezione nucleotide Database fornisce tre scelte comuni: Genomica umana + trascrizione, Genomica di topo + trascrizione e Altro. I database genomico + trascrizione contengono solo sequenze di riferimento NCBI. Contengono sia sequenze genomiche che mRNA per l’organismo, quindi entrambi i tipi di sequenza appaiono nel rapporto risultante. Other contiene i database disponibili in precedenza in un elenco a discesa. Se l’utente seleziona un database da quella lista, Other viene scelto automaticamente.
I database genomico + trascrizione rendono più facile la ricerca di sequenze umane e di topi, e mostrano automaticamente gli allineamenti di trascrizione al genoma. I set di dati umani e del topo usano un nuovo algoritmo di ricerca veloce indicizzato che diminuisce il tempo di completamento di una tipica ricerca di un fattore quattro (Morgulis, A. et al., manoscritto in preparazione). Le ricerche per organismi diversi dall’uomo o dal topo richiedono semplicemente la selezione di un database alternativo e un limite opzionale di Organismo. All’interno di una sessione del browser, ogni modulo BLAST seleziona automaticamente l’ultimo database scelto dall’utente, quindi un database alternativo deve essere scelto solo una volta.
La sezione Program Selection del modulo BLAST seleziona l’algoritmo usato per la ricerca e l’allineamento. Per le ricerche nucleotidiche, le scelte sono megablast (default), discontiguous megablast e blastn. Per le ricerche sulle proteine, le opzioni sono blastp (predefinito), PSI-BLAST e PHI-BLAST. Il link di aiuto per questa sezione porta alla guida alla selezione del programma BLAST, che descrive gli algoritmi e i criteri di scelta tra essi.
A questo punto del modulo, la maggior parte degli utenti premerà semplicemente il pulsante BLAST per iniziare una nuova ricerca. BLAST in precedenza apriva i risultati in una nuova finestra per default, cosa che molti utenti trovavano fastidiosa e disorientante. Il nuovo comportamento di default è che i risultati appaiano nella stessa finestra del modulo (sostituendo così il modulo). L’utente può richiedere i risultati in una nuova finestra selezionando la casella di controllo accanto al pulsante BLAST.
I parametri dettagliati per la messa a punto del programma scelto rimangono sul modulo, ma sono ora racchiusi sotto un link intitolato Parametri algoritmo, poiché solo una piccola parte degli utenti li usa. Facendo clic sul link si rivelano i controlli dei parametri. Naturalmente, una volta cliccato il link, i parametri rimangono visibili per il resto della sessione del browser. Questi parametri cambiano a seconda dell’algoritmo selezionato.
Sul modulo nucleotide gli algoritmi disponibili sono megablast, discontiguous megablast e blastn. Scegliendo megablast si seleziona una grande dimensione di parola (attualmente 28) e si ottimizza la ricompensa e la penalità (1 e -2) per allineamenti di circa il 95% di identità (3). Discontiguous megablast e blastn hanno parametri più adatti a confronti interspecie, con una dimensione di parola più piccola (11) e premi e penalità (2, -3) che ottimizzano per allineamenti di circa l’85% di identità (3).
Sul modulo delle proteine le scelte disponibili sono blastp, PSI-BLAST e PHI-BLAST. Scegliendo PSI-BLAST invece di blastp si visualizzano più sequenze target e si permette all’utente di selezionare le sequenze per costruire il PSSM per la prossima iterazione PSI-BLAST. Entrambi questi casi usano “aggiustamenti condizionali della matrice di punteggio compositivo” (4). PHI-BLAST non supporta gli aggiustamenti compositivi, quindi l’opzione scompare se viene selezionato PHI-BLAST.
È stata aggiunta una nuova caratteristica avanzata: BLAST ora rileva sequenze brevi in ingresso per le forme di ricerca nucleotidica e proteica, e regola i parametri per migliorare la possibilità di trovare corrispondenze rilevanti. Per le sequenze brevi (fino a 30 residui per le proteine, 50 basi per i nucleotidi), BLAST ora diminuisce automaticamente la dimensione delle parole (a sette per i nucleotidi, due per le proteine), aumenta il valore expect (a 1000), e disattiva il filtraggio a bassa complessità. Inoltre, le proteine usano la matrice di punteggio PAM30 per le sequenze brevi come suggerito da Altschul (5). Questa caratteristica può essere disattivata nella sezione Algorithm Parameters del modulo.