Formular BLAST
Toate formularele BLAST generice legate de pagina principală au acum un design comun. Pe fiecare formular apar doar opțiunile corespunzătoare tipului de program și algoritm selectat.
Secțiunea Enter Query Sequence din partea de sus a formularului (figura 1) oferă un loc pentru a introduce una sau mai multe secvențe de interogare, fie prin numărul de acces sau gi, fie ca secvență IUPAC în format FASTA. Caracterele IUPAC acceptate sunt documentate în ajutorul BLAST la http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Casetele opționale „Query Subrange” limitează căutarea la o subgamă a secvenței de interogare. Ca o alternativă la tăierea/lipirea secvenței într-o casetă de text, puteți, de asemenea, să încărcați secvența (secvențele) de interogare dintr-un fișier de pe discul local.
Noul Job Title (Titlul postului) este numele postului care apare în Saved Strategies (Strategii salvate) și Recent Results (Rezultate recente), precum și în partea de sus a fiecărui raport BLAST. Titlul apare, de asemenea, în bara de titlu a ferestrei sau a filei din browser pentru raport și ca titlu implicit al oricărui marcaj către raport. Titlul implicit pentru o lucrare este linia de definire a secvenței de interogare (în FASTA, linia care începe cu „>”), dar puteți tasta peste titlul implicit pentru a eticheta lucrarea în orice mod doriți. Atunci când secvența de intrare este un număr de acces sau gi, interfața web BLAST caută automat linia de definire în GenBank fără a reîncărca pagina. În cazul în care sunt prezente mai multe secvențe, se generează un titlu descriptiv corespunzător (de exemplu, „5 nucleotide sequences”).
Secțiunea Choose Search Set (Alege setul de căutare) a formularului BLAST selectează baza de date BLAST care urmează să fie căutată și aplică criterii de limitare, cum ar fi organismul sau interogarea Entrez. Căutările pot fi limitate la un anumit organism (specie sau grup taxonomic) prin tastarea denumirii științifice, a denumirii comune sau a taxidului (ID-ul întreg pentru taxon în baza de date NCBI Taxonomy). Pe măsură ce utilizatorul tastează numele organismului, căsuța de intrare Organism (Organism entry box) îl invită pe utilizator cu o listă derulantă de potențiale completări (Figura 3.) În orice moment, utilizatorul poate apăsa tasta săgeată în jos pentru a parcurge lista de opțiuni și/sau poate apăsa tasta Return pentru a alege taxonul selectat. Lista este limitată la 20 de elemente și este sortată în ordinea inversă a frecvenței cu care fiecare taxon apare în GenBank, plasând organismele studiate mai frecvent în partea de sus a listei. Această funcție de „autocompletare” îi ajută pe utilizatori atât să știe ce nume de organisme sunt disponibile, cât și să prevină erorile de ortografie și de tastare.
Potențialele completări pentru numele organismelor sunt sugerate pe măsură ce utilizatorul tastează. Sunt prezentate primele 20 de potriviri la interogarea utilizatorului, fiind permise potriviri oriunde în organismul corespondent (de exemplu, plat găsește „duck billed platypus” chiar dacă „plat” nu se află la începutul textului țintă). A se vedea textul pentru detalii.
Limitele și alte valori specificate în fiecare formular BLAST rămân în vigoare pe toată durata sesiunii de navigare sau până când sunt resetate de către utilizator. Dacă utilizatorul se conectează la My NCBI, acestea rămân în vigoare de-a lungul sesiunilor de navigare.
Formularul BLAST pentru nucleotide are opțiuni suplimentare pentru setul de căutare. Secțiunea Nucleotide Database (Baza de date nucleotide) oferă trei opțiuni comune: Human genomic + transcript, Mouse genomic + transcript și Other. Bazele de date genomic + transcript conțin numai secvențe de referință NCBI. Acestea conțin atât secvențe genomice, cât și ARNm pentru organism, astfel încât ambele tipuri de secvențe apar în raportul rezultat. Other (Altele) conține bazele de date disponibile anterior într-o listă derulantă. Dacă utilizatorul selectează o bază de date din acea listă, Other este aleasă automat.
Bazele de date genomice + transcript facilitează căutarea secvențelor umane și de șoareci și afișează automat alinierile transcrierilor la genom. Seturile de date umane și de șoareci utilizează un nou algoritm de căutare indexată rapidă care scade timpul de finalizare a unei căutări tipice de patru ori (Morgulis,A. et al., manuscris în pregătire). Căutările pentru alte organisme decât omul sau șoarecele necesită doar selectarea unei baze de date alternative și a unei limite opționale de organisme. În cadrul unei sesiuni de navigare, fiecare formular BLAST selectează automat baza de date pe care utilizatorul a ales-o ultima dată, astfel încât o bază de date alternativă trebuie aleasă doar o singură dată.
Secțiunea Program Selection a formularului BLAST selectează algoritmul utilizat pentru căutare și aliniere. Pentru căutările de nucleotide, opțiunile sunt megablast (implicită), discontiguous megablast și blastn. Pentru căutările de proteine, opțiunile sunt blastp (implicit), PSI-BLAST și PHI-BLAST. Legătura de ajutor pentru această secțiune duce la ghidul de selecție a programului BLAST, care descrie algoritmii și criteriile de alegere între aceștia.
În acest punct al formularului, majoritatea utilizatorilor vor apăsa pur și simplu butonul BLAST pentru a iniția o nouă căutare. Anterior, BLAST deschidea în mod implicit rezultatele într-o fereastră nouă, pe care mulți utilizatori o considerau enervantă și dezorientată. Noul comportament implicit este ca rezultatele să apară în aceeași fereastră cu formularul (înlocuind astfel formularul). Utilizatorul poate solicita rezultate într-o fereastră nouă prin bifarea căsuței de selectare de lângă butonul BLAST.
Parametrii detaliați pentru reglarea programului ales rămân în continuare în formular, dar acum sunt înglobați sub un link intitulat Algorithm Parameters (Parametrii algoritmului), deoarece doar o fracțiune infimă de utilizatori îi utilizează vreodată. Făcând clic pe acest link se dezvăluie controalele parametrilor. Desigur, odată ce se face clic pe link, parametrii rămân vizibili pentru tot restul sesiunii de navigare. Acești parametri se schimbă în funcție de algoritmul selectat.
Pe formularul nucleotidelor, algoritmii disponibili sunt megablast, discontiguous megablast și blastn. Alegerea megablast selectează o dimensiune mare a cuvintelor (în prezent 28) și optimizează recompensa și penalizarea (1 și -2) pentru alinieri cu o identitate de aproximativ 95% (3). Discontiguous megablast și blastn au parametri mai potriviți pentru comparații între specii, cu o dimensiune mai mică a cuvintelor (11) și recompensă și penalizare (2, -3) care optimizează pentru alinieri de aproximativ 85% identitate (3).
Pe formularul de proteine, alegerile disponibile sunt blastp, PSI-BLAST și PHI-BLAST. Alegerea PSI-BLAST în loc de blastp afișează mai multe secvențe țintă și permite utilizatorului să selecteze secvențe pentru a construi PSSM pentru următoarea iterație PSI-BLAST. În ambele cazuri se utilizează „ajustări condiționate ale matricei de scoruri compoziționale” (4). PHI-BLAST nu acceptă ajustări compoziționale, astfel încât opțiunea dispare dacă este selectat PHI-BLAST.
A fost adăugată o nouă funcție avansată: BLAST detectează acum secvențe scurte de intrare pentru formele de căutare a nucleotidelor și proteinelor și ajustează parametrii pentru a îmbunătăți șansele de a găsi corespondențe relevante. Pentru secvențe scurte (până la 30 de reziduuri pentru proteine, 50 de baze pentru nucleotide), BLAST scade acum automat dimensiunea cuvintelor (la șapte pentru nucleotide, două pentru proteine), crește valoarea așteptată (la 1000) și dezactivează filtrarea de complexitate redusă. În plus, proteinele utilizează matricea de scor PAM30 pentru secvențe scurte, așa cum a sugerat Altschul (5). Această caracteristică poate fi dezactivată în secțiunea Algorithm Parameters (Parametrii algoritmului) din formular.
.