BLAST-formular
Alle de generiske BLAST-formularer, der er linket fra hjemmesiden, har nu et fælles design. Kun de muligheder, der svarer til den valgte programtype og algoritme, vises på hver enkelt formular.
Den øverste del af formularen (figur 1) giver mulighed for at indtaste en eller flere forespørgselssekvenser, enten ved accession eller gi-nummer, eller som IUPAC-sekvens i FASTA-format. De understøttede IUPAC-tegn er dokumenteret i BLAST-hjælpen på http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. De valgfrie rubrikker Query Subrange begrænser søgningen til et delområde af forespørgselssekvensen. Som et alternativ til at klippe/indsætte sekvensen i en tekstboks kan du også uploade forespørgselssekvensen/sekvenserne fra en lokal diskfil.
Den nye jobtitel er det jobnavn, der vises i Saved Strategies og Recent Results samt øverst i hver BLAST-rapport. Titlen vises også i titellinjen i browservinduet eller fanebladet for rapporten og som standardtitel for ethvert bogmærke til rapporten. Standardtitlen for et job er forespørgselssekvensdefinitionslinjen (i FASTA, den linje, der begynder med “>”), men du kan skrive over standardtitlen for at mærke jobbet på en vilkårlig måde. Når inputsekvensen er et accessions- eller gi-nummer, slår BLAST-webgrænsefladen automatisk definitionslinjen op i GenBank uden at genindlæse siden. Hvis der er flere sekvenser til stede, genereres en passende beskrivende titel (f.eks. “5 nucleotide sequences”).
I afsnittet Choose Search Set i BLAST-formularen vælges den BLAST-database, der skal søges i, og der anvendes begrænsende kriterier, f.eks. organism eller Entrez-forespørgsel. Søgninger kan begrænses til en bestemt organisme (art eller taksonomisk gruppe) ved at indtaste det videnskabelige navn, det almindelige navn eller taxid (det hele tal-id for taxonet i NCBI Taxonomy-databasen). Når brugeren indtaster organismenavnet, vises i feltet Organism entry boxen en drop-down-liste med potentielle udfyldninger (figur 3.) Brugeren kan til enhver tid trykke på pil nedad for at rulle gennem listen med valgmuligheder og/eller trykke på Return for at vælge det valgte taxon. Listen er begrænset til 20 emner og er sorteret i omvendt rækkefølge efter, hvor ofte hvert taxon optræder i GenBank, hvilket betyder, at de mere almindeligt undersøgte organismer står øverst på listen. Denne “autocomplete”-funktion hjælper både brugerne med at vide, hvilke organismenavne der er tilgængelige, og forhindrer stave- og indtastningsfejl.
Potentielle suppleringer af organismenavne foreslås, efterhånden som brugeren skriver. De første 20 matches til brugerens forespørgsel præsenteres, idet matches overalt i den matchende organisme er tilladt (f.eks. finder plat “duck billed platypus”, selv om “plat” ikke står i begyndelsen af målteksten). Se teksten for nærmere oplysninger.
De grænser og andre værdier, der er angivet på hver BLAST-formular, forbliver i kraft, så længe browsersessionen varer, eller indtil de nulstilles af brugeren. Hvis brugeren logger ind på My NCBI, forbliver de i kraft på tværs af browsersessioner.
Nucleotide BLAST-formularen har yderligere indstillinger for søgesæt. I afsnittet Nucleotide Database findes tre almindelige valgmuligheder: Human genomic + transcript, Mouse genomic + transcript og Other. Databaserne genomic + transcript indeholder kun NCBI-referencesekvenser. De indeholder både genomiske sekvenser og mRNA’er for organismen, så begge sekvenstyper vises i den resulterende rapport. Other indeholder de tidligere tilgængelige databaser i en drop-down-liste. Hvis brugeren vælger en database fra denne liste, vælges Other automatisk.
Den genomiske + transkriptdatabaser gør det lettere at søge i menneske- og musesekvenser, og de viser automatisk transkriptudligninger til genomet. Menneske- og musedatasættene anvender en ny hurtig indekseret søgealgoritme, der reducerer tiden til færdiggørelse af en typisk søgning med en faktor fire (Morgulis,A. et al., manuskript under forberedelse). Søgninger efter andre organismer end mennesker og mus kræver blot, at man vælger en alternativ database og en valgfri Organisme-grænse. Inden for en browsersession vælger hver BLAST-formular automatisk den database, som brugeren sidst valgte, så en alternativ database skal kun vælges én gang.
Den del af BLAST-formularen, der vedrører programvalg, vælger den algoritme, der anvendes til søgning og tilpasning. For nucleotid-søgninger er valgmulighederne megablast (standard), discontiguous megablast og blastn. For proteinsøgninger er valgmulighederne blastp (standard), PSI-BLAST og PHI-BLAST. Hjælp-linket til dette afsnit fører til vejledningen til valg af BLAST-program, som beskriver algoritmerne og kriterierne for valg mellem dem.
På dette tidspunkt i formularen vil de fleste brugere blot trykke på BLAST-knappen for at starte en ny søgning. BLAST åbnede tidligere som standard resultaterne i et nyt vindue, hvilket mange brugere fandt irriterende og uoverskueligt. Den nye standardadfærd er, at resultaterne vises i det samme vindue som formularen (og dermed erstatter formularen). Brugeren kan anmode om resultater i et nyt vindue ved at markere afkrydsningsfeltet ved siden af BLAST-knappen.
Detaljerede parametre til justering af det valgte program forbliver på formularen, men de er nu sammenklappet under et link med titlen Algoritmeparametre, da kun en lille brøkdel af brugerne nogensinde bruger dem. Hvis man klikker på linket, vises parameterkontrollerne. Når der først er klikket på linket, forbliver parametrene naturligvis synlige i resten af browsersessionen. Disse parametre ændrer sig afhængigt af den valgte algoritme.
På nukleotidformularen er de tilgængelige algoritmer megablast, discontiguous megablast og blastn. Hvis man vælger megablast, vælges en stor ordstørrelse (i øjeblikket 28) og optimerer belønning og straf (1 og -2) for alignments med ca. 95 % identitet (3). Discontiguous megablast og blastn har parametre, der er mere velegnede til sammenligninger mellem arter, med en mindre ordstørrelse (11) og belønning og straf (2, -3), der optimerer for tilpasninger på ca. 85 % identitet (3).
På proteinformularen er de tilgængelige valg blastp, PSI-BLAST og PHI-BLAST. Hvis man vælger PSI-BLAST i stedet for blastp, vises flere målsekvenser og giver brugeren mulighed for at vælge sekvenser til opbygning af PSSM for den næste PSI-BLAST-iteration. I begge disse tilfælde anvendes “conditional compositional score matrix adjustments” (4). PHI-BLAST understøtter ikke kompositionsjusteringer, så indstillingen forsvinder, hvis PHI-BLAST vælges.
En ny avanceret funktion er blevet tilføjet: BLAST registrerer nu korte inputsekvenser for nucleotid- og proteinsøgningsformerne og justerer parametrene for at forbedre chancen for at finde relevante matches. For korte sekvenser (op til 30 rester for proteiner, 50 baser for nukleotider) reducerer BLAST nu automatisk ordstørrelsen (til syv for nukleotider, to for proteiner), øger den forventede værdi (til 1000) og slår filtrering med lav kompleksitet fra. Desuden bruger proteinerne PAM30-scorematrixen for korte sekvenser som foreslået af Altschul (5). Denne funktion kan slås fra i afsnittet Algoritmeparametre i formularen.