BLAST-formulier
Alle generieke BLAST-formulieren die vanaf de startpagina zijn gelinkt, hebben nu een gemeenschappelijk ontwerp. Alleen de opties die overeenkomen met het geselecteerde programma type en algoritme verschijnen op elk formulier.
Het Enter Query Sequence gedeelte bovenaan het formulier (figuur 1) biedt een plaats om een of meer query sequenties in te voeren, hetzij door toetreding of gi nummer, of als IUPAC sequentie in FASTA formaat. Ondersteunde IUPAC-tekens zijn gedocumenteerd in de BLAST-help op http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. De optionele Query Subrange-vakjes beperken het zoeken tot een subbereik van de querysequentie. Als alternatief voor het knippen/plakken van de sequentie in een tekstvak, kunt u ook de query sequentie(s) uploaden vanaf een lokaal schijfbestand.
De nieuwe Titel van de opdracht is de opdrachtnaam die verschijnt in Opgeslagen strategieën en Recente resultaten, evenals bovenaan elk BLAST-rapport. De titel verschijnt ook in de titelbalk van het browservenster of tabblad voor het rapport, en als de standaardtitel van elke bladwijzer naar het rapport. De standaardtitel voor een taak is de definitieregel van de querysequentie (in FASTA, de regel die begint met ‘>’), maar u kunt over de standaardtitel heen typen om de taak op elke gewenste manier te labelen. Als de ingevoerde sequentie een toetredings- of gi nummer is, zoekt de BLAST webinterface automatisch de definitieregel in GenBank op zonder de pagina opnieuw te laden. Als er meerdere sequenties aanwezig zijn, wordt een passende beschrijvende titel gegenereerd (b.v. ‘5 nucleotide sequenties’).
Het onderdeel Kies zoekset van het BLAST-formulier selecteert de te doorzoeken BLAST-database en past beperkende criteria toe, zoals organisme of Entrez-query. Zoekopdrachten kunnen worden beperkt tot een specifiek organisme (soort of taxonomische groep) door het intypen van de wetenschappelijke naam, de gewone naam of taxid (het gehele id voor het taxon in de NCBI Taxonomy database). Terwijl de gebruiker de naam van het organisme intypt, verschijnt in het invoerveld Organisme een vervolgkeuzelijst met mogelijke aanvullingen (Figuur 3.) De gebruiker kan op elk moment op de pijl-omlaag-toets drukken om door de lijst met keuzes te bladeren en/of op de Return-toets drukken om het geselecteerde taxon te kiezen. De lijst is beperkt tot 20 items, en is gesorteerd in omgekeerde volgorde van hoe vaak elk taxon in GenBank voorkomt, waarbij de meer bestudeerde organismen bovenaan de lijst staan. Deze “autocomplete”-functie helpt gebruikers te weten welke organismen beschikbaar zijn, en voorkomt spelfouten en typefouten.
Mogelijke aanvullingen voor organismienamen worden voorgesteld terwijl de gebruiker typt. De eerste 20 overeenkomsten met de zoekopdracht van de gebruiker worden weergegeven, waarbij overeenkomsten overal in het overeenkomstige organisme zijn toegestaan (plat vindt bijvoorbeeld ‘vogelbekdier met eendenbek’, ook al staat ‘plat’ niet aan het begin van de doeltekst). Zie de tekst voor meer informatie.
De limieten en andere waarden die op elk BLAST-formulier worden opgegeven, blijven van kracht zolang de browsersessie duurt, of tot ze door de gebruiker worden gereset. Als de gebruiker zich aanmeldt bij Mijn NCBI, blijven ze van kracht over browsersessies.
Het nucleotide BLAST-formulier heeft extra zoekset-opties. De nucleotide Database sectie biedt drie gemeenschappelijke keuzes: Menselijk genomisch + transcript, Muis genomisch + transcript en Overig. De genomische + transcript-databases bevatten alleen NCBI-referentiesequenties. Ze bevatten zowel genomische sequenties als mRNA’s voor het organisme, zodat beide sequentietypes op het resulterende rapport verschijnen. Other bevat de eerder beschikbare databases in een vervolgkeuzelijst. Als de gebruiker een database uit die lijst selecteert, wordt Other automatisch gekozen.
De genomic + transcript databases maken het gemakkelijker om menselijke en muis sequenties te zoeken, en ze tonen automatisch transcript uitlijningen met het genoom. De menselijke en muis data sets maken gebruik van een nieuwe snelle geïndexeerde zoekalgoritme dat de tijd tot voltooiing van een typische zoekopdracht vermindert met een factor vier (Morgulis,A. et al., manuscript in voorbereiding). Voor het zoeken naar andere organismen dan de mens of de muis hoeft alleen maar een andere databank te worden geselecteerd en een optionele limiet voor het organisme. Binnen een browser sessie, selecteert elk BLAST formulier automatisch de database die de gebruiker het laatst gekozen heeft, dus een alternatieve database hoeft slechts eenmaal gekozen te worden.
De Programma Selectie sectie van het BLAST formulier selecteert het algoritme dat gebruikt wordt voor het zoeken en uitlijnen. Voor het zoeken naar nucleotiden zijn de keuzemogelijkheden megablast (standaard), discontiguous megablast en blastn. Voor eiwit-zoekopdrachten zijn de keuzemogelijkheden blastp (standaard), PSI-BLAST en PHI-BLAST. De help link voor dit onderdeel leidt naar de BLAST programma selectie gids, die de algoritmen en de criteria voor het kiezen tussen hen beschrijft.
Op dit punt in het formulier, zullen de meeste gebruikers gewoon op de BLAST knop drukken om een nieuwe zoekactie te starten. BLAST opende voorheen standaard resultaten in een nieuw venster, wat veel gebruikers vervelend en desoriënterend vonden. Het nieuwe standaardgedrag is dat de resultaten in hetzelfde venster verschijnen als het formulier (waardoor het formulier wordt vervangen). De gebruiker kan resultaten in een nieuw venster opvragen door het selectievakje naast de BLAST knop aan te vinken.
De gedetailleerde parameters voor het afstellen van het gekozen programma blijven op het formulier, maar ze zijn nu samengevouwen onder een link getiteld Algorithm Parameters, omdat slechts een klein deel van de gebruikers ze ooit gebruikt. Door op de link te klikken worden de parameterregelaars zichtbaar. Zodra op de link geklikt is, blijven de parameters natuurlijk zichtbaar voor de rest van de browsersessie. Deze parameters veranderen afhankelijk van het gekozen algoritme.
Op het nucleotide formulier zijn de beschikbare algoritmen megablast, discontiguous megablast en blastn. Door megablast te kiezen wordt een grote woordgrootte gekozen (momenteel 28) en worden beloning en straf (1 en -2) geoptimaliseerd voor uitlijningen van ongeveer 95% identiteit (3). Discontiguous megablast en blastn hebben parameters die meer geschikt zijn voor vergelijkingen tussen soorten, met een kleinere woordgrootte (11) en beloning en straf (2, -3) die optimaliseren voor uitlijningen van ongeveer 85% identiteit (3).
Op het eiwitformulier zijn de beschikbare keuzes blastp, PSI-BLAST en PHI-BLAST. Het kiezen van PSI-BLAST in plaats van blastp toont meer doelsequenties, en stelt de gebruiker in staat sequenties te selecteren om de PSSM voor de volgende PSI-BLAST iteratie te bouwen. In beide gevallen wordt gebruik gemaakt van “conditionele samengestelde score matrix aanpassingen” (4). PHI-BLAST ondersteunt geen compositionele aanpassingen, dus de optie verdwijnt als PHI-BLAST is geselecteerd.
Een nieuwe geavanceerde functie is toegevoegd: BLAST detecteert nu korte input sequenties voor de nucleotide en eiwit zoekvormen, en past parameters aan om de kans op het vinden van relevante matches te verbeteren. Voor korte sequenties (tot 30 residuen voor proteïnen, 50 basen voor nucleotiden), verkleint BLAST nu automatisch de woordgrootte (tot zeven voor nucleotiden, twee voor proteïnen), verhoogt de verwachtingswaarde (tot 1000), en schakelt het filteren op lage complexiteit uit. Bovendien gebruiken eiwitten de PAM30 scorematrix voor korte sequenties, zoals voorgesteld door Altschul (5). Deze functie kan worden uitgezet in het Algorithm Parameters gedeelte van het formulier.