BLAST-formulär
Alla generiska BLAST-formulär som länkas från hemsidan har nu en gemensam design. Endast de alternativ som motsvarar den valda programtypen och algoritmen visas på varje formulär.
I avsnittet Enter Query Sequence högst upp i formuläret (figur 1) finns en plats där man kan ange en eller flera frågesekvenser, antingen genom accessions- eller gi-nummer eller som IUPAC-sekvens i FASTA-format. IUPAC-tecken som stöds finns dokumenterade i BLAST-hjälpen på http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. De valfria rutorna Query Subrange begränsar sökningen till ett delområde av frågesekvensen. Som ett alternativ till att klippa/klistra in sekvensen i en textruta kan du också ladda upp söksekvensen/sekvenserna från en lokal diskfil.
Den nya jobbtiteln är det jobbnamn som visas i Saved Strategies och Recent Results, samt högst upp i varje BLAST-rapport. Titeln visas också i titelfältet i webbläsarfönstret eller fliken för rapporten och som standardtitel för alla bokmärken till rapporten. Standardtiteln för ett jobb är frågesekvensdefinitionsraden (i FASTA den rad som börjar med ”>”), men du kan skriva över standardtiteln för att märka jobbet på vilket sätt du vill. När inmatningssekvensen är ett accessions- eller gi-nummer söker BLAST-webbgränssnittet automatiskt upp definitionsraden i GenBank utan att sidan behöver laddas om. Om det finns flera sekvenser genereras en lämplig beskrivande titel (t.ex. ”5 nucleotide sequences”).
I avsnittet Choose Search Set (Välj sökuppsättning) i BLAST-formuläret väljs den BLAST-databas som ska genomsökas och begränsande kriterier tillämpas, t.ex. organism eller Entrez-frågor. Sökningar kan begränsas till en specifik organism (art eller taxonomisk grupp) genom att ange vetenskapligt namn, vanligt namn eller taxid (heltals-id för taxonet i NCBI:s taxonomidatabas). När användaren skriver organismen namn, uppmanas användaren i rutan Organism entry att välja en rullgardinslista med möjliga kompletteringar (figur 3). Användaren kan när som helst trycka på nedåtpilen för att bläddra i listan med valmöjligheter och/eller trycka på Returknappen för att välja det valda taxonet. Listan är begränsad till 20 objekt och är sorterad i omvänd ordning efter hur ofta varje taxon förekommer i GenBank, vilket innebär att mer frekvent studerade organismer placeras högst upp i listan. Denna ”autocomplete”-funktion hjälper användaren att veta vilka organismnamn som finns tillgängliga och förhindrar stavnings- och skrivfel.
Potentiella kompletteringar för organismnamn föreslås när användaren skriver. De 20 första träffarna på användarens fråga presenteras, och det är tillåtet med träffar var som helst i den matchande organismen (t.ex. plat hittar ”duck billed platypus” även om ”plat” inte står i början av måltexten). Se texten för detaljer.
De gränser och andra värden som anges i varje BLAST-formulär gäller under hela webbläsarsessionen eller tills de återställs av användaren. Om användaren loggar in på My NCBI förblir de i kraft över webbläsarsessioner.
Nucleotide BLAST-formuläret har ytterligare alternativ för sökuppsättningar. I avsnittet Nucleotide Database (nukleotiddatabas) finns tre vanliga valmöjligheter: Human genomic + transcript, Mouse genomic + transcript och Other. Databaserna för genomisk + transkript innehåller endast NCBI-referenssekvenser. De innehåller både genomiska sekvenser och mRNA för organismen, så båda sekvenstyperna visas i den resulterande rapporten. Other innehåller de tidigare tillgängliga databaserna i en rullgardinslista. Om användaren väljer en databas från den listan väljs Other automatiskt.
De genomiska + transkriptdatabaserna gör det lättare att söka i sekvenser från människa och mus, och de visar automatiskt transkriptanpassningar till genomet. I datamängderna för människa och mus används en ny snabb indexerad sökalgoritm som minskar tiden för att slutföra en typisk sökning med en faktor fyra (Morgulis,A. et al., manuskript under förberedelse). För att söka efter andra organismer än människor och möss behöver man bara välja en alternativ databas och en valfri Organism-gräns. Inom en webbläsarsession väljer varje BLAST-formulär automatiskt den databas som användaren senast valde, så en alternativ databas behöver bara väljas en gång.
Det avsnittet Program Selection i BLAST-formuläret väljer den algoritm som används för sökning och anpassning. För nukleotidsökningar är valen megablast (standard), discontiguous megablast och blastn. För proteinsökningar är alternativen blastp (standard), PSI-BLAST och PHI-BLAST. Hjälplänken för det här avsnittet leder till BLAST program selection guide, som beskriver algoritmerna och kriterierna för att välja mellan dem.
I den här punkten i formuläret kommer de flesta användare helt enkelt att trycka på BLAST-knappen för att påbörja en ny sökning. BLAST öppnade tidigare resultaten i ett nytt fönster som standard, vilket många användare tyckte var irriterande och förvirrande. Det nya standardbeteendet är att resultaten visas i samma fönster som formuläret (vilket ersätter formuläret). Användaren kan begära resultat i ett nytt fönster genom att markera kryssrutan bredvid BLAST-knappen.
Detaljerade parametrar för att ställa in det valda programmet finns kvar på formuläret, men de är nu hopslagna under en länk med titeln Algoritmparametrar, eftersom endast en liten del av användarna någonsin använder dem. Genom att klicka på länken visas parameterkontrollerna. När länken väl är klickad förblir naturligtvis parametrarna synliga under resten av webbläsarsessionen. Dessa parametrar ändras beroende på vilken algoritm som valts.
På nukleotidformen är de tillgängliga algoritmerna megablast, discontiguous megablast och blastn. Om man väljer megablast väljer man en stor ordstorlek (för närvarande 28) och optimerar belöning och straff (1 och -2) för anpassningar med ungefär 95 % identitet (3). Discontiguous megablast och blastn har parametrar som är mer lämpliga för jämförelser mellan arter, med en mindre ordstorlek (11) och belöning och straff (2, -3) som optimerar för anpassningar med ungefär 85 % identitet (3).
På proteinformuläret är de tillgängliga valen blastp, PSI-BLAST och PHI-BLAST. Om man väljer PSI-BLAST i stället för blastp visas fler målsekvenser och användaren kan välja sekvenser för att bygga upp PSSM för nästa PSI-BLAST-iteration. I båda dessa fall används ”conditional compositional score matrix adjustments” (4). PHI-BLAST stöder inte kompositionsjusteringar, så alternativet försvinner om PHI-BLAST väljs.
En ny avancerad funktion har lagts till: BLAST upptäcker nu korta inmatningssekvenser för nukleotid- och proteinsökformerna och justerar parametrarna för att öka chansen att hitta relevanta matchningar. För korta sekvenser (upp till 30 rester för proteiner, 50 baser för nukleotider) minskar BLAST nu automatiskt ordstorleken (till sju för nukleotider, två för proteiner), ökar det förväntade värdet (till 1000) och stänger av filtrering med låg komplexitet. Dessutom använder proteiner PAM30-poängmatrisen för korta sekvenser enligt Altschuls förslag (5). Denna funktion kan stängas av i avsnittet Algoritmparametrar i formuläret.