BLAST-lomake
Kaikkien etusivulta linkitettyjen yleisten BLAST-lomakkeiden ulkoasu on nyt yhteinen. Vain valittua ohjelmatyyppiä ja algoritmia vastaavat vaihtoehdot näkyvät kussakin lomakkeessa.
Lomakkeen yläosassa olevassa Enter Query Sequence -osiossa (kuva 1) on paikka, johon voidaan syöttää yksi tai useampi kyselysekvenssi joko liittymis- tai gi-numerolla tai IUPAC-sekvenssinä FASTA-muodossa. Tuetut IUPAC-merkit on dokumentoitu BLASTin ohjeessa osoitteessa http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Valinnaiset Query Subrange -kentät rajoittavat haun kyselysekvenssin osa-alueeseen. Vaihtoehtona sekvenssin leikkaamiselle/liittämiselle tekstilaatikkoon voit myös ladata kyselysekvenssin (sekvenssit) paikallisesta levytiedostosta.
Uusi työn nimi (Job Title) on työn nimi, joka näkyy Tallennetut strategiat (Saved Strategies) ja Viimeisimmät tulokset (Recent Results) -kohdissa sekä jokaisen BLAST-raportin yläosassa. Otsikko näkyy myös raportin selainikkunan tai -välilehden otsikkorivillä ja raportin kaikkien kirjanmerkkien oletusotsikkona. Työn oletusotsikko on kyselyn sekvenssin määrittelyrivi (FASTA:ssa rivi, joka alkaa kirjaimella ’>’), mutta voit kirjoittaa oletusotsikon päälle ja nimetä työn haluamallasi tavalla. Kun syötesekvenssi on liittymis- tai gi-numero, BLAST-verkkokäyttöliittymä etsii automaattisesti määrittelyrivin GenBankista ilman sivun lataamista uudelleen. Jos sekvenssejä on useita, luodaan sopiva kuvaava otsikko (esim. ”5 nukleotidisekvenssiä”).
BLAST-lomakkeen Choose Search Set (Valitse hakujoukko) -osiossa valitaan haettava BLAST-tietokanta ja sovelletaan rajoituskriteerejä, kuten organismia tai Entrez-kyselyä. Haku voidaan rajata tiettyyn organismiin (lajiin tai taksonomiseen ryhmään) kirjoittamalla tieteellinen nimi, yleisnimi tai taxid (taksonin kokonaislukutunnus NCBI:n taksonomiatietokannassa). Kun käyttäjä kirjoittaa organismin nimen, Organism-syöttöruutu pyytää käyttäjää avaamaan pudotusluettelon mahdollisista täydennyksistä (kuva 3.) Käyttäjä voi milloin tahansa painaa nuolinäppäintä alaspäin selataksesi vaihtoehtojen luetteloa ja/tai painaa Return-näppäintä valitakseen valitun taksonin. Luettelo on rajoitettu 20 nimikkeeseen, ja se on lajiteltu käänteisessä järjestyksessä sen mukaan, kuinka usein kukin taksoni esiintyy GenBankissa, jolloin yleisimmin tutkitut organismit ovat luettelon kärjessä. Tämä ”automaattinen täydennys” auttaa käyttäjiä tietämään, mitä organismien nimiä on saatavilla, ja ehkäisee kirjoitus- ja kirjoitusvirheitä.
Organismien nimien mahdollisia täydennyksiä ehdotetaan, kun käyttäjä kirjoittaa. Ensimmäiset 20 osumaa käyttäjän kyselyyn esitetään, ja osumat missä tahansa vastaavassa organismissa ovat sallittuja (esim. plat löytää ’ankkasotilaskärpäsen’, vaikka ’plat’ ei ole kohdetekstin alussa). Katso lisätietoja tekstistä.
Kussakin BLAST-lomakkeessa määritetyt rajat ja muut arvot pysyvät voimassa selainistunnon ajan tai kunnes käyttäjä nollaa ne. Jos käyttäjä kirjautuu sisään My NCBI:hen, ne pysyvät voimassa selainistuntojen yli.
Nukleotidien BLAST-lomakkeella on ylimääräisiä hakuasetusvaihtoehtoja. Nukleotiditietokanta-osiossa on kolme yleistä vaihtoehtoa: Human genomic + transcript, Mouse genomic + transcript ja Other. Genomic + transcript -tietokannat sisältävät vain NCBI:n referenssisekvenssejä. Ne sisältävät sekä organismin genomisekvenssejä että mRNA:ta, joten molemmat sekvenssityypit näkyvät tuloksena olevassa raportissa. Other sisältää aiemmin käytettävissä olleet tietokannat avattavassa luettelossa. Jos käyttäjä valitsee tietokannan tuosta luettelosta, Other valitaan automaattisesti.
Genomic + transcript -tietokannat helpottavat ihmisen ja hiiren sekvenssien etsimistä, ja ne näyttävät automaattisesti transkriptien kohdistukset genomiin. Ihmisen ja hiiren tietokannoissa käytetään uutta nopeaa indeksoitua hakualgoritmia, joka lyhentää tyypillisen haun suorittamiseen kuluvaa aikaa nelinkertaisesti (Morgulis,A. et al., käsikirjoitus valmisteilla). Muiden organismien kuin ihmisen tai hiiren haku edellyttää vain vaihtoehtoisen tietokannan ja valinnaisen Organism-rajoituksen valitsemista. Jokainen BLAST-lomake valitsee selainistunnossa automaattisesti sen tietokannan, jonka käyttäjä on viimeksi valinnut, joten vaihtoehtoinen tietokanta on valittava vain kerran.
BLAST-lomakkeen Program Selection -osiossa valitaan algoritmi, jota käytetään hakuun ja kohdistukseen. Nukleotidihakuja varten vaihtoehdot ovat megablast (oletus), discontiguous megablast ja blastn. Proteiinihakuja varten vaihtoehdot ovat blastp (oletus), PSI-BLAST ja PHI-BLAST. Tämän osion ohjelinkki johtaa BLAST-ohjelman valintaoppaaseen, jossa kuvataan algoritmeja ja niiden valintaperusteita.
Tässä vaiheessa lomaketta useimmat käyttäjät vain painavat BLAST-painiketta aloittaakseen uuden haun. BLAST avasi aiemmin tulokset oletusarvoisesti uuteen ikkunaan, minkä monet käyttäjät kokivat ärsyttäväksi ja hämmentäväksi. Uusi oletuskäyttäytyminen on, että tulokset näkyvät samassa ikkunassa kuin lomake (ja korvaavat siten lomakkeen). Käyttäjä voi pyytää tuloksia uuteen ikkunaan ruksaamalla BLAST-painikkeen vieressä olevan valintaruudun.
Tarkat parametrit valitun ohjelman virittämistä varten ovat edelleen lomakkeella, mutta ne on nyt koottu yhteen linkin Algorithm Parameters alle, koska vain pieni osa käyttäjistä käyttää niitä koskaan. Linkkiä napsauttamalla saadaan parametrien säätimet näkyviin. Kun linkkiä on napsautettu, parametrit pysyvät tietysti näkyvissä koko selainistunnon ajan. Nämä parametrit muuttuvat valitun algoritmin mukaan.
Nukleotidilomakkeella käytettävissä olevat algoritmit ovat megablast, discontiguous megablast ja blastn. Valitsemalla megablast valitaan suuri sanakoko (tällä hetkellä 28) ja optimoidaan palkkio ja rangaistus (1 ja -2) noin 95 %:n identtisyydelle (3). Discontiguous megablastin ja blastnin parametrit soveltuvat paremmin lajien välisiin vertailuihin, ja niiden sanakoko on pienempi (11) ja palkkiot ja rangaistukset (2, -3) optimoituvat noin 85 %:n identtisyyteen (3).
Proteiinilomakkeessa käytettävissä olevat vaihtoehdot ovat blastp, PSI-BLAST ja PHI-BLAST. Valitsemalla PSI-BLAST blastp:n sijasta näytetään enemmän kohdesekvenssejä, ja käyttäjä voi valita sekvenssejä PSSM:n rakentamiseksi seuraavaa PSI-BLAST-iteraatiota varten. Molemmissa tapauksissa käytetään ”conditional compositional score matrix adjustments” (4). PHI-BLAST ei tue kompositionaalisia säätöjä, joten vaihtoehto katoaa, jos PHI-BLAST valitaan.
Yksi uusi lisäominaisuus on lisätty: BLAST havaitsee nyt lyhyet syöttösekvenssit nukleotidi- ja proteiinihakumuotoja varten ja säätää parametreja parantaakseen relevanttien täsmäytysten löytämisen todennäköisyyttä. Lyhyille sekvensseille (enintään 30 jäännöstä proteiineille, 50 emästä nukleotideille) BLAST pienentää nyt automaattisesti sanakokoa (seitsemään nukleotideille, kahteen proteiineille), kasvattaa odotusarvoa (1000:een) ja kytkee pois päältä matalan kompleksisuuden suodatuksen. Lisäksi proteiineissa käytetään PAM30-pisteytysmatriisia lyhyille sekvensseille, kuten Altschul on ehdottanut (5). Tämä ominaisuus voidaan kytkeä pois päältä lomakkeen Algorithm Parameters -osiossa.