Formulář BLAST
Všechny obecné formuláře BLAST odkazované z domovské stránky mají nyní společný design. Na každém formuláři se zobrazují pouze možnosti odpovídající zvolenému typu programu a algoritmu.
V sekci Zadejte dotazovací sekvenci v horní části formuláře (obrázek 1) je místo pro zadání jedné nebo více dotazovacích sekvencí, a to buď podle přístupového čísla nebo čísla gi, nebo jako sekvence IUPAC ve formátu FASTA. Podporované znaky IUPAC jsou zdokumentovány v nápovědě BLAST na adrese http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Volitelná pole Query Subrange (Podrozsah dotazu) omezují vyhledávání na podrozsah dotazovací sekvence. Jako alternativu k vystřižení/vložení sekvence do textového pole můžete také nahrát dotazovací sekvenci (sekvence) z lokálního diskového souboru.
Nový název úlohy je název úlohy, který se zobrazuje v Uložených strategiích a Posledních výsledcích a také v horní části každé zprávy BLAST. Název se také zobrazuje v titulkovém pruhu okna nebo karty prohlížeče sestavy a jako výchozí název každé záložky sestavy. Výchozím názvem úlohy je řádek definice sekvence dotazu (v jazyce FASTA řádek začínající „>“), ale výchozí název můžete zadat nad výchozí název a označit úlohu libovolným způsobem. Pokud je vstupní sekvencí přístupové číslo nebo číslo gi, webové rozhraní BLAST automaticky vyhledá definiční řádek v GenBank, aniž by se stránka znovu načítala. Pokud je přítomno více sekvencí, vygeneruje se vhodný popisný název (např. „5 nukleotidových sekvencí“).
V sekci Choose Search Set (Vybrat vyhledávací sadu) formuláře BLAST se vybere databáze BLAST, která se má prohledávat, a použijí se omezující kritéria, jako je organismus nebo dotaz Entrez. Vyhledávání lze omezit na konkrétní organismus (druh nebo taxonomickou skupinu) zadáním vědeckého názvu, obecného názvu nebo taxidu (celočíselné ID taxonu v taxonomické databázi NCBI). Jakmile uživatel zadá název organismu, pole Organism entry (Zadání organismu) mu nabídne rozbalovací seznam možných doplnění (obrázek 3). Kdykoli může uživatel stisknout klávesu se šipkou dolů, aby procházel seznamem možností, a/nebo stisknout klávesu Return, aby vybral vybraný taxon. Seznam je omezen na 20 položek a je seřazen v obráceném pořadí podle toho, jak často se jednotlivé taxony objevují v GenBank, přičemž častěji studované organismy jsou na začátku seznamu. Tato funkce „automatického doplňování“ jednak pomáhá uživatelům zjistit, jaké názvy organismů jsou k dispozici, jednak zabraňuje pravopisným a překlepovým chybám.
Potenciální doplnění názvů organismů se uživateli nabízí v průběhu psaní. Nabízí se prvních 20 shod s dotazem uživatele, přičemž je povolena shoda kdekoli v odpovídajícím organismu (např. plat najde ‚duck billed platypus‘, i když ‚plat‘ není na začátku cílového textu). Podrobnosti viz text.
Omezení a další hodnoty zadané v každém formuláři BLAST zůstávají v platnosti po dobu trvání relace prohlížeče nebo dokud je uživatel neobnoví. Pokud se uživatel přihlásí do My NCBI, zůstávají v platnosti napříč relacemi prohlížeče.
Nukleotidový formulář BLAST má další možnosti vyhledávací sady. Sekce nukleotidové databáze nabízí tři běžné volby: Human genomic + transcript, Mouse genomic + transcript a Other. Databáze genom + transkript obsahují pouze referenční sekvence NCBI. Obsahují genomové sekvence i mRNA pro daný organismus, takže se ve výsledné zprávě objeví oba typy sekvencí. Položka Other obsahuje dříve dostupné databáze v rozevíracím seznamu. Pokud uživatel vybere databázi z tohoto seznamu, automaticky se zvolí Other.
Báze genomické + transkripční usnadňují vyhledávání lidských a myších sekvencí a automaticky zobrazují zarovnání transkriptů ke genomu. Sady lidských a myších dat používají nový rychlý indexovaný vyhledávací algoritmus, který zkracuje dobu do dokončení typického vyhledávání čtyřnásobně (Morgulis,A. et al., rukopis v přípravě). Vyhledávání jiných organismů než člověka nebo myši vyžaduje jednoduchý výběr alternativní databáze a volitelný limit Organism. V rámci relace prohlížeče každý formulář BLAST automaticky vybere databázi, kterou uživatel zvolil naposledy, takže alternativní databázi je třeba zvolit pouze jednou.
V sekci Výběr programu formuláře BLAST se vybírá algoritmus použitý pro vyhledávání a zarovnávání. Pro vyhledávání nukleotidů jsou na výběr megablast (výchozí), diskontinuální megablast a blastn. Pro vyhledávání proteinů jsou na výběr blastp (výchozí), PSI-BLAST a PHI-BLAST. Odkaz na nápovědu v této části vede na průvodce výběrem programu BLAST, který popisuje algoritmy a kritéria pro výběr mezi nimi.
V tomto bodě formuláře většina uživatelů jednoduše stiskne tlačítko BLAST pro zahájení nového vyhledávání. BLAST dříve ve výchozím nastavení otevíral výsledky v novém okně, což mnoho uživatelů považovalo za obtěžující a dezorientující. Novým výchozím chováním je, že se výsledky zobrazí ve stejném okně jako formulář (čímž se formulář nahradí). Uživatel si může vyžádat výsledky v novém okně zaškrtnutím políčka vedle tlačítka BLAST.
Podrobné parametry pro ladění vybraného programu zůstávají ve formuláři, ale jsou nyní sbaleny pod odkazem s názvem Parametry algoritmu, protože je někdy použije jen malá část uživatelů. Kliknutím na odkaz se zobrazí ovládací prvky parametrů. Po kliknutí na odkaz samozřejmě zůstanou parametry viditelné po zbytek relace prohlížeče. Tyto parametry se mění v závislosti na vybraném algoritmu.
Na nukleotidovém formuláři jsou k dispozici tyto algoritmy: megablast, diskontinuální megablast a blastn. Výběrem megablast se zvolí velká velikost slova (v současné době 28) a optimalizuje se odměna a penalizace (1 a -2) pro zarovnání s přibližně 95% identitou (3). Discontiguous megablast a blastn mají parametry vhodnější pro mezidruhová srovnání, s menší velikostí slova (11) a odměnou a penalizací (2, -3), které se optimalizují pro zarovnání s přibližně 85% identitou (3).
Na formuláři proteinu jsou dostupné volby blastp, PSI-BLAST a PHI-BLAST. Výběr PSI-BLAST místo blastp zobrazí více cílových sekvencí a umožní uživateli vybrat sekvence pro sestavení PSSM pro další iteraci PSI-BLAST. V obou těchto případech se používají „podmíněné úpravy matice skóre složení“ (4). PHI-BLAST nepodporuje kompoziční úpravy, takže tato možnost zmizí, pokud je vybrán PHI-BLAST.
Byla přidána jedna nová pokročilá funkce: BLAST nyní detekuje krátké vstupní sekvence pro formu vyhledávání nukleotidů a proteinů a upravuje parametry, aby zvýšil šanci na nalezení relevantních shod. Pro krátké sekvence (do 30 zbytků pro proteiny, 50 bází pro nukleotidy) nyní BLAST automaticky snižuje velikost slova (na sedm pro nukleotidy, dvě pro proteiny), zvyšuje očekávanou hodnotu (na 1000) a vypíná filtrování nízké složitosti. U proteinů se navíc používá skórovací matice PAM30 pro krátké sekvence, jak navrhuje Altschul (5). Tuto funkci lze vypnout v oddíle Parametry algoritmu ve formuláři.
.