Formularz BLAST
Wszystkie ogólne formularze BLAST połączone ze stroną główną mają teraz wspólny wygląd. Tylko opcje odpowiadające wybranemu typowi programu i algorytmowi pojawiają się na każdym formularzu.
Sekcja Enter Query Sequence na górze formularza (Rysunek 1) zapewnia miejsce do wprowadzenia jednej lub więcej sekwencji zapytania, albo przez numer akcesji lub gi, albo jako sekwencję IUPAC w formacie FASTA. Obsługiwane znaki IUPAC są udokumentowane w pomocy BLAST w http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. Opcjonalne pola Query Subrange ograniczają wyszukiwanie do podzakresu sekwencji zapytania. Jako alternatywę do wycinania/wklejania sekwencji do pola tekstowego, można również przesłać sekwencję(i) zapytania z lokalnego pliku dyskowego.
Nowy Tytuł zadania jest nazwą zadania, która pojawia się w Zapisane strategie i Ostatnie wyniki, jak również na górze każdego raportu BLAST. Tytuł pojawia się również w pasku tytułu okna przeglądarki lub zakładki raportu, a także jako domyślny tytuł każdej zakładki do raportu. Domyślnym tytułem zadania jest linia definicji sekwencji zapytania (w FASTA, linia zaczynająca się od ’>’), ale można wpisać nad domyślnym tytułem, aby oznaczyć zadanie w dowolny sposób. Gdy sekwencją wejściową jest numer akcesji lub gi, interfejs WWW BLAST automatycznie wyszukuje wiersz definicji w GenBank bez przeładowywania strony. Jeśli występuje wiele sekwencji, generowany jest odpowiedni tytuł opisowy (np. '5 sekwencji nukleotydów’).
Sekcja Choose Search Set formularza BLAST wybiera bazę danych BLAST do przeszukania i stosuje kryteria ograniczające, takie jak organizm lub zapytanie Entrez. Wyszukiwanie może być ograniczone do konkretnego organizmu (gatunku lub grupy taksonomicznej) poprzez wpisanie nazwy naukowej, nazwy zwyczajowej lub taxid (identyfikator liczby całkowitej dla taksonu w bazie danych NCBI Taxonomy). Gdy użytkownik wpisuje nazwę organizmu, pole Organism entry box podpowiada użytkownikowi rozwijaną listę potencjalnych uzupełnień (Rysunek 3.) W dowolnym momencie użytkownik może nacisnąć klawisz strzałki w dół, aby przewinąć listę wyboru, i/lub nacisnąć klawisz Return, aby wybrać wybrany takson. Lista jest ograniczona do 20 pozycji i jest posortowana w kolejności odwrotnej do tego, jak często każdy takson pojawia się w GenBank, umieszczając częściej badane organizmy na początku listy. Ta funkcja 'autocomplete’ zarówno pomaga użytkownikom wiedzieć, jakie nazwy organizmów są dostępne, jak i zapobiega błędom pisowni i wpisywania.
Potencjalne uzupełnienia nazw organizmów są sugerowane w miarę wpisywania przez użytkownika. Przedstawianych jest pierwszych 20 dopasowań do zapytania użytkownika, z dozwolonymi dopasowaniami w dowolnym miejscu pasującego organizmu (np. plat znajduje 'duck billed platypus’ nawet jeśli 'plat’ nie jest na początku tekstu docelowego). Patrz tekst dla szczegółów.
Limity i inne wartości określone w każdym formularzu BLAST pozostają w mocy przez czas trwania sesji przeglądarki lub do momentu ich zresetowania przez użytkownika. Jeśli użytkownik zaloguje się do My NCBI, pozostają one w mocy przez wszystkie sesje przeglądarki.
Formularz BLAST nukleotydów ma dodatkowe opcje zestawu wyszukiwania. Sekcja Baza danych nukleotydów zapewnia trzy powszechne wybory: Human genomic + transcript, Mouse genomic + transcript oraz Other. Bazy genomowe + transkryptowe zawierają tylko sekwencje referencyjne NCBI. Zawierają one zarówno sekwencje genomowe, jak i mRNA dla danego organizmu, dlatego w raporcie wynikowym pojawiają się oba typy sekwencji. Inne zawierają poprzednio dostępne bazy danych w postaci listy rozwijanej. Jeśli użytkownik wybierze bazę danych z tej listy, Other zostanie wybrana automatycznie.
Bazy danych genomic + transcript ułatwiają przeszukiwanie sekwencji ludzkich i mysich, i automatycznie pokazują wyrównania transkryptów do genomu. Zestawy danych dla ludzi i myszy wykorzystują nowy algorytm szybkiego wyszukiwania indeksowanego, który czterokrotnie skraca czas do ukończenia typowego wyszukiwania (Morgulis,A. et al., manuskrypt w przygotowaniu). Wyszukiwanie dla organizmów innych niż człowiek i mysz wymaga po prostu wybrania alternatywnej bazy danych i opcjonalnego limitu Organizm. W ramach sesji przeglądarki, każdy formularz BLAST automatycznie wybiera bazę danych ostatnio wybraną przez użytkownika, więc alternatywna baza danych musi być wybrana tylko raz.
Sekcja Program Selection formularza BLAST wybiera algorytm używany do wyszukiwania i wyrównywania. Dla wyszukiwań nukleotydów, do wyboru są megablast (domyślnie), discontiguous megablast i blastn. Dla wyszukiwań białek dostępne są opcje blastp (domyślnie), PSI-BLAST i PHI-BLAST. Łącze pomocy dla tej sekcji prowadzi do przewodnika wyboru programu BLAST, który opisuje algorytmy i kryteria wyboru między nimi.
W tym punkcie formularza większość użytkowników po prostu naciska przycisk BLAST, aby zainicjować nowe wyszukiwanie. BLAST wcześniej domyślnie otwierał wyniki w nowym oknie, co wielu użytkowników uważało za irytujące i dezorientujące. Nowe domyślne zachowanie polega na tym, że wyniki pojawiają się w tym samym oknie co formularz (zastępując w ten sposób formularz). Użytkownik może zażądać wyników w nowym oknie, zaznaczając pole wyboru obok przycisku BLAST.
Szczegółowe parametry dostrajania wybranego programu pozostają na formularzu, ale są teraz zwinięte pod linkiem zatytułowanym Parametry algorytmu, ponieważ tylko niewielka część użytkowników kiedykolwiek ich używa. Kliknięcie tego odnośnika powoduje wyświetlenie kontrolek parametrów. Oczywiście, po kliknięciu linku parametry pozostają widoczne przez resztę sesji przeglądarki. Parametry te zmieniają się w zależności od wybranego algorytmu.
Na formularzu nukleotydowym dostępne algorytmy to megablast, discontiguous megablast i blastn. Wybierając megablast wybieramy duży rozmiar słowa (obecnie 28) i optymalizujemy nagrodę i karę (1 i -2) dla dopasowań o około 95% identyczności (3). Discontiguous megablast i blastn mają parametry bardziej odpowiednie dla porównań międzygatunkowych, z mniejszym rozmiarem słowa (11) oraz nagrodą i karą (2, -3), które optymalizują dla dopasowań o około 85% identyczności (3).
Na formularzu białka dostępne są opcje blastp, PSI-BLAST i PHI-BLAST. Wybór PSI-BLAST zamiast blastp wyświetla więcej sekwencji docelowych i pozwala użytkownikowi wybrać sekwencje do budowy PSSM dla następnej iteracji PSI-BLAST. Oba te przypadki wykorzystują „warunkowe dopasowanie kompozycyjnej macierzy wyników” (4). PHI-BLAST nie obsługuje poprawek kompozycyjnych, więc opcja znika, jeśli wybrano PHI-BLAST.
Dodano jedną nową zaawansowaną funkcję: BLAST wykrywa teraz krótkie sekwencje wejściowe dla formularzy wyszukiwania nukleotydów i białek, i dostosowuje parametry, aby zwiększyć szansę znalezienia odpowiednich dopasowań. Dla krótkich sekwencji (do 30 reszt dla białek, 50 zasad dla nukleotydów), BLAST teraz automatycznie zmniejsza rozmiar słowa (do siedmiu dla nukleotydów, dwóch dla białek), zwiększa wartość oczekiwaną (do 1000) i wyłącza filtrowanie o niskiej złożoności. Dodatkowo, białka używają macierzy punktacji PAM30 dla krótkich sekwencji, zgodnie z sugestią Altschula (5). Tę cechę można wyłączyć w sekcji Algorithm Parameters formularza.