BLAST-Formular
Alle generischen BLAST-Formulare, die von der Homepage aus verlinkt sind, haben jetzt ein gemeinsames Design. Nur die Optionen, die dem ausgewählten Programmtyp und Algorithmus entsprechen, erscheinen auf jedem Formular.
Der Abschnitt „Enter Query Sequence“ (Abfragesequenz eingeben) am oberen Rand des Formulars (Abbildung 1) bietet die Möglichkeit, eine oder mehrere Abfragesequenzen einzugeben, entweder nach Zugriffs- oder Gi-Nummer oder als IUPAC-Sequenz im FASTA-Format. Die unterstützten IUPAC-Zeichen sind in der BLAST-Hilfe unter http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml dokumentiert. Die optionalen Query Subrange Boxen begrenzen die Suche auf einen Teilbereich der Abfragesequenz. Alternativ zum Ausschneiden/Einfügen der Sequenz in ein Textfeld können Sie die Abfragesequenz(en) auch von einer lokalen Datei hochladen.
Der neue Jobtitel ist der Jobname, der in Gespeicherte Strategien und Aktuelle Ergebnisse sowie oben in jedem BLAST-Bericht erscheint. Der Titel erscheint auch in der Titelleiste des Browserfensters oder der Registerkarte für den Bericht und als Standardtitel eines Lesezeichens für den Bericht. Der Standardtitel für einen Auftrag ist die Abfragesequenz-Definitionszeile (in FASTA die Zeile, die mit ‚>‘ beginnt), aber Sie können den Standardtitel überschreiben, um den Auftrag auf eine beliebige Weise zu benennen. Wenn es sich bei der Eingabesequenz um eine Akzessions- oder Gi-Nummer handelt, sucht die BLAST-Weboberfläche automatisch nach der Definitionszeile in GenBank, ohne die Seite neu zu laden. Wenn mehrere Sequenzen vorhanden sind, wird ein entsprechender beschreibender Titel generiert (z. B. ‚5 Nukleotidsequenzen‘).
Der Abschnitt ‚Choose Search Set‘ des BLAST-Formulars wählt die zu durchsuchende BLAST-Datenbank aus und wendet einschränkende Kriterien an, wie Organismus oder Entrez-Abfrage. Die Suche kann auf einen bestimmten Organismus (Art oder taxonomische Gruppe) beschränkt werden, indem der wissenschaftliche Name, der gebräuchliche Name oder taxid (die ganzzahlige ID für das Taxon in der NCBI-Taxonomiedatenbank) eingegeben wird. Während der Benutzer den Namen des Organismus eingibt, zeigt das Eingabefeld Organismus eine Dropdown-Liste mit möglichen Ergänzungen an (Abbildung 3). Der Benutzer kann jederzeit die Pfeil-nach-unten-Taste drücken, um durch die Liste der Auswahlmöglichkeiten zu blättern, und/oder die Eingabetaste drücken, um das ausgewählte Taxon auszuwählen. Die Liste ist auf 20 Einträge begrenzt und in umgekehrter Reihenfolge der Häufigkeit des Auftretens des jeweiligen Taxons in GenBank sortiert, wobei die am häufigsten untersuchten Organismen ganz oben in der Liste stehen. Diese „Autovervollständigungsfunktion“ hilft dem Benutzer zu wissen, welche Organismusnamen verfügbar sind, und verhindert Rechtschreib- und Tippfehler.
Potenzielle Vervollständigungen für Organismusnamen werden dem Benutzer während der Eingabe vorgeschlagen. Die ersten 20 Übereinstimmungen mit der Suchanfrage des Benutzers werden angezeigt, wobei Übereinstimmungen an einer beliebigen Stelle des passenden Organismus zulässig sind (z. B. findet plat „Entenschnabeltier“, obwohl „plat“ nicht am Anfang des Zieltextes steht). Siehe Text für Details.
Die Grenzen und andere Werte, die in jedem BLAST-Formular angegeben werden, bleiben für die Dauer der Browsersitzung in Kraft oder bis sie vom Benutzer zurückgesetzt werden. Wenn sich der Benutzer bei My NCBI anmeldet, bleiben sie über alle Browsersitzungen hinweg in Kraft.
Das Nukleotid-BLAST-Formular bietet zusätzliche Suchoptionen. Der Abschnitt Nukleotiddatenbank bietet drei allgemeine Auswahlmöglichkeiten: Human genomic + transcript, Mouse genomic + transcript und Other. Die genomischen + transkriptiven Datenbanken enthalten nur NCBI-Referenzsequenzen. Sie enthalten sowohl genomische Sequenzen als auch mRNAs für den Organismus, so dass beide Sequenztypen in dem resultierenden Bericht erscheinen. Andere enthält die zuvor verfügbaren Datenbanken in einer Dropdown-Liste. Wenn der Benutzer eine Datenbank aus dieser Liste auswählt, wird automatisch Andere ausgewählt.
Die Genom- und Transkriptdatenbanken erleichtern die Suche nach Sequenzen von Menschen und Mäusen und zeigen automatisch Transkript-Alignments zum Genom an. Die Datensätze für Mensch und Maus verwenden einen neuen schnellen indizierten Suchalgorithmus, der die Zeit bis zum Abschluss einer typischen Suche um das Vierfache verkürzt (Morgulis, A. et al., Manuskript in Vorbereitung). Für die Suche nach anderen Organismen als Mensch oder Maus müssen lediglich eine alternative Datenbank und eine optionale Organismusbeschränkung ausgewählt werden. Innerhalb einer Browsersitzung wählt jedes BLAST-Formular automatisch die Datenbank aus, die der Benutzer zuletzt gewählt hat, so dass eine alternative Datenbank nur einmal ausgewählt werden muss.
Der Abschnitt Programmauswahl des BLAST-Formulars wählt den für die Suche und das Alignment verwendeten Algorithmus aus. Für die Nukleotidsuche stehen die Optionen megablast (Standard), discontiguous megablast und blastn zur Verfügung. Für die Proteinsuche stehen die Optionen blastp (Standard), PSI-BLAST und PHI-BLAST zur Verfügung. Der Hilfe-Link für diesen Abschnitt führt zum BLAST-Programmauswahlhandbuch, in dem die Algorithmen und die Kriterien für die Auswahl zwischen ihnen beschrieben werden.
An dieser Stelle des Formulars werden die meisten Benutzer einfach die Schaltfläche BLAST drücken, um eine neue Suche zu starten. Bisher öffnete BLAST die Ergebnisse standardmäßig in einem neuen Fenster, was viele Benutzer als störend und verwirrend empfanden. Das neue Standardverhalten ist, dass die Ergebnisse im gleichen Fenster wie das Formular erscheinen (und somit das Formular ersetzen). Der Benutzer kann die Ergebnisse in einem neuen Fenster anzeigen lassen, indem er das Kontrollkästchen neben der BLAST-Schaltfläche anklickt.
Die detaillierten Parameter für die Einstellung des gewählten Programms bleiben auf dem Formular, aber sie sind jetzt unter einem Link mit dem Titel Algorithmus-Parameter zusammengefasst, da nur ein winziger Teil der Benutzer sie jemals verwendet. Wenn Sie auf den Link klicken, werden die Steuerelemente für die Parameter angezeigt. Sobald der Link angeklickt wird, bleiben die Parameter natürlich für den Rest der Browser-Sitzung sichtbar. Diese Parameter ändern sich je nach ausgewähltem Algorithmus.
Im Nukleotidformular sind die verfügbaren Algorithmen Megablast, diskontinuierlicher Megablast und Blastn. Die Wahl von megablast wählt eine große Wortgröße (derzeit 28) und optimiert Reward und Penalty (1 und -2) für Alignments von etwa 95 % Identität (3). Discontiguous megablast und blastn haben Parameter, die eher für Vergleiche zwischen verschiedenen Arten geeignet sind, mit einer kleineren Wortgröße (11) und Reward und Penalty (2, -3), die für Alignments von etwa 85 % Identität (3) optimiert sind.
Im Proteinformular stehen die Optionen blastp, PSI-BLAST und PHI-BLAST zur Auswahl. Wählt man PSI-BLAST anstelle von blastp, werden mehr Zielsequenzen angezeigt, und der Benutzer kann Sequenzen auswählen, um das PSSM für die nächste PSI-BLAST-Iteration zu erstellen. In beiden Fällen werden „bedingte Anpassungen der Kompositions-Score-Matrix“ verwendet (4). PHI-BLAST unterstützt keine Kompositionsanpassungen, so dass die Option verschwindet, wenn PHI-BLAST ausgewählt wird.
Eine neue erweiterte Funktion wurde hinzugefügt: BLAST erkennt jetzt kurze Eingabesequenzen für die Nukleotid- und Proteinsuchformen und passt die Parameter an, um die Wahrscheinlichkeit zu erhöhen, relevante Übereinstimmungen zu finden. Für kurze Sequenzen (bis zu 30 Reste für Proteine, 50 Basen für Nukleotide) verringert BLAST jetzt automatisch die Wortgröße (auf sieben für Nukleotide, zwei für Proteine), erhöht den Erwartungswert (auf 1000) und schaltet die Filterung bei geringer Komplexität aus. Darüber hinaus verwenden Proteine die PAM30-Bewertungsmatrix für kurze Sequenzen, wie von Altschul (5) vorgeschlagen. Diese Funktion kann im Abschnitt Algorithmus-Parameter des Formulars ausgeschaltet werden.