BLAST form
ホームページからリンクされたすべての一般的な BLAST フォームは、共通のデザインになりました。 選択したプログラム タイプとアルゴリズムに対応するオプションのみが各フォームに表示されます。
フォームの上部にある [Enter Query Sequence] セクション (図 1) では、アクセッション番号または gi 番号、あるいは FASTA 形式の IUPAC シーケンスのいずれかで、1 つまたは複数のクエリー配列を入力することができます。 サポートされている IUPAC 文字は BLAST ヘルプの http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml に記載されています。 オプションのQuery Subrangeボックスは、検索範囲をクエリ配列のサブレンジに限定します。 テキスト ボックスに配列をカット/ペーストする代わりに、ローカル ディスク ファイルからクエリ配列をアップロードすることもできます。
新しい Job Title は、Saved Strategies と Recent Results、およびすべての BLAST レポートの上部に表示されるジョブ名です。 このタイトルは、レポートのブラウザ ウィンドウまたはタブのタイトル バーにも表示され、レポートへのブックマークのデフォルト タイトルとしても表示されます。 ジョブのデフォルトタイトルはクエリー配列の定義行(FASTAでは’>’で始まる行)ですが、デフォルトタイトルの上にタイプして、好きなようにラベル付けすることができます。 入力配列がアクセッション番号やgi番号の場合、BLASTウェブインタフェースはページを再読み込みすることなく、自動的にGenBankの定義行を検索します。 複数の配列が存在する場合、適切な説明的タイトルが生成されます (例 : ‘5 nucleotide sequences’)。
BLAST フォームの Choose Search Set セクションでは、検索する BLAST データベースを選択し、生物または Entrez クエリーなどの制限基準を適用します。 検索対象を特定の生物(種または分類群)に限定するには、学名、一般名、または taxid(NCBI Taxonomy データベース内の分類群に対する整数 ID)を入力します。 ユーザーが生物名を入力すると、Organism entry boxに候補のドロップダウン・リストが表示されます(図3)。 リストは20項目までに制限されており、各分類群がGenBankに出現する頻度の逆順にソートされ、より一般的に研究されている生物がリストの最上位に配置されます。 この「オートコンプリート」機能は、ユーザーがどのような生物名が利用可能かを知るのに役立ち、スペルミスやタイプミスを防ぎます。
生物名の補完候補は、ユーザーがタイプすると提示されます。 ユーザーのクエリに対する最初の20個のマッチが提示され、マッチする生物のどこでもマッチすることができます(例えば、platは、’plat’がターゲットテキストの先頭になくても、’duck billed platypus’を見つけます)。 詳細は本文をご覧ください。
各 BLAST フォームで指定された制限およびその他の値は、ブラウザ セッションの間、またはユーザーによってリセットされるまで有効です。 ユーザーが My NCBI にサインインしている場合、それらはブラウザ セッションを越えて有効です。
Nucleotide BLAST フォームには、追加の検索セット オプションがあります。 nucleotide Database セクションでは、3 つの一般的な選択肢があります。 Human genomic + transcript、Mouse genomic + transcript、Other の 3 つの一般的な選択肢があります。 ゲノム+転写産物のデータベースはNCBIの参照配列のみを含んでいます。 このデータベースには、その生物のゲノム配列とmRNAの両方が含まれているため、結果のレポートには両方の配列タイプが表示されます。 Other には、以前から利用可能なデータベースがドロップダウン リストで表示されます。
The genomic + transcript databases は、ヒトとマウスの配列を簡単に検索でき、ゲノムに対する転写物のアラインメントを自動的に表示します。 ヒトとマウスのデータセットには、新しい高速インデックス検索アルゴリズムが使用されており、典型的な検索の完了までの時間が4分の1に短縮されている(Morgulis,A. et al.) ヒトやマウス以外の生物の検索は、代替データベースを選択し、オプションでOrganism limitを選択するだけでよい。 ブラウザーのセッション内では、各 BLAST フォームはユーザーが最後に選択したデータベースを自動的に選択するので、代替データベースを選択するのは一度だけです。
BLAST フォームのプログラム選択セクションでは、検索とアライメントに使用するアルゴリズムを選択します。 ヌクレオチド検索では、megablast(デフォルト)、discontiguous megablast、blastn から選択できます。 タンパク質の検索では、blastp(デフォルト)、PSI-BLAST、PHI-BLASTが選択できます。 このセクションのヘルプ リンクは BLAST プログラム選択ガイドにつながり、アルゴリズムとその中から選択する基準について説明しています
このフォームの時点で、ほとんどのユーザーは単に BLAST ボタンを押して新しい検索を開始します。 以前、BLAST はデフォルトで結果を新しいウィンドウで表示していましたが、多くのユーザーはこれを煩わしく感じ、混乱していたようです。 新しいデフォルトの動作は、結果がフォームと同じウィンドウに表示される(それによってフォームが置き換わる)ことです。 ユーザーは、BLAST ボタンの横にあるチェックボックスをチェックすることにより、新しいウィンドウで結果を表示するよう要求できます。
選択したプログラムを調整するための詳細なパラメーターはフォームに残りますが、ごく一部のユーザーしか使用しないため、アルゴリズム パラメーターというリンクに折りたたまれています。 このリンクをクリックすると、パラメーター コントロールが表示されます。 もちろん、一度リンクをクリックすれば、ブラウザセッションの間、パラメータは表示されたままです。 これらのパラメーターは、選択したアルゴリズムによって変わります。
Nucleotide Form では、利用可能なアルゴリズムは、megablast、discontiguous megablast、および blastn です。 megablastを選択すると、大きなワードサイズ(現在28)が選択され、約95%の同一性のアラインメントに対して報酬とペナルティ(1および-2)が最適化されます(3)。 Discontiguous megablast と blastn は、種間比較により適したパラメータを持ち、ワード サイズは小さく (11)、報酬とペナルティは (2, -3) で、約 85% の同一性 (3) のアラインメントに最適化されます。 blastp の代わりに PSI-BLAST を選択すると、より多くのターゲット配列が表示され、次の PSI-BLAST 反復のための PSSM を構築する配列を選択することができます。 これらのケースはいずれも「条件付き構成スコア行列調整」(4)を使用しています。 PHI-BLAST は組成調整をサポートしていないので、PHI-BLAST を選択するとこのオプションは消えます。
1 つの新しい高度な機能が追加されました。BLAST は、塩基およびタンパク質検索形式に対して短い入力配列を検出し、関連するマッチが見つかる確率を高めるためにパラメータを調整するようになりました。 短い配列(タンパク質は30残基まで、ヌクレオチドは50塩基まで)に対して、BLASTは自動的にワードサイズを小さくし(ヌクレオチドは7、タンパク質は2)、期待値を大きくし(1000まで)、低複雑度フィルタリングをオフにするようになりました。 また、タンパク質では、Altschul (5)が提案したように、短い配列に対してPAM30スコアリングマトリックスを使用するようになりました。 この機能は、フォームのアルゴリズム・パラメータ・セクションでオフにすることができます
。