Formulário BLAST
Todos os formulários genéricos BLAST ligados a partir da página inicial partilham agora um design comum. Apenas as opções correspondentes ao tipo de programa e algoritmo selecionado aparecem em cada formulário.
A seção Enter Query Sequence no topo do formulário (Figura 1) fornece um lugar para inserir uma ou mais sequências de consulta, seja por adesão ou número gi, ou como sequência IUPAC no formato FASTA. Os caracteres IUPAC suportados são documentados na ajuda BLAST em http://www.ncbi.nlm.nih.gov/BLAST/blastcgihelp.shtml. As caixas opcionais de Sub-amplitude de consulta limitam a pesquisa a uma subamplitude da sequência de consulta. Como alternativa para cortar/colar a sequência numa caixa de texto, você também pode carregar a(s) sequência(ões) de consulta a partir de um ficheiro de disco local.
O novo Título do Trabalho é o nome do trabalho que aparece em Estratégias Guardadas e Resultados Recentes, bem como no topo de cada relatório BLAST. O título também aparece na barra de título da janela ou guia do navegador para o relatório, e como título padrão de qualquer bookmark para o relatório. O título padrão para um trabalho é a linha de definição da sequência de consulta (em FASTA, a linha que começa com ‘>’), mas você pode digitar sobre o título padrão para rotular o trabalho da forma que você quiser. Quando a sequência de entrada é um número de acesso ou gi, a interface web BLAST procura automaticamente a linha de definição no GenBank sem recarregar a página. Se várias sequências estiverem presentes, um título descritivo apropriado é gerado (por exemplo ‘5 sequências nucleotídicas’).
A secção Choose Search Set do formulário BLAST selecciona a base de dados BLAST a ser pesquisada e aplica critérios limitantes, tais como organismo ou consulta Entrez. As pesquisas podem ser limitadas a um organismo específico (espécie ou grupo taxonômico), digitando o nome científico, nome comum ou taxid (o id inteiro do taxon na base de dados NCBI Taxonomy). Como o usuário digita o nome do organismo, a caixa de entrada Organismo solicita ao usuário uma lista drop-down de possíveis completações (Figura 3.) A qualquer momento, o usuário pode pressionar a tecla de seta para baixo para percorrer a lista de escolhas, e/ou pressionar a tecla Return para escolher o táxon selecionado. A lista é limitada a 20 itens, e é ordenada em ordem inversa de quantas vezes cada táxon aparece no GenBank, colocando organismos mais comumente estudados no topo da lista. Este recurso ‘autocompletar’ ajuda os usuários a saber quais nomes de organismos estão disponíveis, e evita erros de ortografia e digitação.
Os complementos potenciais para nomes de organismos são sugeridos como os tipos de usuários. As primeiras 20 correspondências para a consulta do utilizador são apresentadas, sendo permitidas correspondências em qualquer parte do organismo correspondente (por exemplo, a placa encontra ‘duck billed platypus’ mesmo que ‘plat’ não esteja no início do texto alvo). Ver texto para detalhes.
Os limites e outros valores especificados em cada formulário BLAST permanecem em vigor durante a duração da sessão do navegador, ou até que sejam reiniciados pelo usuário. Se o usuário entrar no My NCBI, eles permanecem em vigor durante as sessões do navegador.
O formulário BLAST do nucleotídeo tem opções adicionais de conjunto de pesquisa. A secção da base de dados de nucleótidos fornece três opções comuns: Genómica humana + transcrição, Genómica do rato + transcrição e Outra. As bases de dados genómico + transcript contêm apenas sequências de referência NCBI. Elas contêm sequências genómicas e mRNAs para o organismo, por isso ambos os tipos de sequências aparecem no relatório resultante. Outras contêm as bases de dados anteriormente disponíveis em uma lista suspensa. Se o usuário selecionar uma base de dados dessa lista, Outra é escolhida automaticamente.
As bases de dados genômicas + transcript facilitam a busca de seqüências humanas e de mouse, e mostram automaticamente os alinhamentos de transcript para o genoma. Os conjuntos de dados humanos e de mouse usam um novo algoritmo de busca indexada rápida que diminui o tempo de conclusão de uma busca típica por um fator de quatro (Morgulis,A. et al., manuscript em preparação). As buscas por organismos que não sejam humanos ou mouse requerem simplesmente a seleção de uma base de dados alternativa, e um limite opcional de Organismo. Dentro de uma sessão do navegador, cada formulário BLAST seleciona automaticamente a base de dados que o usuário escolheu por último, então uma base de dados alternativa deve ser escolhida apenas uma vez.
A seção Seleção de Programas do formulário BLAST seleciona o algoritmo usado para busca e alinhamento. Para buscas de nucleotídeos, as escolhas são megablast (padrão), discontiguous megablast e blastn. Para buscas de proteínas, as opções são blastp (padrão), PSI-BLAST e PHI-BLAST. O link de ajuda para esta seção leva ao guia de seleção do programa BLAST, que descreve os algoritmos e os critérios de escolha entre eles.
Neste ponto do formulário, a maioria dos usuários simplesmente pressionará o botão BLAST para iniciar uma nova busca. BLAST previamente aberto resulta em uma nova janela por padrão, o que muitos usuários acharam irritante e desorientador. O novo comportamento padrão é para que os resultados apareçam na mesma janela do formulário (substituindo assim o formulário). O usuário pode solicitar resultados em uma nova janela marcando a caixa de seleção ao lado do botão BLAST.
Parâmetros detalhados para ajuste do programa escolhido permanecem no formulário, mas agora estão colapsados sob um link intitulado Parâmetros de Algoritmo, uma vez que apenas uma pequena fração de usuários já os utilizou. Clicando no link, os controles de parâmetros são revelados. Claro que, uma vez clicado o link, os parâmetros permanecem visíveis durante o resto da sessão do navegador. Estes parâmetros mudam dependendo do algoritmo selecionado.
Na forma de nucleotídeo os algoritmos disponíveis são megablast, megablast descontíguos e blastn. A escolha de megablast selecciona um tamanho de palavra grande (actualmente 28) e optimiza a recompensa e penalização (1 e -2) para alinhamentos de cerca de 95% de identidade (3). Os megablast e blastn discontíguos têm parâmetros mais adequados para comparações entre espécies, com um tamanho de palavra menor (11) e recompensa e penalidade (2, -3) que otimizam para alinhamentos de cerca de 85% de identidade (3).
Na forma de proteína as escolhas disponíveis são blastp, PSI-BLAST e PHI-BLAST. A escolha de PSI-BLAST em vez de blastp exibe mais sequências de alvo, e permite ao utilizador seleccionar sequências para construir o PSSM para a próxima iteração PSI-BLAST. Ambos os casos usam ‘ajustes de matriz de composição condicional de partituras’ (4). PHI-BLAST não suporta ajustes de composição, portanto a opção desaparece se PHI-BLAST for selecionado.
Um novo recurso avançado foi adicionado: BLAST agora detecta sequências curtas de entrada para as formas de pesquisa de nucleotídeos e proteínas, e ajusta parâmetros para melhorar a chance de encontrar correspondências relevantes. Para sequências curtas (até 30 resíduos para proteínas, 50 bases para nucleotídeos), BLAST agora diminui automaticamente o tamanho da palavra (para sete para nucleotídeos, dois para proteínas), aumenta o valor esperado (para 1000), e desliga a filtragem de baixa complexidade. Além disso, as proteínas utilizam a matriz de pontuação PAM30 para sequências curtas, como sugerido por Altschul (5). Este recurso pode ser desativado na seção Parâmetros de Algoritmo do formulário.