Abstract
Cas9/CRISPR tem sido relatado para induzir eficientemente a disrupção genética dirigida e recombinação homóloga tanto em células procarióticas como eucarióticas. Assim, desenvolvemos um Guia RNA Sequence Design Platform para o sistema de silenciamento Cas9/CRISPR para organismos modelo. A plataforma é fácil de usar para o projeto do gRNA com seqüências de consulta de entrada. Ela encontra potenciais alvos pelo PAM e os classifica de acordo com fatores como singularidade, SNP, estrutura secundária de RNA, e conteúdo AT. A plataforma permite que os usuários carreguem e compartilhem seus resultados experimentais. Além disso, a maioria das sequências de RNA guia de artigos publicados foram colocados em nossa base de dados.
1. Introdução
A tecnologia de engenharia genética tem sido sempre um tema quente na pesquisa das ciências da vida. Com o desenvolvimento da tecnologia de modificação de genes, certos genes podem ser eliminados ou derrubados a um nível inferior. O aparecimento da nuclease do dedo de zinco (ZFN) e da nuclease do conto (TALEN) acelerou muito o progresso neste campo, mas a sua eficiência é muitas vezes imprevisível e é difícil atingir genes seleccionados .
Recentemente, Cas9/CRISPR tem sido relatado para induzir com sucesso a disrupção de genes alvo e recombinação homóloga tanto em células procarióticas como eucarióticas com maior eficiência em comparação com ZFN e TALEN . Além disso, é mais fácil de desenhar a seqüência guia e fácil de usar para o sistema Cas9/CRISPR . Esta nova tecnologia terá um grande potencial de aplicação tanto no campo da investigação como nos ensaios clínicos.
No entanto, não há nenhuma ferramenta disponível para o desenho do guia RNA do sistema silenciador Cas9/CRISPR. Embora Mali et al. tenham relatado a construção de uma biblioteca de RNA guia do genoma humano inteiro, cobrindo mais de 40% de exões humanos, eles não forneceram uma ferramenta para os pesquisadores desenharem seqüências de alvo novas para outros organismos modelo.
Biblioteca existente também não levou em consideração fatores de influência relacionados, tais como SNP, deleção ou inserção no genoma, e estrutura secundária potencial do RNA. De acordo com nosso entendimento atual do processo de maturação do gRNA, a estrutura secundária do gRNA é crucial para o complexo Cas9-gRNA. A seqüência de RNA guia de 20 bp é usada para ligar com o local alvo em genomas. Se a maioria deles estiver envolvida em loops de RNA, a eficiência para se ligar com o local alvo seria baixa. Portanto, este fator deve ser levado em consideração. Além disso, a eficiência da interferência está provavelmente intimamente relacionada com a temperatura de fusão do gRNA-DNA híbrido. Um conteúdo relativamente alto de AT está negativamente correlacionado com o efeito fora do alvo, e assim a seqüência com a porcentagem de AT extremamente baixa não é, até certo ponto, recomendada .
Assim, desenvolvemos uma plataforma online para o projeto do guia RNA do sistema silenciador Cas9/CRISPR (http://cas9.cbi.pku.edu.cn/), com informações de variantes de DNA integradas. Esta ferramenta ajuda os pesquisadores a projetar mais facilmente suas seqüências de RNA do guia de candidatos e fornece assistência aos usuários para escolher melhores candidatos com base nos resultados preliminares.
2. Materiais e Métodos
As seqüências de RNA do guia e sua correspondente eficiência foram coletadas manualmente da literatura e armazenadas em nosso banco de dados. Para projetar o RNA guia, usamos um framework Java contendo principalmente 5 passos, e conectando ao servidor web Tomcat.
No primeiro passo, o programa encontraria qualquer seqüência de candidatos baseada no princípio de padrão de seqüência N20NGG, onde NGG representa a seqüência PAM, utilizando a correspondência de expressões regulares Java. No segundo passo, o programa colocaria todas as seqüências candidatas em um arquivo fasta e executaria o bowtie 0.12.9 para verificar se elas poderiam ser mapeadas no genoma do organismo modelo selecionado de forma única . Os parâmetros para o bowtie eram “-f -v 1 -k 10 -l 16 -S”, como “-f” disse ao bowtie que a entrada era um arquivo fasta, “-v 1” por permitir apenas um mismatch no máximo, “-k 10” reportando até 10 bons alinhamentos, “-l 16” definindo o comprimento da semente para 16, e “-S” emitindo o formato sam. Como o comprimento da região alvo era de apenas 23 bp, o comprimento padrão da semente 28 para bowtie não era adequado para este trabalho, então nós ajustamos para 16. Pensamos que o número de desencontros poderia afetar em grande parte a eficácia, e este passo se concentrou principalmente na verificação da singularidade do mapeamento, então apenas procuramos por acertos com no máximo um desencontro e saída com no máximo 10 acertos. O resultado do mapeamento seria analisado em Java, e então, na terceira etapa, chamaríamos tabix 0.2.5 para descobrir quaisquer SNPs ou indels sobrepostos, como relatado no dbSNP135 , se o genoma alvo fosse humano hg19. O arquivo dbSNP135 vcf foi baixado do pacote GATK. No quarto passo, ele iria prever estruturas secundárias de RNA para aquelas seqüências gRNA candidatas, chamando o Vienna RNAfold 2.0.7 com parâmetros padrão . No último passo, o programa rearranjou toda a informação para o gRNA projetado e formatou-o para HTML com melhor aparência. O AT% e a distância das variantes até o final da região alvo 3′ também foram calculados. Os gRNAs de saída foram ordenados tanto pelo número de acertos de mapeamento quanto pelo número de SNPs sobrepostos. O consumo de tempo para este pipeline foi principalmente na execução de bowtie e às vezes tabix, quando existiam muitas seqüências de alvo, e foi cerca de três segundos para uma seqüência de consulta.
3. Resultados e Discussão
Seqüências de genes múltiplos são permitidas para o projeto de gRNA em lote e a racionalidade desta plataforma é mostrada na Figura 1. Os resultados contêm informações genômicas dos gRNAs e SNP/INDEL dentro deles. Isto ajudaria os pesquisadores a escolher um candidato alvo mais único e evitar SNP/inserção/deleção. Além disso, esta plataforma avalia todos os candidatos com base em sua estrutura secundária de RNA e conteúdo AT, permitindo aos usuários escolherem melhores candidatos (Figura 2).
Agelhoria da plataforma de desenho de RNA guia. As seqüências alvo são pesquisadas por todo o genoma para verificar a singularidade, e então verificar o status SNP/indel. Os resultados são emitidos de cima para baixo com mais SNP/indel e menos SNP/indel. Toda a estrutura secundária do gRNA também é dada como referência.
Instrução da função da plataforma. Visão geral da interface da plataforma. (A)-(C) representam funções e banco de dados. (D) representa as informações de sentido/anti-senso e posição das sequências de saída nas sequências de destino. (E) representa a singularidade e o estado SNP/indel. (F) representa estrutura secundária do gRNA maduro.
Recentemente, Jiang et al. relatam que apenas os primeiros seis pares de bases próximos ao PAM são de grande importância para a eficiência do reconhecimento em bactérias . Não se sabe se este ainda é ou não o caso das células eucarióticas ou mesmo das células de mamíferos. Vamos continuar a actualizar o nosso algoritmo para classificar os gRNAs candidatos.
Conduzimos uma validação usando os resultados reportados na nossa plataforma sobre factores, tais como unicidade, SNP, e base em loops (Tabela 1, fonte itálica representa alvos de baixa eficiência). Quanto mais único, com menos SNPs e base em loops, geralmente o gRNA é mais eficiente. Para o gene PVALB dado, a primeira sequência de alvos é 50% mais eficiente do que as outras duas, já que a primeira tem 0 SNP enquanto as restantes têm 3 ou 2 SNPs. A primeira sequência alvo tem menos pares de bases envolvidas em loops de estrutura secundária do RNA, permitindo que se ligue mais com o genoma alvo, enquanto os dois restantes têm 9 pares de bases em loops. Para o gene dado AAVS1, o primeiro alvo é mais que duas vezes mais eficiente do que o outro, já que o outro tem um local fora do alvo em genomas. Para o determinado gene VEGFA, o primeiro é cerca de metade eficiente com os outros dois, já que tem 1 SNP enquanto os outros dois não têm nenhum.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND representa não detectável. A fonte itálica representa gRNAs de baixa eficiência dentro do mesmo grupo genético. |
O conteúdo deAT é fator crucial como os mencionados anteriormente, uma vez que as evidências não são claras. Assim, listamos aqui como uma consideração para os usuários.
4. Conclusões
Nossa plataforma é um software fácil de usar para identificar potenciais sites gRNA eficientes dentro de determinadas seqüências para organismos modelo, evitando efeitos fora do alvo e SNPs. Esta plataforma também permite aos usuários pesquisar seqüências de RNA/protospacer de guias existentes e compartilhar seus resultados. Nós extraímos manualmente a maioria das sequências de gRNA/protospacer reportadas em nosso banco de dados para referência e vamos expandi-lo com trabalhos recém publicados.
Disclosure
A plataforma online, banco de dados e documento estão disponíveis em http://cas9.cbi.pku.edu.cn/.
Contribuição dos autores
Ming Ma e Adam Y. Ye contribuíram igualmente para este trabalho. Ming Ma concebeu a idéia e Adam Y. Ye, Weiguo Zheng conduziu a programação e a construção do site. Lei Kong supervisionou todo o trabalho e deu orientações. Ming Ma, Adam Y. Ye, e Lei Kong redigiram o trabalho.