Abstract
Se ha informado que Cas9/CRISPR induce eficientemente la interrupción de genes dirigidos y la recombinación homóloga tanto en células procariotas como eucariotas. Así, hemos desarrollado una plataforma de diseño de secuencias de ARN guía para el sistema de silenciamiento Cas9/CRISPR para organismos modelo. La plataforma es fácil de usar para el diseño de ARNg con secuencias de consulta de entrada. Encuentra objetivos potenciales por PAM y los clasifica según factores como la singularidad, el SNP, la estructura secundaria del ARN y el contenido de AT. La plataforma permite a los usuarios cargar y compartir sus resultados experimentales. Además, la mayoría de las secuencias de ARN guía de los artículos publicados se han puesto en nuestra base de datos.
1. Introducción
La tecnología de ingeniería genética siempre ha sido un tema candente en la investigación de las ciencias de la vida. Con el desarrollo de la tecnología de modificación de genes, ciertos genes pueden ser eliminados o reducidos a un nivel inferior. La aparición de las nucleasas de dedos de zinc (ZFN) y de las nucleasas de tallo (TALEN) ha acelerado en gran medida el progreso en este campo, pero su eficacia es a menudo impredecible y resulta difícil dirigirse a los genes seleccionados.
Recientemente, se ha informado de que Cas9/CRISPR induce con éxito la interrupción dirigida de genes y la recombinación homóloga tanto en células procariotas como eucariotas con mayor eficacia en comparación con ZFN y TALEN . Además, es más fácil diseñar la secuencia guía y fácil de usar para el sistema Cas9/CRISPR. Esta novedosa tecnología tendrá un gran potencial de aplicación tanto en el campo de la investigación como en los ensayos clínicos.
Sin embargo, no existe ninguna herramienta disponible para el diseño del ARN guía del sistema de silenciamiento Cas9/CRISPR. Aunque Mali et al. han informado de la construcción de una biblioteca única de ARN guía del genoma humano, que cubre más del 40% de los exones humanos, no proporcionaron una herramienta para que los investigadores diseñaran nuevas secuencias objetivo para otros organismos modelo.
La biblioteca existente tampoco tuvo en cuenta los factores de influencia relacionados, como el SNP, la deleción o inserción en el genoma y la posible estructura secundaria del ARN. Según nuestra comprensión actual del proceso de maduración del ARNg, la estructura secundaria del ARNg es crucial para el complejo Cas9-ARNg. La secuencia de ARN guía de 20 pb se utiliza para unirse con el sitio objetivo en los genomas. Si la mayoría de ellos están involucrados en los bucles de ARN, la eficiencia para unirse a los sitios de destino sería baja. Por lo tanto, este factor debe tenerse en cuenta. Además, la eficacia de la interferencia está probablemente relacionada con la temperatura de fusión del híbrido ARNg-ARN. Un contenido relativamente alto de AT se correlaciona negativamente con el efecto off-target, por lo que una secuencia con un porcentaje de AT extremadamente bajo es, en cierta medida, poco recomendable.
Así, hemos desarrollado una plataforma online para el diseño de ARN guía del sistema de silenciamiento Cas9/CRISPR (http://cas9.cbi.pku.edu.cn/), con información de variantes de ADN integrada. Esta herramienta ayuda a los investigadores a diseñar sus secuencias de ARN guía candidatas con mayor facilidad y proporciona asistencia a los usuarios para elegir mejores candidatos en función de los resultados preliminares.
2. Materiales y Métodos
Tanto las secuencias de ARN guía como su correspondiente eficiencia fueron recogidas manualmente de la literatura y almacenadas en nuestra base de datos. Para el diseño del ARN guía, utilizamos un marco de trabajo Java que contiene principalmente 5 pasos, y que se conecta al servidor web Tomcat.
En el primer paso, el programa encontraría cualquier secuencia candidata basada en el principio de patrón de secuencia N20NGG, donde NGG representa la secuencia PAM, utilizando la coincidencia de expresiones regulares de Java. En el segundo paso, el programa pondría todas las secuencias candidatas en un archivo fasta y ejecutaría bowtie 0.12.9 para comprobar si pueden ser mapeadas en el genoma del organismo modelo seleccionado de forma única. Los parámetros para bowtie eran «-f -v 1 -k 10 -l 16 -S», ya que «-f» le decía a bowtie que la entrada era un archivo fasta, «-v 1» para permitir sólo un desajuste como máximo, «-k 10» para informar de hasta 10 alineaciones buenas, «-l 16» para establecer la longitud de la semilla en 16, y «-S» para dar salida al formato sam. Como la longitud de la región objetivo era sólo de 23 pb, la longitud de semilla por defecto de 28 para bowtie no era adecuada para este trabajo, así que la ajustamos a 16. Pensamos que el número de desajustes podría afectar en gran medida a la eficacia, y este paso se centró principalmente en la comprobación de la unicidad del mapeo, por lo que sólo buscamos aciertos con un máximo de un desajuste y la salida de un máximo de 10 aciertos. El resultado del mapeo sería analizado en Java, y luego, en el tercer paso, se llamaría a tabix 0.2.5 para encontrar cualquier SNP superpuesto o indels como se informó en dbSNP135, si el genoma objetivo era el humano hg19. El archivo dbSNP135 vcf se descargó del paquete GATK. En el cuarto paso, se predecían las estructuras secundarias de ARN para esas secuencias candidatas de ARNg llamando a Vienna RNAfold 2.0.7 con parámetros por defecto . En el último paso, el programa reorganizó toda la información para el ARNg diseñado y lo formateó en un HTML de mejor aspecto. También se calculó el AT% y la distancia de las variantes al extremo 3′ de la región objetivo. Los ARNg de salida se clasificaron tanto por el número de aciertos en el mapeo como por el número de SNPs superpuestos. El consumo de tiempo de esta línea de producción se debió principalmente a la ejecución de Bowtie y a veces de Tabix, cuando existían muchas secuencias objetivo, y fue de aproximadamente tres segundos para una secuencia de consulta.
3. Resultados y discusión
Se permiten múltiples secuencias de genes para el diseño de ARNg por lotes y la línea de producción de esta plataforma se muestra en la Figura 1. Los resultados contienen información sobre los loci genómicos de los ARNg y SNP/INDEL dentro de ellos. Esto ayudaría a los investigadores a elegir un candidato objetivo más único y evitar SNP/inserción/deleción. Además, esta plataforma evalúa todos los candidatos en función de su estructura secundaria de ARN y su contenido de AT, lo que permite a los usuarios elegir mejores candidatos (Figura 2).
Línea de flotación de la plataforma de diseño de ARN guía. Las secuencias objetivo se buscan en todo el genoma para comprobar la singularidad y, a continuación, se comprueba el estado de SNP/indel. Los resultados se emiten de arriba a abajo con más únicos y menos SNP/indel. La estructura secundaria completa del ARNg también se da como referencia.
Instrucción de la función de la plataforma. Visión general de la interfaz de la plataforma. (A)-(C) representan las funciones y la base de datos. (D) representa el sentido/antisentido y la información de posición de las secuencias de salida en las secuencias objetivo. (E) representa la unicidad y el estado SNP/indel. (F) representa la estructura secundaria del ARNg maduro.
Recientemente, Jiang et al. informan que sólo los primeros seis pares de bases cerca de PAM son de gran importancia para la eficiencia de reconocimiento en las bacterias . Se desconoce si este sigue siendo el caso de las células eucariotas o incluso de los mamíferos. Seguiremos actualizando nuestro algoritmo para clasificar los gRNAs candidatos.
Realizamos una validación utilizando los resultados reportados en nuestra plataforma sobre factores, como la singularidad, el SNP, y la base en los bucles (Tabla 1, la fuente cursiva representa objetivos de baja eficiencia). Cuanto más único, con menos SNP y base en bucles, generalmente el ARNg es más eficiente. Para el gen PVALB dado, la primera secuencia objetivo es un 50% más eficiente que las dos restantes, ya que la primera tiene 0 SNP mientras que el resto tiene 3 o 2 SNPs. La primera secuencia objetivo tiene menos pares de bases implicados en los bucles de la estructura secundaria del ARN, lo que le permite unirse más al genoma objetivo, mientras que las otras dos tienen 9 pares de bases en los bucles. Para el gen AAVS1, la primera diana es más del doble de eficiente que la otra, ya que la otra tiene un sitio fuera de la diana en los genomas. Para el gen dado VEGFA, el primero es aproximadamente la mitad de eficiente que los otros dos, ya que tiene 1 SNP mientras que el resto no tiene ninguno.
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ND representa no detectable. La letra cursiva representa gRNAs de baja eficiencia dentro del mismo grupo de genes. |
El contenido de AT es un factor crucial como los mencionados anteriormente, ya que la evidencia no es clara. Por lo tanto, lo enumeramos aquí como una consideración para los usuarios.
4. Conclusiones
Nuestra plataforma es un software fácil de usar para identificar sitios potenciales de ARNg eficientes dentro de secuencias dadas para organismos modelo, evitando los efectos off-target y los SNPs. Esta plataforma también permite a los usuarios buscar secuencias de ARN guía/protospacer existentes y compartir sus resultados. Hemos extraído manualmente la mayoría de las secuencias de ARN guía/protospacer en nuestra base de datos como referencia y la ampliaremos con los nuevos trabajos publicados.
Divulgación
La plataforma en línea, la base de datos y el documento están disponibles en http://cas9.cbi.pku.edu.cn/.
Contribución de los autores
Ming Ma y Adam Y. Ye contribuyeron a partes iguales a este trabajo. Ming Ma concibió la idea y Adam Y. Ye, Weiguo Zheng realizaron la programación y la construcción del sitio web. Lei Kong supervisó todo el trabajo y dio orientación. Ming Ma, Adam Y. Ye y Lei Kong redactaron el documento.