Científicos de HSE (Health and Safety Executive University) han propuesto una forma de mejorar la precisión para encontrar ADN-Z, o regiones de ADN que están giradas hacia la izquierda en lugar de hacia la derecha. Para ello, utilizaron redes neuronales y un conjunto de datos de más de 30.000 experimentos realizados por diferentes laboratorios de todo el mundo. Los detalles del estudio se publican en Scientific Reports.
Durante los 67 años que han pasado desde el descubrimiento de la estructura del ADN, los científicos han encontrado muchas variaciones estructurales de esta molécula. A veces, las estructuras de ADN no se parecen en absoluto a la doble hélice habitual, que se llama ADN-B: pueden diferir del ADN-B por el número de cadenas (de dos a cuatro), la densidad y el grosor de la cadena, la forma en que el las bases están unidas, y la dirección del giro de la hélice.
Una de las estructuras, ADN-Z, está compuesta por una doble hélice, girada de manera diferente, hacia la izquierda en lugar de hacia la derecha, es decir, es levógira. Se sabe que las regiones de ADN-Z se encuentran en las células de varios organismos (desde bacterias hasta humanos), surgen bajo ciertas condiciones (por ejemplo, en ADN superenrollado o con alta concentración de sal) y se pueden combinar con otras estructuras de ADN en una molécula. Por ejemplo, si, por alguna razón, la molécula de ADN-B está superenrollada hasta el punto de complicar la transcripción (síntesis de ARN basada en ADN), algunas de sus secciones pueden torcerse en la dirección opuesta, aliviando así el «estrés» innecesario. Los científicos también sugieren que el ADN-Z puede regular la transcripción y aumentar la probabilidad de mutaciones. Algunas investigaciones sugieren que la formación de ADN-Z puede estar asociada con ciertas enfermedades como el cáncer, la diabetes y el Alzheimer. Recientemente, han aparecido muchos estudios que muestran el papel del ADN-Z en la respuesta inmune innata, la reacción a virus y otros patógenos dentro de la propia célula.
«Con la ayuda de las redes neuronales, no sólo pudimos replicar los experimentos, sino que también pudimos predecir los sitios potenciales de formación del ADN-Z en el genoma»
Para conocer más sobre las condiciones de formación y el papel biológico de las regiones de ADN-Z, es necesario disponer de métodos para encontrar su ubicación en el genoma. El primer mapa genético con el marcado de sitios de ADN-Z se compiló en 1997, basado en datos experimentales sobre la unión estructural de nucleótidos consecutivos.
En los últimos años, han surgido métodos en los que se predice la ubicación de regiones distintas del ADN-B utilizando algoritmos informáticos. Los avances en el aprendizaje automático han hecho posible utilizar otra herramienta poderosa para esta tarea: las redes neuronales. A diferencia de la mayoría de los métodos, las redes neuronales pueden tener en cuenta muchos factores y no requieren que los científicos seleccionen de antemano algunos de los más influyentes. Pero incluso para las redes neuronales, la búsqueda de ADN-Z sigue siendo una tarea difícil, ya que no hay suficientes datos experimentales: el ADN-Z aparece y desaparece, y un experimento registra sólo una pequeña parte de estas regiones. Los investigadores decidieron probar si la precisión de las redes neuronales aumenta con la adición de información de datos ómicos, o información sobre cómo se regulan al completo la actividad genética y la síntesis de proteínas en las células.
Los científicos comenzaron comparando cómo tres tipos de redes neuronales —convolucional, recurrente y una combinación de las dos primeras— pueden manejar la tarea. Una red neuronal convolucional se usa con mayor frecuencia para el procesamiento de imágenes, mientras que una red neuronal recurrente se usa con mayor frecuencia para analizar textos. Los tres tipos de redes neuronales ya se han probado en problemas relacionados con el estudio del genoma. En total, los autores del estudio entrenaron y evaluaron 151 modelos en el conjunto de datos de ADN ampliado por datos ómicos. Una de las redes neuronales recurrentes, que los autores llamaron DeepZ, arrojó los mejores resultados y la usaron para predecir nuevas regiones de ADN-Z en el genoma humano. Su precisión excede significativamente la precisión del algoritmo existente, Z-Hunt.
Con la ayuda de DeepZ, los científicos mapearon la secuencia completa del genoma humano, determinando para cada nucleótido la probabilidad de que termine dentro de una región de ADN-Z. Una secuencia de varios nucleótidos para la que la probabilidad excedía un cierto valor umbral se marcó como un sitio objetivo potencial.
«Los resultados de este estudio son importantes porque, con la ayuda de las redes neuronales, no sólo pudimos replicar los experimentos, sino que también pudimos predecir los sitios potenciales de formación del ADN-Z en el genoma«, afirma Maria Poptsova, líder del estudio y Jefa del Laboratorio de Bioinformática de la Facultad de Ciencias de la Computación de la Universidad HSE. «La abundancia de señales de ADN-Z sugiere que se utilizan activamente para activar y desactivar genes. Esta es una señal más rápida que los motivos genómicos. Por ejemplo, el estudio del grupo de científicos de Australia ha demostrado que ADN-Z sirve como una señal en el entrenamiento para suprimir el miedo. Aparentemente, el ADN-Z apareció evolutivamente en los casos en que se requería una reacción rápida a los eventos. Planeamos iniciar proyectos conjuntos con grupos experimentales para probar las predicciones«.
Los autores demostraron un enfoque novedoso para predecir regiones de ADN-Z utilizando datos ómicos y métodos de aprendizaje profundo. El marcado del genoma generado por la red neuronal ayudará a los científicos a realizar experimentos para detectar ADN-Z, cuyo espectro completo apenas comienza a emerger.
Fuente: Scientific Reports.