En Resumen

  • Google DeepMind anunció AlphaGenome como un modelo de IA que analiza hasta un millón de pares de bases de ADN no codificante.
  • Los investigadores confirmaron que superó a modelos anteriores en 22 de 24 pruebas de predicción de secuencias genómicas.
  • La empresa señaló que ofrecerá acceso gratuito a través de una API para investigaciones no comerciales en todo el mundo.

AlphaGenome de Google DeepMind, que se anunció hoy, no es solo otra entrada en la carrera de la IA para la ciencia. Con acceso a la API disponible para investigaciones no comerciales, y una extensa documentación y soporte de la comunidad alojado en GitHub, señala que la genómica, una vez confinada a laboratorios especializados y conjuntos de datos con acceso restringido, se está moviendo rápidamente hacia la ciencia abierta.

Esto es realmente importante.

Imagina que tu ADN es como un manual de instrucciones gigante sobre cómo funciona tu cuerpo. Durante mucho tiempo, los científicos solo podían entender realmente las partes que le decían directamente a tu cuerpo cómo construir cosas, como proteínas. Pero la mayor parte de tu ADN, más del 90% de él, no es así. No construye nada directamente. Solían llamarlo "ADN basura".

Ahora sabemos que la "basura" en realidad está haciendo algo importante: ayuda a controlar cuándo y dónde se utilizan las instrucciones reales, algo así como un panel de control lleno de interruptores y diales. ¿El problema? Es realmente difícil de leer y entender.

Aquí es donde entra AlphaGenome.

AlphaGenome es un potente modelo de IA construido por Google DeepMind que puede leer estas partes confusas del ADN mejor que cualquier cosa anterior. Utiliza machine learning avanzado (como el que está detrás de los generadores de imágenes o los chatbots) para analizar secciones enormes de ADN, de hasta un millón de letras, y determinar qué partes son importantes, cómo afectan a tus genes e incluso cómo las mutaciones podrían llevar a enfermedades.

Es como tener un microscopio de IA súper inteligente que no solo lee el manual, sino que descubre cómo se enciende y se apaga todo el sistema, y qué sucede cuando las cosas van mal.

Lo interesante es que DeepMind está compartiendo esta herramienta a través de una API (una forma para que las computadoras se comuniquen con ella), por lo que científicos e investigadores médicos de todo el mundo pueden usarla de forma gratuita en sus investigaciones. Esto significa que podría ayudar a acelerar descubrimientos en áreas como enfermedades genéticas, medicina personalizada e incluso tratamientos antienvejecimiento.

En resumen: AlphaGenome ayuda a los científicos a leer las partes de nuestro ADN que no entendíamos antes, y eso podría cambiar todo en cuanto a cómo tratamos las enfermedades.

AlphaGenome es un modelo de deep learning diseñado para analizar cómo las secuencias de ADN regulan la expresión génica y otras funciones críticas. A diferencia de modelos anteriores que analizaban fragmentos cortos de ADN, AlphaGenome puede procesar secuencias de hasta un millón de pares de bases de longitud, una escala sin precedentes que le permite capturar interacciones regulatorias distantes que pasaban desapercibidas para métodos anteriores.

La fortaleza principal de AlphaGenome es su motor de predicción multimodal. A diferencia de modelos anteriores que podían predecir un tipo de actividad genómica, este modelo genera pronósticos de alta resolución para la expresión génica (ARN-seq, CAGE), eventos de empalme, estados cromatínicos (incluida la sensibilidad a la DNasa y las modificaciones de histonas) y mapas de contacto cromatínico en 3D.

Eso lo hace útil no solo para señalar qué genes están encendidos o apagados en una célula, sino también para comprender la compleja coreografía del plegamiento, la edición y la accesibilidad del genoma.

La arquitectura es notable, pero aún bastante familiar si has estado utilizando Stable Diffusion o un Large Language Model (LLM) de código abierto normal de manera local: AlphaGenome utiliza una red neuronal inspirada en U-Net, con aproximadamente 450 millones de parámetros entrenables.

Sí, eso es bastante bajo si lo comparas incluso con los modelos de lenguaje más débiles y más pequeños que trabajan con miles de millones de parámetros. Sin embargo, considerando que el ADN solo maneja 4 bases y solo dos pares, básicamente todo el genoma humano no es más que una combinación de 3.000 millones de pares de letras A-T y C-G, es un modelo muy específico, diseñado para hacer una sola cosa extremadamente bien.

El modelo tiene un codificador de secuencia que reduce la resolución de entrada de base única a representaciones más gruesas, luego las capas del modelo transformer manejan dependencias a largo plazo antes de que el decodificador reconstruya las salidas de nuevo al nivel de base única. Esto permite predicciones en varias resoluciones, lo que permite análisis regulatorios detallados y amplios.

El entrenamiento del modelo se basó en una amplia variedad de conjuntos de datos públicamente disponibles, incluidos ENCODE, GTEx, 4D Nucleome y FANTOM5, recursos que representan colectivamente miles de perfiles experimentales en tipos celulares humanos y de ratón.

Y este proceso también fue bastante rápido: utilizando TPUs personalizados de Google, DeepMind completó el proceso de pre-entrenamiento y destilación en solo cuatro horas, utilizando la mitad del presupuesto computacional requerido por su predecesor, Enformer.

AlphaGenome superó a los modelos de vanguardia en 22 de 24 pruebas de predicción de secuencias y 24 de 26 predicciones de efectos de variantes, un raro barrido limpio en benchmarks donde las mejoras incrementales son la norma. De hecho, hace el trabajo tan bien que puede comparar ADN mutado y no mutado, prediciendo el impacto de las variantes genéticas en segundos, una herramienta crítica para los investigadores que mapean los orígenes de las enfermedades.

Esto es importante, porque el genoma no codificante contiene muchos de los interruptores regulatorios que controlan la función celular y el riesgo de enfermedad. Modelos como AlphaGenome están revelando cuánto de la biología humana está gobernada por estas regiones previamente opacas.

La influencia de la IA en la biología hoy en día es difícil de ignorar. Tomemos a Ankh como ejemplo, un modelo de lenguaje de proteínas desarrollado por equipos de la Universidad Técnica de Múnich, la Universidad de Columbia y la startup Protinea. Ankh trata las secuencias de proteínas como lenguaje, generando nuevas proteínas y prediciendo su comportamiento, de manera similar a cómo AlphaGenome traduce la "gramática" regulatoria del ADN.

Otra tecnología adyacente como GenSLMs de Nvidia, demuestra la capacidad de la inteligencia artificial para predecir mutaciones virales y agrupar variantes genéticas para la investigación de pandemias. Mientras tanto, el uso de la inteligencia artificial para fomentar avances en intervenciones químicas y genéticas antienvejecimiento destaca la intersección entre la genómica, el machine learning y la medicina.

Una de las contribuciones más significativas de AlphaGenome es su accesibilidad. En lugar de estar restringido a aplicaciones comerciales, el modelo está disponible a través de una API pública para investigaciones no comerciales.

Aunque aún no es completamente de código abierto, lo que significa que los investigadores no pueden descargarlo, ejecutarlo o modificarlo localmente, la API y los recursos complementarios permiten a científicos de todo el mundo generar predicciones, adaptar análisis para diversas especies o tipos celulares, y proporcionar comentarios para dar forma a futuras versiones. DeepMind ha señalado planes para un lanzamiento más amplio de código abierto en el futuro.

AlphaGenome tiene la capacidad de analizar variantes no codificantes, el área donde se encuentran la mayoría de las mutaciones vinculadas a enfermedades, lo que podría desbloquear un nuevo entendimiento de trastornos genéticos y enfermedades raras. Su puntuación de variantes de alta velocidad también respalda la medicina personalizada, donde los tratamientos se adaptan al perfil de ADN único de cada individuo.

Por ahora, el genoma no codificante es menos una caja negra, y el papel de la inteligencia artificial en la genómica está destinado a expandirse. AlphaGenome puede que no sea el modelo que nos lleve al "Nuevo Mundo Feliz" de Huxley, pero es una clara señal de hacia dónde se dirigen las cosas: más datos, mejores predicciones y un entendimiento más profundo de cómo funciona la vida.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.