Un nuevo artículo sobre un modelo celular de 27 mil millones de parámetros no se trata solo de biología. Es ingeniería de datos y un plan para el futuro de la IA aplicada. El equipo construyó un modelo de 27B parámetros que realizó un descubrimiento científico.Un nuevo artículo sobre un modelo celular de 27 mil millones de parámetros no se trata solo de biología. Es ingeniería de datos y un plan para el futuro de la IA aplicada. El equipo construyó un modelo de 27B parámetros que realizó un descubrimiento científico.

Google y Yale convirtieron la biología en un lenguaje: he aquí por qué esto es un cambio de juego para los desarrolladores

2025/11/22 23:00

Un nuevo artículo sobre un modelo celular de 27 mil millones de parámetros no es solo sobre biología. Es ingeniería de datos y un plan para el futuro de la IA aplicada.

\ Si eres un ingeniero de IA, necesitas dejar lo que estás haciendo y leer el nuevo preprint C2S-Scale de una colaboración entre Yale y Google.

\ En la superficie, parece un artículo de bioinformática especializado. En realidad, es uno de los manifiestos arquitectónicos más importantes para la IA aplicada que he visto en años. El equipo construyó un modelo de 27B parámetros que no solo analizó datos biológicos, sino que hizo un descubrimiento científico novedoso, validado en laboratorio sobre una potencial terapia contra el cáncer.

\ Como constructor, estoy menos interesado en el fármaco específico que encontraron y más obsesionado con cómo lo encontraron. Su metodología es un manual que todo arquitecto e ingeniero de IA necesita entender.

El problema central: Los modelos de IA odian las hojas de cálculo

El desafío central al aplicar LLMs a datos científicos o empresariales es que estos modelos están entrenados en lenguaje, pero nuestros datos viven en hojas de cálculo, bases de datos y matrices masivas de alta dimensión. Intentar que un LLM entienda una matriz de expresión génica scRNA-seq en bruto es una pesadilla.

\ Durante años, el enfoque estándar ha sido construir arquitecturas personalizadas y a medida para la ciencia - IAs que intentan añadir algunas capacidades de lenguaje natural a un modelo diseñado para datos numéricos. Esto es lento, costoso, y pierdes las enormes leyes de escalado y las rápidas innovaciones del ecosistema LLM convencional.

\ La brillante perspectiva del equipo C2S-Scale fue darle la vuelta al problema.

La obra maestra arquitectónica: Cell2Sentence

El genio del marco Cell2Sentence (C2S) es su simplicidad casi absurda. Toman el complejo perfil numérico de expresión génica de una sola célula y lo transforman en una simple cadena de texto.

\ ¿Cómo? Clasifican cada gen en la célula por su nivel de expresión y luego simplemente escriben los nombres de los genes top-K en orden.

\ El complejo estado biológico de una célula, como: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Se convierte en una simple frase celular legible por humanos: \n GeneB GeneC GeneA …

\ Este es un acto profundo de ingeniería de datos. Con este solo movimiento, ellos:

  1. Eliminaron la necesidad de arquitecturas personalizadas: Ahora pueden alimentar este lenguaje biológico directamente en una arquitectura Transformer estándar como Gemma o Llama. Pueden aprovechar la ola de toda la comunidad de investigación LLM gratis.
  2. Desbloquearon la multimodalidad: Su corpus de entrenamiento no eran solo frases celulares. Ahora podían mezclar los resúmenes reales de los artículos científicos de los que se obtuvieron los datos. El modelo aprendió a correlacionar el lenguaje de la célula con el lenguaje del científico en una sola ejecución de entrenamiento unificada.
  3. Habilitaron la verdadera codificación de vibra para la biología: El modelo final no solo clasifica cosas. Puede tomar un prompt como, Genera una célula T CD8+ pancreática, y generará una nueva frase celular sintética que representa la expresión génica de una célula que nunca ha existido.

La recompensa: Industrializando el descubrimiento científico

Esta brillante arquitectura es lo que permitió la aplicación estrella del artículo. El equipo ejecutó una pantalla virtual para encontrar un fármaco que pudiera aumentar la visibilidad de una célula cancerosa para el sistema inmunológico.

\ Esto no fue una simple consulta de base de datos. Fue un experimento in-silico. El modelo predijo que un fármaco específico, silmitasertib, tendría este efecto, pero solo bajo el contexto específico de la señalización de interferón.

\ Llevaron esta hipótesis novedosa generada por IA a un laboratorio real, realizaron los experimentos físicos, y demostraron que era correcta.

\ Este es el nuevo paradigma. La IA no solo encontró una respuesta en sus datos de entrenamiento. Sintetizó su comprensión tanto del lenguaje biológico como del lenguaje humano para generar un nuevo conocimiento no obvio y finalmente verdadero. Es un sistema para industrializar la serendipia.

Lo que esto significa para los constructores

El artículo C2S-Scale es una guía de campo sobre cómo construir sistemas de IA de alto impacto en cualquier dominio complejo no textual, desde finanzas hasta logística y manufactura.

  1. Deja de doblar el modelo. Empieza a traducir tus datos. El trabajo más importante ya no está en diseñar una red neuronal personalizada. Está en el trabajo creativo y estratégico de encontrar una representación de Datos a Frases para tu dominio específico. ¿Cuál es el lenguaje de tu cadena de suministro? ¿Cuál es la gramática de tus datos financieros?
  2. La multimodalidad es un requisito, no una característica. El verdadero poder se desbloqueó cuando combinaron las frases celulares con los resúmenes de los artículos. Tus sistemas de IA deberían entrenarse no solo con tus datos estructurados, sino con el conocimiento humano no estructurado que los rodea: los registros de mantenimiento, los tickets de soporte, los memorandos estratégicos.
  3. El objetivo es un generador de hipótesis, no una máquina de respuestas. Los sistemas de IA más valiosos del futuro no serán los que puedan responder lo que ya se conoce. Serán aquellos que, como C2S-Scale, puedan generar hipótesis novedosas y comprobables que empujen los límites de lo posible.

Construyámoslo: Un ejemplo de Datos a Frases

Todo esto suena abstracto, así que hagámoslo concreto. Aquí hay un ejemplo de Python súper simplificado del concepto "Datos a Frases", aplicado a un dominio diferente: análisis de registros de servidor.

\ Imagina que tienes datos de registro estructurados. En lugar de alimentarlos a una IA como un JSON en bruto, podemos traducirlos a una "frase de registro".

import json def server_log_to_sentence(log_entry: dict) -> str: """ Traduce un diccionario de registro de servidor estructurado en una "frase de registro" legible por humanos. La "gramática" de nuestra frase es un orden fijo de importancia: status -> method -> path -> latency -> user_agent """ # Define el orden de importancia para nuestra "gramática" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # No solo agregamos el valor; le damos un prefijo semántico # Esto ayuda al LLM a entender el significado de cada parte. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combina la "frase de registro" generada por máquina con el contexto proporcionado por humanos para crear un prompt multimodal rico para un LLM. """ prompt = f""" Analiza la siguiente solicitud de servidor. **Contexto Humano:** "{human_context}" **Frase de Registro:** "{log_sentence}" Basado tanto en el contexto humano como en la frase de registro, ¿cuál es la probable intención del usuario y deberíamos preocuparnos? """ return prompt # --- Ejecución Principal --- if __name__ == "__main__": # 1. Nuestros datos estructurados en bruto (por ejemplo, de una base de datos o archivo de registro) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Traducir los datos al nuevo "lenguaje" log_sentence = server_log_to_sentence(raw_log) print("--- Datos Estructurados Originales ---") print(json.dumps(raw_log, indent=2)) print("\n--- 'Frase de Registro' Traducida ---") print(log_sentence) # 3. Combinar con contexto humano para un prompt multimodal human_context = "Hemos estado viendo una serie de llamadas API fallidas desde un script, no un navegador." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Prompt Multimodal Final para LLM ---") print(final_prompt) # Ahora, este final_prompt puede enviarse a cualquier LLM estándar para un análisis profundo. # El LLM ahora puede razonar sobre los datos de registro estructurados (como una frase) # y la observación humana no estructurada, simultáneamente.

Este simple script demuestra el patrón arquitectónico central. La transformación de Datos a Frases es la clave. Nos permite tomar cualquier dato estructurado y representarlo en el lenguaje nativo de los modelos de IA más poderosos, desbloqueando un nuevo mundo de razonamiento multimodal.

Oportunidad de mercado
Logo de WHY
Precio de WHY(WHY)
$0.00000001529
$0.00000001529$0.00000001529
0.00%
USD
Gráfico de precios en vivo de WHY (WHY)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.

También te puede interesar

Olga Lee incorpora a Rodrigo Lema como International Executive Producer para fortalecer su expansión internacional

Olga Lee incorpora a Rodrigo Lema como International Executive Producer para fortalecer su expansión internacional

La productora audiovisual Olga Lee anunció la incorporación de Rodrigo Lema como International Executive Producer. El nombramiento acompaña una etapa de crecimi
Compartir
Mercado2025/12/17 12:50
Faltantes de agua a EU se pueden cubrir hasta 2030, asegura SRE: ‘No afectará el abasto para México’

Faltantes de agua a EU se pueden cubrir hasta 2030, asegura SRE: ‘No afectará el abasto para México’

México dispone de un ciclo adicional hasta 2030 para cumplir con la entrega de agua a Estados Unidos. (Foto: Cuartoscuro)
Compartir
Elfinanciero2025/12/17 13:04
La compra olvidada de Bitcoin de Kevin Durant aumenta casi 200 veces

La compra olvidada de Bitcoin de Kevin Durant aumenta casi 200 veces

La publicación "La compra olvidada de Bitcoin de Kevin Durant aumenta casi 200 veces" apareció en BitcoinEthereumNews.com. La compra de Bitcoin de Durant en 2016 creció casi 200 veces en valor después de años sin acceso a la cuenta. Una compra de Bitcoin de $10K en ese momento valdría aproximadamente $1.8M al precio actual de $117K. La empresa de Durant trabajó con Coinbase para restaurar el acceso después de años de problemas de bloqueo de acceso. La estrella de la NBA Kevin Durant recuperó el acceso a una cuenta de Bitcoin que abrió en 2016, cuando BTC cotizaba alrededor de $650. Las monedas permanecieron intactas durante casi una década después de que perdiera sus credenciales de acceso. Con Bitcoin ahora por encima de $117,000, sus tenencias han aumentado casi 200 veces. Una entrada de $10,000 a precios de 2016 ahora está valorada cerca de $1.8 millones. El agente de Durant, Rich Kleiman, reveló la recuperación durante la conferencia Game Plan de CNBC en Los Ángeles, calificándola como una de las inversiones más lucrativas del atleta. La cuenta olvidada se benefició de la inactividad. Durant compró Bitcoin por primera vez mientras jugaba para los Golden State Warriors, después de asistir a una cena donde se habló de cripto. Él y Kleiman compraron a través de Coinbase, pero problemas de acceso los dejaron fuera. Relacionado: La prueba de tendencia de 8 años de Bitcoin a $117,250 podría definir el próximo movimiento. Kleiman confirmó que no se realizaron ventas durante múltiples ciclos alcistas. "Nunca hemos vendido nada", dijo, agregando que la pérdida de acceso preservó involuntariamente la acumulación de Durant durante rallies y correcciones. Coinbase interviene. La empresa de Durant, Thirty Five Ventures, se asoció con Coinbase en 2021, y el intercambio ha trabajado con ellos para restaurar el acceso. Coinbase dijo que su plataforma incluye herramientas de recuperación de auto-servicio y soporte 7x24 para casos similares. Con el acceso restaurado, Durant ahora posee Bitcoin que ha aumentado casi 200 veces desde su entrada. De Warriors a Rockets, Bitcoin sigue ganando. El dos veces campeón de la NBA y medallista de oro olímpico está listo para jugar con los Houston Rockets esta temporada después de una etapa con los Phoenix Suns. Fuera de la cancha, su experimento temprano con Bitcoin se ha convertido en una ganancia inesperada de millones de dólares que...
Compartir
BitcoinEthereumNews2025/09/20 00:06