AI Platform: Agentes para ML Engineering y ML en Tiempo Real — DAIS 2026

Resumen

En el DAIS 2026, Databricks anunció tres capacidades mayores para acelerar workflows de machine learning: Genie Code como agente de IA para ML engineering, AI Runtime como plataforma serverless de GPUs para deep learning, y mejoras sustanciales a la infraestructura de ML en tiempo real con Feature Store y Model Serving de alta capacidad.

El mensaje central es que los agentes de código genéricos no pueden tomar las decisiones matizadas que requiere el ML de producción: calidad de datos, linaje de features, impacto en métricas de negocio. Genie Code está diseñado específicamente para entender ese contexto.

Genie Code para Machine Learning

Genie Code es un agente de código de IA integrado en el ciclo de vida completo de ML: desde la experimentación hasta el despliegue en producción. Se integra con Unity Catalog para comprensión del contexto de datos y gobernanza, y tiene conexiones nativas con Feature Store, Model Serving, Serverless Compute y AI Runtime.

La integración con MLflow proporciona gestión completa del ciclo de vida: ingeniería de features, experimentación, despliegue, monitoreo y detección de drift. El caso de Danfoss es notable: crearon un pipeline completo de ML en 90 minutos desde datos brutos hasta un despliegue gobernado y listo para producción.

Bosch usa Genie Code para gestión de múltiples hilos en paralelo. FactSet redujo el tiempo de entrenamiento de modelos de días a horas con configuración de infraestructura simplificada.

AI Runtime (Public Preview)

AI Runtime es una plataforma serverless de entrenamiento de GPUs que elimina la complejidad de infraestructura para workloads de deep learning. Requiere solo 2-3 clics para configurar, con GPUs NVIDIA A10 y H100 bajo demanda y pricing por uso sin compromisos de tiempo inactivo.

Soporta entrenamiento multi-nodo con alta performance distribuida, RDMA y carga de datos optimizada para máxima utilización de GPU. Se integra con Lakeflow Jobs y DABs para orquestación, y tiene tracking de experimentos MLflow y gobernanza de Unity Catalog incorporados.

La infraestructura es la misma que Databricks usó internamente para entrenar modelos fundacionales como DBRX y KARL, ahora disponible para todos los clientes.

ML en Tiempo Real

Feature Store mejorado: Definición declarativa de features para materialización automática de entrenamiento/serving. Features de streaming para respuestas en tiempo real a la actividad del cliente. Serving de features online vía Lakebase con acceso de baja latencia.

Model Serving mejorado: Motor de inferencia de alta QPS soportando 300K+ consultas por segundo. Latencia p99 de menos de 10 milisegundos. Adaptación automática a tipos de modelos y patrones de tráfico sin ajuste manual. Soporte para serving en CPU y GPU.

Los resultados de clientes son contundentes: hasta 90%+ de reducción en costos de infraestructura vs. sistemas auto-gestionados, latencia duplicada en mejora, y escalado más allá de 100K QPS con sobrecarga de mantenimiento mínima. Grammarly y GoGuardian son referencias de implementación para serving de alta QPS.

Inteligencia operacional: Genie Code asiste en consultas a tablas de inferencia, depuración automatizada de rendimiento en endpoints de serving y análisis de causa raíz para alertas de producción.

Puntos clave

Genie Code entiende calidad de datos, linaje de features e impacto en métricas de negocio
Danfoss: pipeline completo de ML en 90 minutos con Genie Code
AI Runtime: GPUs NVIDIA A10 y H100 serverless, on-demand, en 2-3 clics
Entrenamiento multi-nodo con RDMA y carga de datos optimizada
Feature Store con features declarativas y streaming para ML en tiempo real
Model Serving: 300K+ QPS, latencia p99 sub-10ms
Reducción de hasta 90%+ en costos de infraestructura vs. sistemas self-managed
Genie Code integrado para análisis operacional de endpoints en producción
Misma infraestructura usada para entrenar DBRX y KARL, ahora disponible para clientes

¿Por qué importa?

El ML de producción tiene un problema persistente: la brecha entre el prototipo y el sistema en producción. Un científico de datos puede entrenar un modelo en días, pero llevarlo a producción con gobernanza, monitoreo, serving escalable y pipeline de reentrenamiento puede tomar semanas o meses.

AI Runtime cierra la brecha en la parte de entrenamiento: en lugar de esperar semanas para que el equipo de infraestructura provisione GPUs, los equipos de ML pueden acceder a ellas en minutos. Genie Code cierra la brecha en la parte de ingeniería: en lugar de que el científico de datos tenga que aprender las mejores prácticas de MLOps de su empresa específica, el agente las conoce y las aplica automáticamente.

Para equipos latinoamericanos de ML que trabajan con recursos limitados de infraestructura, el modelo serverless de AI Runtime es especialmente atractivo: paga solo por lo que usas, sin compromisos de instancias, lo que hace viable experimentar con modelos grandes que antes requerían infraestructura dedicada costosa.