Plataforma DAIS 2026

AI Platform: Agentes para ML Engineering e ML em Tempo Real

Databricks lança o Genie Code para ML, AI Runtime com GPUs serverless e capacidades avançadas de Feature Store e Model Serving para ML de alto desempenho em tempo real.

Destaques

  • Genie Code entende qualidade de dados, linhagem de features e impacto em métricas de negócio
  • Danfoss: pipeline completo de ML em 90 minutos com Genie Code
  • AI Runtime: GPUs NVIDIA A10 e H100 serverless, on-demand, em 2-3 cliques
  • Treinamento multi-nó com RDMA e carregamento de dados otimizado
  • Feature Store com features declarativas e streaming para ML em tempo real

Em números

< 2s Cold start serverless
65K Tokens/seg com H100
GPU serverless Plataforma de IA
AI Runtime
comparativo de hardware
GPU · SIM
NVIDIA A10
Serverless · Baixo custo
VRAM 24 GB
Throughput ~8K tok/s
Custo aprox. $0.80/hr
Melhor para Inferência eficiente
NVIDIA H100
Alta performance · RDMA
TOP
VRAM 80 GB
Throughput ~65K tok/s
Custo aprox. $3.20/hr
Melhor para Treinamento e batch
Simulação de throughput em tempo real
Tokens/s:
Latencia:
RDMA · serverless · auto-scale
< 2s
Inicialização a frio
Instantâneo
Auto-escala
Por tenant
Isolamento
Por token
Faturamento
Análise completa

Resumo

No DAIS 2026, a Databricks anunciou três capacidades principais para acelerar workflows de machine learning: Genie Code como agente de IA para ML engineering, AI Runtime como plataforma serverless de GPUs para deep learning, e melhorias substanciais à infraestrutura de ML em tempo real com Feature Store e Model Serving de alta capacidade.

A mensagem central é que agentes de código genéricos não conseguem tomar as decisões matizadas que o ML de produção exige: qualidade de dados, linhagem de features, impacto em métricas de negócio. O Genie Code foi projetado especificamente para entender esse contexto.

Genie Code para Machine Learning

O Genie Code é um agente de código de IA integrado ao ciclo de vida completo do ML: desde a experimentação até a implantação em produção. Integra-se com o Unity Catalog para compreensão do contexto de dados e governança, e possui conexões nativas com Feature Store, Model Serving, Serverless Compute e AI Runtime.

A integração com o MLflow fornece gerenciamento completo do ciclo de vida: engenharia de features, experimentação, implantação, monitoramento e detecção de drift. O caso da Danfoss é notável: criaram um pipeline completo de ML em 90 minutos, desde dados brutos até uma implantação governada e pronta para produção.

A Bosch usa o Genie Code para gerenciamento de múltiplas threads em paralelo. A FactSet reduziu o tempo de treinamento de modelos de dias para horas com configuração de infraestrutura simplificada.

AI Runtime (Public Preview)

O AI Runtime é uma plataforma serverless de treinamento de GPUs que elimina a complexidade de infraestrutura para workloads de deep learning. Requer apenas 2-3 cliques para configurar, com GPUs NVIDIA A10 e H100 sob demanda e precificação por uso sem compromissos de tempo ocioso.

Suporta treinamento multi-nó com alta performance distribuída, RDMA e carregamento de dados otimizado para máxima utilização de GPU. Integra-se com Lakeflow Jobs e DABs para orquestração, e possui rastreamento de experimentos MLflow e governança do Unity Catalog incorporados.

A infraestrutura é a mesma que a Databricks usou internamente para treinar modelos fundacionais como DBRX e KARL, agora disponível para todos os clientes.

ML em Tempo Real

Feature Store aprimorado: Definição declarativa de features para materialização automática de treinamento/serving. Features de streaming para respostas em tempo real à atividade do cliente. Serving de features online via Lakebase com acesso de baixa latência.

Model Serving aprimorado: Motor de inferência de alta QPS suportando 300K+ consultas por segundo. Latência p99 inferior a 10 milissegundos. Adaptação automática a tipos de modelos e padrões de tráfego sem ajuste manual. Suporte para serving em CPU e GPU.

Os resultados dos clientes são expressivos: até 90%+ de redução nos custos de infraestrutura vs. sistemas autogerenciados, latência com melhoria duplicada, e escalonamento além de 100K QPS com sobrecarga de manutenção mínima. Grammarly e GoGuardian são referências de implementação para serving de alta QPS.

Inteligência operacional: O Genie Code auxilia em consultas a tabelas de inferência, depuração automatizada de desempenho em endpoints de serving e análise de causa raiz para alertas de produção.

Pontos principais

  • Genie Code entende qualidade de dados, linhagem de features e impacto em métricas de negócio
  • Danfoss: pipeline completo de ML em 90 minutos com Genie Code
  • AI Runtime: GPUs NVIDIA A10 e H100 serverless, on-demand, em 2-3 cliques
  • Treinamento multi-nó com RDMA e carregamento de dados otimizado
  • Feature Store com features declarativas e streaming para ML em tempo real
  • Model Serving: 300K+ QPS, latência p99 sub-10ms
  • Redução de até 90%+ nos custos de infraestrutura vs. sistemas self-managed
  • Genie Code integrado para análise operacional de endpoints em produção
  • Mesma infraestrutura usada para treinar DBRX e KARL, agora disponível para clientes

Por que importa?

O ML de produção tem um problema persistente: a lacuna entre o protótipo e o sistema em produção. Um cientista de dados pode treinar um modelo em dias, mas levá-lo à produção com governança, monitoramento, serving escalável e pipeline de retreinamento pode levar semanas ou meses.

O AI Runtime fecha essa lacuna na parte de treinamento: em vez de esperar semanas para que a equipe de infraestrutura provisione GPUs, as equipes de ML podem acessá-las em minutos. O Genie Code fecha a lacuna na parte de engenharia: em vez de o cientista de dados ter que aprender as melhores práticas de MLOps da sua empresa específica, o agente as conhece e as aplica automaticamente.

Para equipes latino-americanas de ML que trabalham com recursos limitados de infraestrutura, o modelo serverless do AI Runtime é especialmente atraente: pague apenas pelo que usar, sem compromissos de instâncias, o que torna viável experimentar com modelos grandes que antes exigiam infraestrutura dedicada e custosa.

Baseado em conteúdo oficial de Databricks Fonte oficial