MLflow 3.0: Experimentação, observabilidade e governança unificadas — DAIS 2026

Resumo

A Databricks anunciou o MLflow 3.0, uma evolução maior que estende as capacidades de MLOps para a IA generativa, mantendo suporte para ML tradicional e deep learning. Com mais de 30 milhões de downloads mensais, o MLflow é a plataforma de rastreamento de experimentos de ML mais usada do mundo.

A versão 3.0 consolida em uma única plataforma o que antes estava fragmentado em múltiplas ferramentas: observabilidade de produção, avaliação de qualidade e ciclos de melhoria contínua para aplicações GenAI.

Os três obstáculos de GenAI que o MLflow 3.0 resolve

1. Observabilidade em escala de produção

O MLflow 3.0 captura rastreamentos detalhados de mais de 20 bibliotecas de GenAI e lógica de negócio personalizada. O pacote mlflow-tracing é otimizado para desempenho de produção e baseia-se no OpenTelemetry para observabilidade de nível empresarial.

A visualização de timeline revela gargalos e ineficiências. No caso de estudo do blog, os rastreamentos revelaram que um chatbot de e-commerce fazia verificações sequenciais de inventário em armazéns e recuperava histórico de pedidos em excesso, cada uma causando demoras de mais de 5 segundos. Ao paralelizar as verificações e filtrar pedidos recentes, o tempo de resposta foi reduzido em mais de 50%.

Os rastreamentos são vinculados aos prompts exatos, código e versões de aplicação, eliminando a ambiguidade sobre qual mudança causou qual comportamento.

2. Juízes LLM para avaliação de qualidade

Os avaliadores respaldados por pesquisa do MLflow medem a qualidade do output de GenAI de forma sistemática: segurança, fundamentação em contexto (groundedness), relevância de recuperação e qualidade de resposta. Fornecem justificativas detalhadas para os problemas identificados.

Juízes personalizados podem incorporar diretrizes específicas do negócio. No caso de estudo, os juízes identificaram que 65% de relevância de recuperação era a causa raiz das recomendações ruins, apesar de ter boas pontuações de segurança e fundamentação. Sem avaliação sistemática, esse problema teria sido invisível.

3. Ciclos de feedback integrados

O Review App é uma interface web para que especialistas anotem outputs de IA sem requisitos de código. Os insights de usuários finais e especialistas alimentam diretamente as pilhas de avaliação e observabilidade, transformando os dados de produção em conjuntos de treinamento para melhoria contínua.

No caso de estudo, os especialistas em produto usaram o Review App para anotar quais produtos correspondiam aos requisitos dos clientes, criando dados de treinamento para melhorar a recuperação.

Funcionalidades principais

Rastreamento de versões de aplicações: Captura snapshots completos da aplicação incluindo código, prompts, parâmetros LLM, lógica de recuperação e algoritmos. Conecta rastreamentos e métricas a versões específicas com capacidade de rollback imediato.

Prompt Registry: Controle de versões estilo Git especificamente para gerenciamento de prompts. Diffs visuais entre versões. Integração com otimizadores DSPy para melhoria automática de prompts.

Deployment Jobs: Portões de qualidade automatizados que garantem que apenas aplicações validadas cheguem à produção. Integração com Unity Catalog para governança e auditoria. Requer aprovação de stakeholders antes da implantação produtiva.

Suporte unificado para todos os tipos de IA: A mesma infraestrutura de rastreamento suporta aplicações GenAI e serving de modelos ML tradicional. A abstração LoggedModel simplifica o rastreamento de checkpoints de deep learning.

Pontos principais

+30 milhões de downloads mensais; versão 3.0 disponível sem migração para usuários atuais
Rastreamentos de produção para 20+ bibliotecas GenAI baseados em OpenTelemetry
Juízes LLM para avaliação sistemática de segurança, groundedness e relevância
Review App para anotação especializada sem código
Prompt Registry com controle de versões estilo Git e diffs visuais
Deployment Jobs com portões de qualidade automáticos e integração com Unity Catalog
LoggedModel para rastreamento unificado de deep learning e GenAI
Caso de estudo: melhoria de retrieval de 65% para 91% de relevância com MLflow 3.0

Por que importa?

O desenvolvimento de IA generativa tem um problema fundamental: sem observabilidade sistemática, as equipes não sabem por que suas aplicações falham. Sem avaliação em escala, não conseguem medir se uma mudança de prompt melhorou ou piorou a qualidade. Sem ciclos de feedback, cada problema de produção exige intervenção manual.

O MLflow 3.0 transforma a qualidade de GenAI de uma aspiração em algo mensurável e sistemático. Para equipes latino-americanas que estão começando a construir aplicações com LLMs, isso é particularmente valioso: em vez de depender de avaliação manual (“isso parece bom?”), podem definir métricas de qualidade específicas para seu caso de uso e rastreá-las ao longo do tempo, exatamente como se faria com qualquer sistema de software em produção.