MLflow DAIS 2026

MLflow 3.0: Experimentação, observabilidade e governança unificadas

O MLflow 3.0 resolve os três grandes obstáculos do desenvolvimento de IA generativa: observabilidade de produção, medição de qualidade em escala e melhoria contínua com ciclos de feedback.

Destaques

  • +30 milhões de downloads mensais; versão 3.0 disponível sem migração para usuários atuais
  • Rastreamentos de produção para 20+ bibliotecas GenAI baseados em OpenTelemetry
  • Juízes LLM para avaliação sistemática de segurança, groundedness e relevância
  • Review App para anotação especializada sem código
  • Prompt Registry com controle de versões estilo Git e diffs visuais

Em números

30M+ Downloads mensais
3.0 Versão atual
GenAI Suporte nativo
MLflow 3.0
rastreamento de experimentos
Métrica: Accuracy vs Epoch
run-001
run-002
run-003
151015202530
Run Accuracy F1 Score Modelo Status
run-001 0.891 0.883 llama-3-8b FINISHED
run-002 0.923 0.918 databricks-agent FINISHED BEST
run-003 0.874 0.867 gpt-4o-mini FINISHED
MLflow Judge — Avaliação automática com LLM
4.2
/5
Relevância
4.7
/5
Precisão
4.5
/5
Coerência
Análise completa

Resumo

A Databricks anunciou o MLflow 3.0, uma evolução maior que estende as capacidades de MLOps para a IA generativa, mantendo suporte para ML tradicional e deep learning. Com mais de 30 milhões de downloads mensais, o MLflow é a plataforma de rastreamento de experimentos de ML mais usada do mundo.

A versão 3.0 consolida em uma única plataforma o que antes estava fragmentado em múltiplas ferramentas: observabilidade de produção, avaliação de qualidade e ciclos de melhoria contínua para aplicações GenAI.

Os três obstáculos de GenAI que o MLflow 3.0 resolve

1. Observabilidade em escala de produção

O MLflow 3.0 captura rastreamentos detalhados de mais de 20 bibliotecas de GenAI e lógica de negócio personalizada. O pacote mlflow-tracing é otimizado para desempenho de produção e baseia-se no OpenTelemetry para observabilidade de nível empresarial.

A visualização de timeline revela gargalos e ineficiências. No caso de estudo do blog, os rastreamentos revelaram que um chatbot de e-commerce fazia verificações sequenciais de inventário em armazéns e recuperava histórico de pedidos em excesso, cada uma causando demoras de mais de 5 segundos. Ao paralelizar as verificações e filtrar pedidos recentes, o tempo de resposta foi reduzido em mais de 50%.

Os rastreamentos são vinculados aos prompts exatos, código e versões de aplicação, eliminando a ambiguidade sobre qual mudança causou qual comportamento.

2. Juízes LLM para avaliação de qualidade

Os avaliadores respaldados por pesquisa do MLflow medem a qualidade do output de GenAI de forma sistemática: segurança, fundamentação em contexto (groundedness), relevância de recuperação e qualidade de resposta. Fornecem justificativas detalhadas para os problemas identificados.

Juízes personalizados podem incorporar diretrizes específicas do negócio. No caso de estudo, os juízes identificaram que 65% de relevância de recuperação era a causa raiz das recomendações ruins, apesar de ter boas pontuações de segurança e fundamentação. Sem avaliação sistemática, esse problema teria sido invisível.

3. Ciclos de feedback integrados

O Review App é uma interface web para que especialistas anotem outputs de IA sem requisitos de código. Os insights de usuários finais e especialistas alimentam diretamente as pilhas de avaliação e observabilidade, transformando os dados de produção em conjuntos de treinamento para melhoria contínua.

No caso de estudo, os especialistas em produto usaram o Review App para anotar quais produtos correspondiam aos requisitos dos clientes, criando dados de treinamento para melhorar a recuperação.

Funcionalidades principais

Rastreamento de versões de aplicações: Captura snapshots completos da aplicação incluindo código, prompts, parâmetros LLM, lógica de recuperação e algoritmos. Conecta rastreamentos e métricas a versões específicas com capacidade de rollback imediato.

Prompt Registry: Controle de versões estilo Git especificamente para gerenciamento de prompts. Diffs visuais entre versões. Integração com otimizadores DSPy para melhoria automática de prompts.

Deployment Jobs: Portões de qualidade automatizados que garantem que apenas aplicações validadas cheguem à produção. Integração com Unity Catalog para governança e auditoria. Requer aprovação de stakeholders antes da implantação produtiva.

Suporte unificado para todos os tipos de IA: A mesma infraestrutura de rastreamento suporta aplicações GenAI e serving de modelos ML tradicional. A abstração LoggedModel simplifica o rastreamento de checkpoints de deep learning.

Pontos principais

  • +30 milhões de downloads mensais; versão 3.0 disponível sem migração para usuários atuais
  • Rastreamentos de produção para 20+ bibliotecas GenAI baseados em OpenTelemetry
  • Juízes LLM para avaliação sistemática de segurança, groundedness e relevância
  • Review App para anotação especializada sem código
  • Prompt Registry com controle de versões estilo Git e diffs visuais
  • Deployment Jobs com portões de qualidade automáticos e integração com Unity Catalog
  • LoggedModel para rastreamento unificado de deep learning e GenAI
  • Caso de estudo: melhoria de retrieval de 65% para 91% de relevância com MLflow 3.0

Por que importa?

O desenvolvimento de IA generativa tem um problema fundamental: sem observabilidade sistemática, as equipes não sabem por que suas aplicações falham. Sem avaliação em escala, não conseguem medir se uma mudança de prompt melhorou ou piorou a qualidade. Sem ciclos de feedback, cada problema de produção exige intervenção manual.

O MLflow 3.0 transforma a qualidade de GenAI de uma aspiração em algo mensurável e sistemático. Para equipes latino-americanas que estão começando a construir aplicações com LLMs, isso é particularmente valioso: em vez de depender de avaliação manual (“isso parece bom?”), podem definir métricas de qualidade específicas para seu caso de uso e rastreá-las ao longo do tempo, exatamente como se faria com qualquer sistema de software em produção.

Baseado em conteúdo oficial de Databricks Fonte oficial