Blitzy - super geração de código

Primeiras impressões de uma nova ferramenta de IA que me surpreendeu: Blitzy. É, de longe, o uso mais avançado e funcional de IA multiagente para engenharia de software que já vi até agora — a ponto de arriscar que seria um vislumbre do “futuro da IA agêntica”. **Por que isso importa agora** O Blitzy acabou de assumir o topo do SWE-bench Verified, um dos principais benchmarks de capacidade de codificação com IA, com 86,8% de acerto. Isso representa um salto de 13,02% (10 pontos percentuais) em relação ao líder anterior — o maior avanço desde março de 2024, quando o Devin havia dado um salto de 11,9 p.p. Esse resultado é relevante porque muitos modelos vinham “empatando” na faixa de 70–75%, sugerindo um teto das abordagens tradicionais. O diferencial técnico que eles defendem é claro: em vez de tentar resolver tudo em segundos (o que chamam de System-1, em alusão à nomenclatura do Daniel Kahneman em seu livro "Thinking, Fast and Slow"), eles estendem o tempo de raciocínio (System-2) e usam orquestração multiagente. Em outras palavras, deixam a IA “pensar” por horas ou dias, coordenando agentes especializados em múltiplas abordagens, até destravar problemas que parecem “impossíveis” numa inferência imediata. O próprio artigo e o white paper comentam que, com tempo de inferência suficiente, dá para navegar contradições, lacunas e ambiguidades do mundo real — aquelas que costumam derrubar respostas rápidas. É menos sobre gerar código em um passe só e mais sobre raciocínio profundo, múltiplos ciclos de verificação e trabalho coordenado entre agentes. **Minha experiência prática (free tier)** Entrei no tier gratuito, que permite gerar apenas especificação técnica detalhada (sem código). Em cerca de 30 minutos, recebi um documento com 275 páginas organizando e refinando intenções para um novo aplicativo que eu havia descrito em duas páginas. Fiquei genuinamente surpreso com o nível de detalhe e coerência. Aposto que até o mais cético com IA agêntica reavaliará sua posição. Em termos de qualidade de especificação, superou bastante o que eu normalmente consigo obter com o BMAD. É uma base que, mesmo sem a geração de código, já vale como ativo de projeto para guiar codificação posterior com outros agentes. **O que ouvi e li deles** Nas entrevistas, reforçam a ideia de orquestrar muitos agentes especializados cobrindo subpartes de especificação, teste e desenvolvimento. O “segredo” não é só ter muitos agentes, mas permitir a esses agentes o tempo computacional para raciocinar com profundidade. Eles relatam onboarding de bases de código grandes — de centenas de milhares até milhões de linhas — em processos que podem levar dias para analisar, documentar, refatorar e implementar novas funcionalidades com ciclos extensos de verificação. O white paper descreve exemplos como: - Modernização de 4 milhões de linhas de Java, com 72+ horas de raciocínio distribuído por decisão arquitetural. - Extração de serviços de monólitos de 500 mil linhas, com 24+ horas de análise para achar os melhores limites e padrões de integração. - Migração entre linguagens com verificação estendida para manter equivalência semântica e garantir resultados idênticos entre as versões. **Custo** O preço do serviço parece mais alinhado com o valor do trabalho humano substituído no mercado americano do que com o custo computacional necessário para produzir esse resultado: plano básico de **10 mil dólares** por desenvolvedor ao ano. **Próximos passos** Gostaria de conhecer a opinião de vocês sobre essa solução e perspectivas de uso institucional. Enquanto isso, quem quiser já pode dar uma olhada nas referências. O press release e o white paper ajudam a entender o salto no SWE-bench Verified e, principalmente, a tese técnica por trás do “inference time scaling” (deixar a IA pensar por mais tempo para resolver o que antes parecia insolúvel). As demos no YouTube também são um bom atalho para experimentar o processo de geração do código. **Referências** Press release: https://www.prnewswire.com/news-releases/blitzy-blows-past-swe-bench-verified-demonstrating-next-frontier-in-ai-progress-302550153.html Site: https://blitzy.com/ White paper: https://paper.blitzy.com/blitzy_system_2_ai_platform_topping_swe_bench_verified.pdf Canal no YouTube (entrevistas com a equipe técnica): https://www.youtube.com/@blitzyai Demonstração independente: https://www.youtube.com/watch?v=1y_VE_3_320 Método BMAD (comparativo com orquestrador de agentes open source): https://github.com/bmad-code-org/BMAD-METHOD/