Apresentamos o GPT‑5.2‑Codex
O modelo agêntico de programação mais avançado para engenharia de software profissional e cibersegurança defensiva.
Hoje, lançamos o GPT‑5.2‑Codex, nosso modelo agêntico de programação mais avançado até agora para engenharia de software complexa, do mundo real. O GPT‑5.2‑Codex é uma versão do GPT‑5.2 ainda mais otimizada para programação agêntica no Codex, com melhorias em tarefas de longo horizonte graças à compactação de contexto, desempenho mais forte em grandes mudanças de código (como refatorações e migrações), melhor desempenho em ambientes Windows e capacidades de cibersegurança significativamente mais fortes.
À medida que nossos modelos avançam na fronteira da inteligência, observamos que essas melhorias também se traduzem em saltos de capacidade em domínios especializados, como cibersegurança. Por exemplo, na semana passada, um pesquisador de segurança que usava o GPT‑5.1‑Codex‑Max com o Codex CLI encontrou e divulgou(abre em uma nova janela) de forma responsável uma vulnerabilidade no React que poderia levar à exposição de código-fonte.
O GPT‑5.2‑Codex tem capacidades de cibersegurança mais fortes do que qualquer modelo que lançamos até agora. Esses avanços podem fortalecer a cibersegurança em escala, mas também trazem novos riscos de duplo uso que exigem uma implantação cuidadosa. Embora o GPT‑5.2‑Codex não atinja um nível ‘High’ de capacidade em cibersegurança segundo nosso Preparedness Framework, estamos desenhando nossa estratégia de implantação pensando no crescimento futuro dessas capacidades.
Estamos lançando o GPT‑5.2‑Codex hoje em todas as superfícies do Codex para usuários do ChatGPT em planos pagos e trabalhando para habilitar com segurança o acesso ao GPT‑5.2‑Codex para usuários da API nas próximas semanas. Em paralelo, estamos testando um piloto, apenas por convite, de acesso confiável a capacidades futuras e a modelos mais permissivos para profissionais e organizações previamente verificados e focados em cibersegurança defensiva. Acreditamos que essa abordagem de implantação vai equilibrar acessibilidade com segurança.
O GPT‑5.2‑Codex se apoia nas forças do GPT‑5.2 em trabalho de conhecimento profissional e nas do GPT‑5.1‑Codex‑Maxem capacidades de programação agêntica de fronteira e de uso de terminal. O GPT‑5.2‑Codex agora é melhor em compreensão de contextos longos, chamadas de ferramentas confiáveis, maior precisão factual e compactação nativa, tornando-o um parceiro mais confiável para tarefas de programação de longa duração, mantendo eficiência de tokens no raciocínio.
O GPT‑5.2‑Codex alcança desempenho de estado da arte no SWE-Bench Pro e no Terminal-Bench 2.0, benchmarks criados para testar desempenho agêntico em uma ampla variedade de tarefas, em ambientes de terminal realistas. Ele também é muito mais eficaz e confiável para programação agêntica em ambientes Windows nativos, evoluindo as capacidades introduzidas no GPT‑5.1‑Codex‑Max.
Com essas melhorias, o Codex fica mais capaz de trabalhar em repositórios grandes ao longo de sessões prolongadas, com todo o contexto intacto. Ele consegue concluir com mais confiabilidade tarefas complexas como grandes refatorações, migrações de código e desenvolvimento de funcionalidades — seguindo iterando sem perder o fio, mesmo quando os planos mudam ou as tentativas falham.
No SWE-Bench Pro, um modelo recebe um repositório de código e precisa gerar um patch para resolver uma tarefa realista de engenharia de software. O Terminal-Bench 2.0 é um benchmark para testar agentes de IA em ambientes reais de terminal. As tarefas incluem compilar código, treinar modelos e configurar servidores.
O desempenho de visão aprimorado permite que o GPT‑5.2‑Codex interprete com mais precisão capturas de tela, diagramas técnicos, gráficos e telas de interface compartilhadas durante sessões de programação.
O Codex pode pegar mocks de design e rapidamente transformá-los em protótipos funcionais, e você pode trabalhar junto com o Codex para levar esses protótipos à produção.
Mock de design

Protótipo gerado pelo GPT‑5.2‑Codex
Ao acompanhar o desempenho ao longo do tempo em uma de nossas avaliações centrais de cibersegurança, vemos um salto acentuado de capacidade começando com o GPT‑5‑Codex, outro grande salto com o GPT‑5.1‑Codex‑Max e agora um terceiro salto com o GPT‑5.2‑Codex. Esperamos que os próximos modelos de IA continuem nessa trajetória. Para nos prepararmos, estamos planejando e avaliando como se cada novo modelo pudesse atingir níveis ‘High’ de capacidade em cibersegurança, conforme medidos pelo nosso Preparedness Framework(abre em uma nova janela). Embora o GPT‑5.2‑Codex ainda não tenha atingido um nível ‘High’ de capacidade em cibersegurança, estamos nos preparando para modelos futuros que ultrapassem esse patamar. Por conta das capacidades ampliadas em cibersegurança, adicionamos salvaguardas extras no modelo e no produto, descritas no system card.
A avaliação Professional Capture-the-Flag (CTF) mede com que frequência o modelo consegue resolver desafios avançados, de várias etapas e do mundo real (que exigem habilidades de cibersegurança em nível profissional) em um ambiente Linux.
A sociedade moderna funciona com base em software, e sua confiabilidade depende de uma cibersegurança forte — mantendo sistemas críticos de bancos, saúde, comunicações e serviços essenciais no ar, protegendo dados sensíveis e garantindo que as pessoas possam confiar no software do qual dependem todos os dias. Vulnerabilidades podem existir muito antes de alguém saber sobre elas, e encontrá-las, validá-las e corrigi-las muitas vezes depende de uma comunidade de engenheiros e pesquisadores independentes de segurança com as ferramentas certas.
Em 11 de dezembro de 2025, a equipe do React divulgou três vulnerabilidades de segurança que afetavam aplicativos criados com React Server Components. O que tornou essa divulgação notável não foram apenas as vulnerabilidades em si, mas a forma como foram descobertas.
Andrew MacPherson, engenheiro de segurança principal na Privy (uma empresa da Stripe), estava usando o GPT‑5.1‑Codex‑Max com o Codex CLI e outros agentes de programação para reproduzir e estudar uma vulnerabilidade crítica diferente do React, divulgada na semana anterior e conhecida como React2Shell(abre em uma nova janela) (CVE-2025-55182(abre em uma nova janela)). O objetivo dele era avaliar o quanto o modelo podia ajudar na pesquisa de vulnerabilidades no mundo real.
No início, ele tentou várias análises zero-shot, pedindo ao modelo que examinasse o patch e identificasse a vulnerabilidade que ele corrigia. Quando isso não trouxe resultados, ele mudou para uma abordagem iterativa, com um volume maior de prompts. Quando essas abordagens não deram certo, ele guiou o Codex por fluxos de trabalho padrão de segurança defensiva—montando um ambiente de teste local, raciocinando sobre possíveis superfícies de ataque e usando fuzzing para sondar o sistema com entradas malformadas. Ao tentar reproduzir o problema original do React2Shell, o Codex revelou comportamentos inesperados que mereciam uma investigação mais profunda. Em apenas uma semana, esse processo levou à descoberta de vulnerabilidades até então desconhecidas, que foram divulgadas de forma responsável à equipe do React.
Isso demonstra como sistemas avançados de IA podem acelerar de forma concreta o trabalho de segurança defensiva em software amplamente usado no mundo real. Ao mesmo tempo, capacidades que ajudam defensores a avançar mais rápido também podem ser usadas indevidamente por atores maliciosos.
À medida que sistemas agênticos se tornam mais capazes em tarefas relevantes para cibersegurança, tornamos prioridade garantir que esses avanços sejam implantados com responsabilidade — combinando cada ganho de capacidade com salvaguardas mais fortes, controles de acesso mais rigorosos e colaboração contínua com a comunidade de segurança.
Equipes de segurança podem enfrentar restrições ao tentar emular atores de ameaça, analisar malware para apoiar a remediação ou realizar testes de estresse em infraestrutura crítica. Estamos desenvolvendo um piloto de acesso confiável para reduzir esse atrito para usuários e organizações qualificados e permitir que defensores confiáveis usem capacidades de cibersegurança de fronteira da IA para acelerar a ciberdefesa.
Inicialmente, o programa piloto será apenas por convite para profissionais de segurança previamente verificados, com histórico de divulgação responsável de vulnerabilidades, e para organizações com um caso de uso profissional claro em cibersegurança. Participantes qualificados terão acesso aos nossos modelos mais capazes para casos de uso defensivos, possibilitando trabalho legítimo de duplo uso.
Se você é um profissional de segurança ou faz parte de uma organização que realiza trabalho ético de segurança, como pesquisa de vulnerabilidades ou red teaming autorizado, convidamos você a manifestar interesse em participar e compartilhar aqui(abre em uma nova janela) seu feedback sobre o que gostaria de ver no programa.
O GPT‑5.2‑Codex representa um avanço na forma como a IA avançada pode apoiar a engenharia de software do mundo real e domínios especializados como cibersegurança—ajudando desenvolvedores e defensores a enfrentar trabalhos complexos e de longo horizonte e fortalecendo as ferramentas disponíveis para pesquisa de segurança responsável.
Ao lançar o GPT‑5.2‑Codex de forma gradual, combinando a implantação com salvaguardas e trabalhando de perto com a comunidade de segurança, buscamos maximizar o impacto defensivo e reduzir o risco de uso indevido. O que aprendermos com este lançamento vai orientar diretamente como vamos expandir o acesso ao longo do tempo, à medida que as fronteiras do software e da cibersegurança continuarem avançando.


