GPT-5.5 ou Claude Opus 4.7? A disputa ficou mais interessante do que parece

Eu li o comparativo mais recente entre o GPT-5.5 e o Claude Opus 4.7 com uma sensação que, sinceramente, acho mais útil do que a torcida de benchmark: a disputa já não parece mais uma corrida com líder folgado. Ela está começando a virar um jogo de perfil.

De um lado, a OpenAI empurra o GPT-5.5 como seu modelo mais forte para trabalho “executável” — código, uso de ferramentas, navegação, tarefas longas e produtividade em escala. Do outro, a Anthropic posiciona o Opus 4.7 como seu modelo mais capaz para raciocínio complexo, agentes de longa duração, visão e trabalho profissional mais cuidadoso. São duas teses diferentes sobre o que significa “fronteira da IA” em 2026.

Os números desenham um retrato menos óbvio do que o marketing

O que mais me chamou atenção foi que os resultados publicados pela própria OpenAI desenham um retrato bem menos binário do que o marketing costuma sugerir. O GPT-5.5 aparece na frente em testes como Terminal-Bench 2.0 (82,7% contra 69,4% do Claude), em GDPval para trabalho profissional (84,9% contra 80,3%), em OfficeQA Pro (54,1% contra 43,6%) e fica ligeiramente acima em OSWorld-Verified (78,7% contra 78,0%).

Mas o Claude Opus 4.7 ainda leva vantagem em SWE-Bench Pro, que mede resolução de issues reais de GitHub (64,3% contra 58,6%), e também em FinanceAgent (64,4% contra 60,0%). Para mim, isso reforça uma leitura simples: o GPT-5.5 parece mais forte como operador e executor; o Claude ainda parece muito competitivo em tarefas que exigem profundidade, contexto e consistência em trabalho especializado. Vale lembrar que essa divisão entre “executar” e “raciocinar” é praticamente o oposto da narrativa única que costumava acompanhar lançamentos como o de Mythos pela Anthropic, onde uma só promessa carregava o anúncio inteiro.

Onde o GPT-5.5 lidera: Terminal-Bench 2.0, GDPval, OfficeQA Pro e — por uma margem fina — OSWorld-Verified.
Onde o Claude Opus 4.7 lidera: SWE-Bench Pro (issues reais de GitHub) e FinanceAgent (trabalho financeiro com tools).
O que isso sugere: ranking absoluto não basta. O que pesa hoje é em qual eixo do trabalho cada modelo é mais útil.

Cada empresa está jogando um jogo um pouco diferente

Também achei interessante como cada lado escolheu posicionar o seu modelo. A OpenAI fala bastante em eficiência, rollout amplo no ChatGPT Plus, Pro, Business e Enterprise, além do Codex, e diz que o GPT-5.5 é mais econômico em tokens do que o 5.4, com janela de contexto de até 1 milhão de tokens na API. É um discurso de produto: mais barato, mais rápido, mais distribuído, mais tarefas resolvidas por dólar gasto.

Já a Anthropic destaca que o Opus 4.7 está disponível em toda a sua linha de produtos e na API, além de Amazon Bedrock, Vertex AI e Microsoft Foundry, com contexto de 1 milhão de tokens, suporte a imagens em resolução bem maior e foco forte em trabalho agentic de longa duração. É um discurso mais próximo da capacidade bruta: profundidade, consistência e o tipo de tarefa em que o modelo precisa segurar o problema na cabeça por horas — exatamente o cenário em que o Claude Code virou peça central da estratégia da empresa.

A Anthropic parece refinar o Claude para um perfil mais “profissional”

Tem outro detalhe que eu não ignoraria. A Anthropic parece estar afinando o Claude para um perfil mais maduro mesmo. A documentação do Opus 4.7 fala em tom mais direto, menos validação automática do usuário, melhor uso de memória e melhor desempenho em tarefas visuais e de conhecimento. É um movimento intencional contra um padrão que vem incomodando muita gente — o mesmo que motivou as discussões em torno da bajulação dos chatbots medida em Stanford.

Ao mesmo tempo, a empresa mudou a tokenização, o que pode fazer o modelo consumir até cerca de 35% mais tokens do que versões anteriores, dependendo do caso. Isso importa porque, no mundo real, não basta só ser bom — precisa fechar a conta. Um modelo mais profundo, mas mais caro por consulta, encaixa diferente em produto: vale para o trabalho cuidadoso, pesa mais quando o uso é massivo. Não é coincidência que esse trade-off apareça justamente quando a OpenAI também passa por pressão crescente para mostrar lucro e foco.

Não existe vencedor absoluto — existe encaixe

No fim, eu sairia desse comparativo com uma leitura bem menos binária. Se a pergunta for “qual parece melhor para trabalho mais operacional, uso de ferramentas, terminal, navegação e produtividade em escala?”, hoje o argumento do GPT-5.5 está forte. Se a pergunta for “qual parece mais interessante para raciocínio mais demorado, visão, memória e certos fluxos de conhecimento e coding mais profundos?”, o Claude Opus 4.7 continua muito vivo — e, em algumas frentes, talvez até mais interessante.

O que esse comparativo mostra, para mim, é que a fase do “um modelo humilha todo o resto” parece cada vez menos real. Agora começa a valer mais uma pergunta mais madura: qual modelo encaixa melhor no seu tipo de trabalho? A resposta provavelmente não é “o melhor de todos”, mas “o que faz menos sentido trocar pelo outro”. E isso, no fundo, é uma boa notícia para quem usa IA: a competição finalmente parou de ser só sobre quem tem o número maior — passou a ser sobre quem entrega o ajuste melhor.