A Morte do Desperdício de Tokens

18/04/2026

Como engenheiro de software sênior, eu sei que a nossa maior dor de cabeça com agentes de IA não é a falta de "inteligência", mas o fato de eles serem inerentemente gastadores de memória e contextualmente limitados em sessões longas. Você abre o Claude Code ou o Cursor, inicia uma refatoração pesada e, em vinte minutos, a IA começa a alucinar ou esquecer as decisões técnicas tomadas no primeiro commit. O motivo é simples e técnico: o despejo de logs inúteis e a saturação da janela de contexto. É para resolver isso que eu utilizo o Context Mode.

Esqueça o marketing e os eufemismos. O problema real é o lixo que mata o contexto. Quando pedimos para um agente analisar um log de erro de mil linhas ou rodar um curl em uma API robusta, o comportamento padrão da IA é trazer todo esse texto bruto para dentro do chat. O resultado é um custo absurdo em tokens e a perda de informações cruciais, já que, conforme o limite de contexto estoura, a IA descarta o início da tarefa. O Context Mode, funcionando como um servidor MCP (Model Context Protocol), atua como um filtro de inteligência que reduz esse volume de dados em até 98%.

A primeira grande mudança está no que chamo de ferramentas em sandbox. Tudo o que o agente faz — seja rodar Playwright, investigar logs ou analisar arquivos imensos — acontece fora da janela de contexto. Eu trato o Claude como um orquestrador, não como um leitor de texto. O plugin intercepta os resultados brutos, processa-os e entrega para a IA apenas o sumário executivo. Se um log possui milhares de linhas, o Claude recebe apenas o trecho que realmente importa. É a diferença entre ler um livro inteiro para achar uma vírgula ou apenas receber a localização exata da página.

Além da economia, existe a questão da continuidade. O Context Mode utiliza um banco de dados SQLite local para registrar cada edição, comando Git e decisão técnica. Isso cria uma memória permanente para a sessão. Se a conversa precisar ser compactada ou reiniciada, o agente não fica órfão de informação; ele consulta o banco de dados para retomar exatamente de onde parou. Essa persistência permite que sessões de refatoração em projetos grandes mantenham a coerência por horas, algo impossível na arquitetura padrão de chat.

Outro pilar fundamental é a filosofia "Think in Code". Eu forço o modelo a parar de tentar ler dezenas de arquivos para contar funções ou encontrar variáveis. Em vez de consumir tokens lendo código passivamente, o agente escreve scripts em linguagens como Python, JS ou Go, que executam a análise localmente e devolvem apenas o resultado final. É computação delegada: o trabalho pesado de processamento de dados é feito pela máquina, e a IA fica apenas com a parte estratégica.

Para quem vive de métricas, o comando /context-mode:ctx-stats no Claude Code é o painel de controle indispensável. Ele revela a economia real de contexto por ferramenta, o total de tokens economizados e a performance de cache. É a prova física de que a ferramenta não está apenas filtrando dados, mas otimizando o custo operacional do desenvolvimento assistido por IA. Com um arsenal de ferramentas internas como ctx_execute para rodar código e ctx_search para buscas indexadas, o Context Mode transforma a IA de um estagiário que lê tudo em voz alta em um engenheiro que sabe exatamente onde buscar a informação.