Quanto mais você conversa com a AI, a precisão vai caindo. Os modelos pioram quando precisam “pensar” em várias etapas.
A conclusão do estudo foi que os LLMs ainda não estão prontos para conversas reais. O estudo mostrou que, embora os LLMs pareçam impressionantes em demonstrações controladas, eles falham drasticamente em interações mais naturais, exatamente como as que temos no dia a dia.
Enquanto empresas prometem “AGI em breve”, a realidade é que os modelos atuais não conseguem nem manter uma conversa confiável por mais de algumas mensagens. Se quisermos IAs realmente úteis, precisamos de mudanças profundas e não só ajustes superficiais. [Webinsider]
. . . .
Um estudo recente revelou um problema grave, mas pouco discutido, nos LLMs: quanto mais você conversa com eles, piora a interação.
Os pesquisadores criaram um novo método de avaliação chamado “sharded simulation”, que simula como humanos realmente interagem com IA, fornecendo informações aos poucos, em várias mensagens, em vez de dar tudo de uma vez. Os resultados foram muito preocupantes.
O estudo mostrou que os modelos pioram quando precisam “pensar” em várias etapas. Eles registraram queda de 39% no desempenho, sendo que os principais LLMs (incluindo GPT-4.1, Gemini 2.5 Pro e Claude 3.7) tiveram desempenho significativamente pior em conversas multi-turn (várias interações) em comparação com respostas únicas. Até duas mensagens já causam problemas: a degradação começa cedo. Não é necessário uma longa conversa para o modelo começar a falhar.
Os pesquisadores identificaram quatro causas principais, como perda de contexto (os modelos têm dificuldade em manter informações coerentes ao longo de várias interações), dependência excessiva do prompt inicial (se a primeira instrução não for perfeita, o modelo se perde), falhas em raciocínio acumulativo(problemas que exigem etapas (como matemática ou programação) sofrem mais e sensibilidade à ordem das informações (dados apresentados em sequências diferentes levam a respostas diferentes, mesmo que o significado seja o mesmo).
Foram criadas mais de 600 simulações em seis tarefas diferentes, como programação, matemática, SQL, chamadas de API, resumos e análise de tabelas. Em todos os casos, os modelos pioraram quando a tarefa foi dividida em várias interações.
Métodos comuns para melhorar respostas, como recapitulação (repetir informações anteriores) e “snowballing” (acumular contexto gradualmente) deram algum ganho (15–20%), mas não chegaram perto do desempenho single-turn. Isso sugere que o problema não está só na forma como conversamos com a IA, mas em limitações fundamentais de arquitetura.
Observaram que alguns testes de ajustes não consertam o problema.