Pourquoi l'IA oublie ce que tu lui as dit : la fenêtre de contexte expliquée

Tu demandes à ChatGPT de rédiger une offre commerciale. Tu passes 20 minutes à lui expliquer ton client, ton positionnement, ton ton. Puis, 40 messages plus tard, l'IA te pond quelque chose qui contredit complètement ce que tu lui avais dit au départ. Comme si elle avait tout oublié.

Ce n'est pas un bug. Ce n'est pas un hasard. C'est une limite fondamentale des LLM, et elle a un nom : la fenêtre de contexte.

Ce qu'est vraiment la fenêtre de contexte

Quand tu parles à une IA comme Claude ou ChatGPT, le modèle ne "pense" pas de façon continue. Il ne garde pas de mémoire entre les sessions, et à l'intérieur d'une même conversation, il ne lit pas l'historique comme tu lis une page web.

Ce qu'il fait : à chaque réponse, il relit l'intégralité de la conversation depuis le début, jusqu'à une certaine limite. Cette limite, c'est la fenêtre de contexte. Elle se mesure en tokens, les unités de base du langage que l'IA traite. Un token correspond grossièrement à 3/4 de mot en français. 1 000 tokens, c'est environ 750 mots.

Chaque modèle a sa propre fenêtre. GPT-3 tenait sur environ 1 500 mots. Claude 3.5 peut aller jusqu'à l'équivalent de 300 à 400 pages. GPT-5 et les derniers modèles de Google atteignent aujourd'hui 1 à 2 millions de tokens, soit des milliers de pages de texte.

En théorie, ces chiffres semblent énormes. En pratique, ça se remplit plus vite qu'on ne le pense. Un échange de travail dense, une longue note de cadrage, un document uploadé, et tu es déjà à mi-chemin de la limite.

Ce qui se passe quand la fenêtre déborde

Quand la conversation dépasse la limite, le modèle ne crash pas. Il fait quelque chose de plus sournois : il coupe. Les messages les plus anciens disparaissent de sa "mémoire active". Il ne les voit plus, il ne peut plus s'y référer, et surtout, il ne te dit pas qu'il les a perdus.

Résultat : l'IA continue à répondre avec confiance, mais sur la base d'une conversation tronquée. Elle peut te donner une réponse qui contredit ce que tu lui avais dit au message 5, parce qu'elle ne voit plus le message 5.

C'est exactement le genre de situation qui crée des erreurs silencieuses dans un contexte professionnel. Tu crois que l'IA tient compte de toutes tes consignes. Mais une partie d'entre elles est déjà hors champ.

Le problème du milieu : l'IA oublie aussi ce qu'elle a vu

Voilà ce qui rend la chose encore plus contre-intuitive : même quand tout le texte tient dans la fenêtre, l'IA ne l'utilise pas de façon uniforme.

Des chercheurs de Stanford et de l'Université de Washington ont documenté ce qu'ils appellent le problème "Lost in the Middle". Leur conclusion : les LLM font nettement plus attention au début et à la fin de ce qu'ils lisent. Le milieu, lui, reçoit moins d'attention. Sur des tâches de questions-réponses sur plusieurs documents, ils ont mesuré une chute de précision de plus de 30% quand l'information-clé se trouvait au milieu du contexte plutôt qu'en début ou en fin.

Concrètement, si tu déposes un brief de 10 pages dans ta conversation et que l'information la plus importante est à la page 5, l'IA a statistiquement plus de chances de la rater que si tu l'avais mise en première ou dernière page.

Ce n'est pas un bug corrigeable facilement. C'est lié à l'architecture même des transformers, ces modèles qui font tourner la quasi-totalité des IA génératives. Le mécanisme d'attention qui leur permet de lier les mots entre eux a tendance à se concentrer sur les extrémités du texte. Plus la fenêtre est longue, plus cet effet se renforce.

Chroma Research, qui a testé 18 modèles frontaux sur des tâches de mémorisation, a même mis un nom dessus : le "context rot". Les performances chutent entre 20 et 50% quand on passe de 10 000 à 100 000 tokens de contexte. Aucun modèle actuel n'y échappe complètement, même si certains s'en sortent mieux que d'autres.

Pourquoi ça pose un vrai problème dans un usage pro

Prenons un cas concret. Tu utilises ChatGPT pour rédiger des réponses à des appels d'offres. En début de conversation, tu lui donnes ta méthodologie, tes références, ton style. Puis tu lui poses 30 questions successives sur le projet. Au bout d'un moment, ses réponses deviennent génériques. Plus de référence à tes cas clients. Plus de ton propre style. L'IA a "oublié" ce que tu lui avais dit au départ.

Ou autre exemple : tu charges un contrat de 40 pages et tu demandes à l'IA d'identifier les clauses à risque. Elle te répond avec assurance. Mais si la clause problématique était en plein milieu du document, elle a peut-être simplement glissé sous le radar du mécanisme d'attention.

Ce n'est pas que l'IA est "nulle". C'est qu'elle a des limites structurelles que la plupart des utilisateurs ne voient pas parce qu'elles ne se manifestent pas par des erreurs évidentes. L'IA hallucine rarement. Elle oublie discrètement.

Ce que tu peux faire concrètement

Comprendre la fenêtre de contexte, c'est déjà changer sa façon d'utiliser l'IA. Voici ce qu'on applique chez brAIny et ce qu'on conseille à nos clients.

Mets les infos les plus importantes en début et en fin de prompt. L'IA y prête nettement plus d'attention. Si tu as une consigne critique, répète-la en conclusion du message. C'est contre-intuitif mais ça marche.

Commence une nouvelle conversation pour chaque tâche distincte. Beaucoup d'utilisateurs gardent une seule longue conversation pour tout faire. C'est le meilleur moyen de perdre des informations importantes dans le bruit. Une tâche, une conversation propre.

Fais des récapitulatifs intermédiaires. Sur des projets longs, toutes les 15-20 interactions, demande à l'IA de résumer les décisions et les contraintes prises jusqu'ici. Puis copie ce résumé en début de prochaine conversation. Tu recharges le contexte manuellement, mais tu gardes le contrôle.

Segmente les documents longs avant de les envoyer. Plutôt que d'uploader un contrat de 60 pages d'un coup, découpe-le par sections et traite-les une par une. Ce qui va de soi dans une analyse humaine doit être reproduit explicitement avec une IA.

Pour les cas critiques, reformule la consigne au moment où elle compte. Si tu as donné une contrainte importante en message 3 et que tu es au message 35, rappelle-la. Ne présume pas que l'IA s'en souvient encore.

Ce que ça change pour tes automatisations IA

Si tu vas plus loin que le simple chat et que tu construis des agents ou des automatisations IA, la gestion du contexte devient un enjeu technique réel.

Les workflows IA professionnels s'appuient aujourd'hui sur des systèmes comme le RAG (Retrieval-Augmented Generation) pour contourner les limites de la fenêtre. Le principe : au lieu de tout mettre dans le contexte, l'IA va chercher en temps réel les informations pertinentes dans une base de données externe. Elle n'a pas besoin de tout "tenir en tête" parce qu'elle peut consulter une mémoire externe à la demande.

C'est ce qu'on implémente pour des clients qui ont besoin que leur IA tienne compte de plusieurs mois d'historique, de documentations internes ou de bases de données produits. Ce n'est pas de la magie : c'est de l'architecture. Et ça change radicalement les performances sur des cas d'usage complexes.

Ce que ça révèle sur la vraie nature de l'IA

La fenêtre de contexte, c'est l'une de ces limites qui révèle quelque chose d'important sur ce qu'est réellement un LLM. Ce n'est pas une intelligence qui comprend et mémorise. C'est un système qui prédit le prochain mot à partir de ce qu'il voit à cet instant précis.

Sa "mémoire" n'est pas une mémoire au sens humain du terme. C'est une fenêtre glissante sur le texte. Quand quelque chose sort de cette fenêtre, c'est comme si ça n'avait jamais existé.

Ça ne diminue pas ce que ces outils peuvent faire. ChatGPT, Claude, Gemini : ce sont des outils extraordinairement puissants quand on sait comment les utiliser. Mais les utiliser bien, c'est d'abord comprendre comment ils fonctionnent, y compris là où ils ont des angles morts.

Tu veux comprendre comment tirer le meilleur parti de ces outils dans ton entreprise, sans tomber dans les pièges qui coûtent du temps et de la fiabilité ? C'est exactement ce qu'on fait chez brAIny. Prends 30 minutes avec nous : https://calendly.com/karim-brainy-automation/30min

Pourquoi l’IA oublie ce que tu as dit