Ceci est le premier article de notre série Plongées Techniques, où nous décortiquons l'ingénierie des agents IA en langage clair.
Vous avez probablement utilisé ChatGPT ou Claude. Vous posez une question, vous obtenez une réponse, vous posez une autre question, vous obtenez une autre réponse. C'est comme une conversation. Mais voici quelque chose que la plupart des gens ne réalisent pas : au moment où cette conversation se termine, l'IA oublie tout. Chaque détail que vous avez partagé, chaque préférence que vous avez mentionnée, chaque décision que vous avez prise ensemble — tout disparaît.
Pour une discussion informelle, c'est acceptable. Pour un outil métier qui gère vos clients, vos factures ou votre pipeline commercial ? C'est un problème sérieux.
C'est le problème de la mémoire en IA, et c'est l'un des plus grands défis pour quiconque développe des agents IA aujourd'hui. Examinons-le de plus près.
Comment l'IA « se souvient » actuellement
Quand vous parlez à un modèle IA comme GPT-4 ou Claude, vous n'avez pas vraiment une conversation. Ce qui se passe réellement, c'est ceci : chaque fois que vous envoyez un message, tout l'historique de la conversation est renvoyé au modèle en même temps que votre nouveau message. L'IA lit l'ensemble du transcript à partir du début, génère une réponse et la renvoie. Elle n'a pas de mémoire réelle — elle relit simplement le transcript à chaque fois.
Ce transcript s'appelle la « fenêtre de contexte », et il a une limite fixe. Pour la plupart des modèles actuels, cette limite se situe entre 128 000 et 200 000 tokens — à peu près 100 000 à 150 000 mots. Cela semble énorme, jusqu'au moment où votre agent IA gère des conversations client depuis une semaine et a traité des milliers de messages.
Quand la fenêtre de contexte est pleine, quelque chose doit disparaître. Et tout ce qui disparaît est oublié de façon permanente. L'IA ne sait pas qu'elle a oublié — elle ne voit simplement plus cette information.
Pourquoi c'est important pour votre entreprise
Imaginez que vous gérez un agent d'assistance sur WhatsApp. Un client vous contacte lundi à propos d'un produit défectueux. Vous résolvez le problème et proposez un remplacement. Jeudi, le même client revient avec une question de suivi. Si votre agent n'a pas de souvenir de la conversation de lundi, le client doit expliquer toute la situation à nouveau. Il s'agace. Il perd confiance envers votre entreprise.
Ce n'est pas un scénario hypothétique. La recherche de Gartner a révélé que le taux de churn client augmente d'environ 20 % dans les scénarios d'assistance où les clients doivent se répéter face aux agents IA. Les gens s'attendent à la continuité. Quand une IA les oublie, c'est perçu comme du dédain — pire que de parler à un nouvel agent humain, car au moins un humain s'excuserait de ne pas avoir le contexte.
Le même problème affecte les outils métier internes. Un assistant IA qui aide à la planification de projets mais oublie les décisions antérieures. Un agent comptable qui ne se souvient pas des factures déjà discutées. Un agent commercial qui pose les mêmes questions de qualification à chaque appel. Sans mémoire, les agents restent bloqués dans une boucle de premières interactions.
Les trois types de mémoire dont un agent a besoin
La mémoire humaine n'est pas une seule chose — c'est plusieurs systèmes qui fonctionnent ensemble. Les chercheurs en IA ont emprunté ce cadre parce qu'il s'avère que les agents ont besoin de la même variété.
La mémoire à court terme est la conversation qui se déroule en ce moment. C'est la fenêtre de contexte dont nous avons parlé : l'IA lit l'échange actuel et répond de manière cohérente. Chaque chatbot IA en dispose déjà. Le défi, c'est qu'elle est temporaire et limitée en taille.
La mémoire sémantique à long terme est la connaissance factuelle du monde et des utilisateurs spécifiques. Pensez-y comme à un classeur. « Ce client est basé à Gand. » « Il préfère les factures en néerlandais. » « Son entreprise compte 12 employés. » Ce sont des faits qui ne changent pas souvent et devraient persister à travers chaque interaction.
La mémoire épisodique à long terme est l'enregistrement de ce qui s'est réellement passé. « Le 3 mars, ce client a signalé une erreur de facturation et nous avons émis un avoir. » « La semaine dernière, l'utilisateur a demandé une mise à niveau de son forfait et nous avons envoyé une comparaison. » La mémoire épisodique donne à l'agent un sens de l'historique — il sait ce qu'il a fait, ce qui a fonctionné et ce qui n'a pas fonctionné.
Il y a aussi la mémoire procédurale — savoir comment faire les choses. « Quand un client demande un remboursement, d'abord vérifier son historique de commandes, puis vérifier la période de retour, puis traiter par Stripe. » Ce n'est pas tant une question de se souvenir de faits qu'une question de se souvenir de processus.
La plupart des agents IA d'aujourd'hui ne disposent que de mémoire à court terme. Les bons commencent à avoir une mémoire sémantique et épisodique à long terme. La mémoire procédurale est pour l'essentiel encore codée en dur par les développeurs plutôt qu'apprise par l'agent.
Les défis techniques (en langage clair)
Mettre en place une mémoire pour les agents IA est plus difficile qu'il n'y paraît, pour plusieurs raisons.
La fenêtre de contexte coûte de l'argent réel. Chaque token dans la fenêtre de contexte coûte de l'argent — à la fois pour l'envoyer et pour le traiter. GPT-4 facture environ 5 dollars par million de tokens en entrée. Si vous intégrez tout l'historique de chaque interaction client dans chaque requête, vos coûts explosent. Un agent d'assistance gérant 200 conversations par jour pourrait facilement dépenser des centaines d'euros par mois en frais de tokens seuls si la mémoire n'est pas gérée avec soin.
Vous ne pouvez pas tout sauvegarder. Stocker chaque message, fait et événement dans une énorme base de données est techniquement possible, mais récupérer les bonnes informations au bon moment est le vrai défi. Quand un client pose une question sur sa commande, l'agent doit trouver les détails pertinents de la commande — pas chaque message que ce client a jamais envoyé. Une mauvaise récupération signifie que l'agent soit manque un contexte important, soit est submergé par des informations non pertinentes, ce qui dégrade ses réponses.
Les informations changent. L'adresse d'un client, son forfait d'abonnement, la taille de son équipe — tout cela change au fil du temps. Si le système de mémoire stocke « le client a 5 employés » de janvier et « le client a 12 employés » de mars, lequel l'agent utilise-t-il ? Les systèmes de mémoire doivent gérer les mises à jour, les conflits et le versioning sans confondre l'agent.
La confidentialité et la conformité ajoutent de la complexité. En Europe, le RGPD donne aux clients le droit de demander la suppression de leurs données. Si votre agent IA a des souvenirs sur un client dispersés dans des bases de données vectorielles, des journaux de synthèse et des historiques de conversations, vous devez être capable de trouver et supprimer tout cela à la demande. Ce n'est pas banal à mettre en place correctement.
Comment l'industrie la résout
Il n'existe pas encore de solution unique, mais plusieurs approches gagnent en popularité en 2026.
Fenêtre glissante avec synthèses. L'approche la plus simple : conserver les N derniers messages en détail complet et compresser tout ce qui est plus ancien en synthèse. L'IA dispose toujours d'un contexte récent à haute fidélité et d'un contexte plus ancien sous forme compressée. Ce n'est pas parfait — les synthèses perdent de la nuance — mais c'est pratique et économique.
Bases de données vectorielles pour la recherche sémantique. Des outils comme Pinecone, Weaviate et pgvector (qui fonctionne à l'intérieur de PostgreSQL et Supabase) stockent les souvenirs comme des représentations mathématiques appelées embeddings. Quand l'agent a besoin de contexte, il recherche les souvenirs qui sont sémantiquement similaires à la conversation actuelle. « Client posant des questions sur la facturation » récupère les conversations de facturation antérieures, pas les tickets d'assistance non liés. C'est l'épine dorsale de la plupart des systèmes de mémoire en production aujourd'hui.
Couches d'extraction de mémoire. Des cadres comme Mem0 et Zep se placent entre l'agent et la base de données. Ils extraient automatiquement les faits et les événements des conversations, les étiquettent avec des métadonnées (qui, quand, quelle catégorie), et les stockent dans des formats structurés. Quand l'agent a besoin de contexte, la couche de mémoire ne récupère que ce qui est pertinent. C'est plus sophistiqué que la recherche vectorielle brute parce que cela comprend la différence entre un fait (« le client est en Belgique ») et un événement (« le client s'est plaint de l'expédition le 1er mars »).
Mémoire graphique. Une approche émergente qui stocke les souvenirs comme des nœuds connectés — clients, produits, événements, préférences — liés par des relations. La mémoire graphique est particulièrement bonne pour répondre à des questions comme « quels clients ont acheté le produit X et se sont aussi plaints de la fonctionnalité Y ? » parce qu'elle comprend comment les choses se rapportent les unes aux autres, pas seulement leur ressemblance.
Systèmes hybrides. Les configurations les plus prêtes pour la production combinent plusieurs de ces approches. Une fenêtre glissante pour la conversation actuelle, une base de données vectorielle pour la récupération sémantique, et une base de données structurée pour les faits concrets. La couche de mémoire de l'agent décide quoi récupérer en fonction de ce dont la conversation a besoin maintenant.
Ce que cela signifie pour votre entreprise
Si vous êtes une petite entreprise utilisant ou envisageant des agents IA, voici ce qui compte :
Un agent sans mémoire est un chatbot. Il répond aux questions, mais il ne connaît pas vos clients. Il ne peut pas apprendre des interactions passées. Il traite chaque conversation comme la première. C'est acceptable pour répondre aux FAQ mais insuffisant pour toute relation client significative.
Un agent avec mémoire devient quelque chose de plus proche d'un membre d'équipe. Il se souvient qu'un client préfère le néerlandais à l'anglais. Il sait qu'il a eu un problème le mois dernier qui a été résolu. Il se rappelle leur historique de commandes sans qu'on le lui demande. C'est la différence entre un outil et un assistant.
Le problème de la mémoire est en train d'être résolu — les cadres et les bases de données existent aujourd'hui. Mais les assembler correctement, en particulier d'une manière qui respecte le RGPD et maintient les coûts raisonnables, demande un vrai travail d'ingénierie.
À venir
Dans le prochain article de cette série, nous examinerons comment les agents IA prennent réellement des décisions — la différence entre une simple réponse directe et le raisonnement multi-étapes qui permet aux agents de planifier, d'utiliser des outils et de gérer des tâches complexes. Si la mémoire est le classeur du cerveau, le raisonnement, c'est le cerveau lui-même.
Cresly et tout cela
Chez Cresly, chaque agent IA que nous développons pour les entreprises européennes inclut une vraie architecture de mémoire — pas seulement une fenêtre de contexte, mais un stockage persistant qui se souvient de vos clients à travers les conversations tout en restant entièrement conforme au RGPD et hébergé en UE. Si vous envisagez des agents IA pour votre entreprise et voulez qu'ils se souviennent vraiment de vos clients, nous le mettons en place dès le départ.