Les outils d’intelligence artificielle comme ChatGPT, Claude ou NotebookLM donnent souvent l’impression de “se souvenir de tout”. Beaucoup d’utilisateurs pensent même que ces IA disposent d’une mémoire parfaite. Pourtant, une étude récente de Microsoft Research montre que cette impression est trompeuse, et que les erreurs peuvent avoir des conséquences importantes pour les TPE, les indépendants et toute activité reposant sur des documents sensibles.
Ce que montre réellement l’étude Microsoft
Microsoft Research a testé 19 modèles d’IA (dont GPT, Claude et Gemini) sur 52 scénarios professionnels couvrant 310 environnements de travail : comptabilité, contrats, code, musique, états financiers, etc.
Le protocole :
- Un document d’environ 15 000 tokens
- 5 à 10 tâches d’édition complexes
- 10 cycles “modifier → annuler la modification” (20 interactions)
Si l’IA était fiable, le document final devrait être identique à l’original.
Résultat : même les meilleurs modèles corrompent en moyenne 25 % du document après seulement 20 échanges.
Pourquoi c’est important pour les TPE et indépendants
Les IA donnent l’impression de suivre parfaitement une conversation, mais ce n’est pas une vraie mémoire. Elles :
La “mémoire intégrée” des versions premium (ChatGPT Memory, Claude Memory, NotebookLM) n’empêche pas ces dérives. Elle sert à retenir des préférences générales, pas à garantir l’intégrité d’un document.
Exemples concrets d’erreurs observées
Dans les scénarios testés par Microsoft, les IA ont produit des erreurs comme :
- Un chiffre modifié dans un tableau financier
- Une phrase supprimée dans un contrat
- Une formule SQL ou Python altérée
- Une section reformattée sans raison
- Une note musicale changée dans une partition
Ces erreurs sont souvent subtiles et difficiles à repérer, mais peuvent avoir des conséquences graves.
Domaines où l’IA s’en sort le mieux… et le pire
Performances correctes
- Python
- SQL
- Bases de données
Ces domaines sont très structurés, avec des règles strictes.
Performances médiocres
- États financiers
- Contrats
- Partitions musicales
- Patrons textiles
Ce sont précisément les documents où les TPE et indépendants attendent une fiabilité totale.
Conclusion : l’IA est fiable sur une tâche courte, pas sur une longue chaîne d’édition
Selon Microsoft :
Sur une chaîne de longue éditions, la supervision humaine n’est pas une option.
Même les modèles premium :
- ne garantissent pas l’intégrité d’un document,
- ne détectent pas leurs propres erreurs,
- ne peuvent pas être laissés en autonomie sur des documents sensibles.
Message clé pour les TPE et indépendants
Les IA donnent l’impression d’une mémoire parfaite, mais l’étude Microsoft montre qu’elles dégradent les documents au fil des échanges. La mémoire intégrée améliore le confort d’usage, pas la fiabilité. Pour les documents sensibles (contrats, devis, budgets, rapports), la relecture humaine reste indispensable.

