Structurer une base de connaissance pour alimenter un RAG

Comment structurer une base de connaissance pour alimenter un RAG en entreprise 

mars 26, 2026

Un Google Drive interrogé par Gemini n’est pas un RAG. Une base Notion consultée via Notion IA non plus. Pourtant, c’est ce que la majorité des entreprises nous présentent quand elles affirment avoir « mis en place une IA » : des documents empilés, pas de l’expertise structurée. Le contraste entre les deux est aussi net qu’entre un moteur alimenté au carburant raffiné et un autre tournant au diesel frelaté.

Nous déployons des cerveaux numériques pour des entreprises depuis plus de six mois. Voici ce que nous avons appris pour transformer une base de connaissance RAG en machine anti-hallucinations.

Dans cet article :

  1. Pourquoi le « document dump » ne fonctionne pas ;
  2. L’architecture en 3 couches (ADN, expertise qualifiée, vécu terrain) ;
  3. Extraire la Dark Data en passant du savoir tacite à la donnée structurée ;
  4. Le filtre anti-commodité, ce qu’il faut exclure de la base ;
  5. Maintenir la base dans le temps sans la polluer ;
  6. Ce que la structuration révèle sur votre propre entreprise.

 
 

Le « document dump », ou l’illusion de la base de connaissance

Voici ce que nous trouvons en arrivant chez un client : des commerciaux terrain qui travaillent chacun sur leur propre fichier Excel. Ou l’inverse, une équipe entière sur la même base Notion, avec un seul identifiant, rendant impossible tout scoring individuel avec :

  • Des cas clients jamais documentés ;
  • Des success stories qui n’existent que dans la mémoire du dirigeant ;
  • Des commerciaux qui rédigent leurs propres argumentaires avec ChatGPT, produisant des statistiques crédibles mais inventées.

Un cas récent illustre le danger. Un client pressé nous a demandé de construire son ADN d’entreprise à partir de son site internet, sans passer par les interviews. Son site contenait des dizaines d’articles de blog SEO « ancienne génération » : informations obsolètes, contenus génériques, affirmations devenues fausses. Finalement, l’ADN produit était pollué à la source. Quand nous avons enfin conduit les premières interviews, l’écart entre ce que le dirigeant savait vraiment et ce que le site racontait était tel qu’il a fallu tout reprendre à zéro.

La leçon s’impose d’elle-même. Produire des supports avant de saisir l’identité de l’entreprise équivaut à bâtir sur du sable.
 
 

Trois couches, pas une : l’architecture qui fonctionne

Ce modèle n’existait pas au départ, il s’est imposé par la pratique. Le déclencheur a été un de nos clients, l’un des plus grands groupes de traduction français, frappé de plein fouet par l’IA générative. Pendant que des agences de traduction fermaient les unes après les autres, ce groupe maintenait son activité. J’ai questionné le dirigeant et les experts en interne, simplement pour comprendre les problèmes et trouver des réponses qui marchent.

Après mon enquête, j’ai découvert des cas où des clients ayant basculé vers la traduction 100% IA étaient revenus, parfois après des pertes de plusieurs centaines de milliers d’euros. Des secteurs entiers réfractaires, le luxe, le juridique. Au sein d’une même maison de luxe, deux départements (le packaging et les parfums), avec des positions opposées sur l’IA alors qu’ils dépendent de la même directrice des achats. La subtilité de l’interprétation qui résiste encore, comme l’humour, les sous-entendus ou les références culturelles.

Toute cette matière a imposé une structuration en trois couches :

Couche 1 : l’ADN. L’identité profonde de l’entreprise fonde tout le système. Dans ce groupe de 14 agences de traduction, une structure spécialisée dans le luxe ne raisonne pas comme une agence juridique ou médicale. L’ADN permet au cerveau numérique de saisir cette nuance avant de traiter la moindre donnée. Sans cette couche, vous laissez un prestataire marketing générique définir votre entreprise à la place du dirigeant qui la connaît de l’intérieur.

Couche 2 : l’expertise qualifiée. Les faits scorés, classés, vérifiés contre l’ADN. Ce n’est pas tout ce que l’entreprise sait, mais ce qui la distingue.

Couche 3 : le vécu terrain. Les interviews, les verbatims, les cas clients, les micro-signaux qui émergent quand un dirigeant parle de son métier avec précision.
L’ADN ne modifie pas la donnée. Il alerte sur sa nature et permet au cerveau de signaler quand un contenu injecté n’est pas aligné avec ce qu’est fondamentalement l’entreprise.

Pour aller plus loin :  Pourquoi l’IA échoue sans architecture de connaisance ? 
 
 

Extraire la Dark Data : de la tête du dirigeant au RAG

La connaissance la plus précieuse d’une entreprise n’est écrite nulle part. Elle est dans la tête du dirigeant, des experts, des équipes terrain. C’est la Dark Data.

Notre cerveau numérique commence par analyser l’existant (documents, bibliothèque scorée, interviews précédentes) et génère une liste de questions ciblées. Le cahier des charges capte un maximum d’informations de non-commodité que les LLM ne connaissent pas.

Les questions ciblent aussi les éléments contre-intuitifs. Un responsable marketing nous a expliqué qu’en augmentant significativement le nombre et la complexité des questions de ses formulaires, il avait mieux qualifié la motivation des prospects et augmenté ses taux de conversion. Le contraire exact de la recommandation classique « formulaires courts et simples ».

Mais la liste n’est qu’un support. Une interview réussie, c’est quand le dirigeant parle sans retenu, avec précision, et sort de ce qui est généralement connu. Les questions initiales lancent la discussion ; c’est dans les rebonds que surgissent les pépites.

Entre l’interview brute et la base de connaissance, le chemin est long. Nettoyage, séparation commodité/autorité, confrontation à l’ADN existant. Si une information nouvelle n’est pas alignée avec l’ADN déjà connu, nous remontons la divergence au client, qui se charge de trancher. Cette boucle, itération après itération, rend la donnée de plus en plus pure.

Lire aussi : Peut-on faire confiance à l’humain pour entraîner une IA ?

 
 

Le filtre anti-commodité : ce qu’il faut exclure

Une base de connaissance RAG doit être sélective, pas exhaustive. Nous classons chaque information en trois niveaux.

  • Non-commodité : fait vérifiable, exclusif au client ou introuvable en surface.
  • Semi-rare : pertinent mais pas unique.
  • Commodité : trouvable partout, générique, reproductible par n’importe qui.

La commodité, c’est « la lumière bleue correspond aux longueurs d’onde entre 380 et 500 nanomètres ». La non-commodité, c’est qu’il a fallu 5 ans de R&D à un laboratoire de parfumerie pour passer de 98% à 100% d’ingrédients naturels, ou que les molécules pétrochimiques coûtent 15 à 20 fois moins cher que les naturelles.

Le cas le plus parlant : un paysagiste haut de gamme du Sud de la France avait supprimé tous ses contenus sur les maladies des palmiers, sur les conseils d’une agence de communication qui estimait que ça ne collait pas avec un positionnement luxe. Notre cerveau, en analysant ses interviews, a immédiatement identifié cette expertise comme un avantage concurrentiel majeur. Le traitement du charançon rouge était en réalité un des points d’entrée de ses clients vers des réalisations ultra haut de gamme. L’agence avait conseillé d’éliminer précisément ce qui le rendait unique.
 
 

Maintenir la base dans le temps

Un RAG mal entretenu finit par mentir avec une assurance croissante, et cette obsolescence progresse en silence. Notre mécanisme repose sur une boucle de rétroaction qui remonte automatiquement toute information nouvelle contredisant l’ADN, permettant à l’entreprise de redéfinir sa vérité.

Un cas concret avec un laboratoire médical : nous avions mis en place un cerveau numérique qui proposait des plans éditoriaux. L’équipe marketing du client a rejeté un sujet, estimant qu’il cannibalisait un contenu existant déjà positionné en première page. Nous avons eu l’intuition de demander au cerveau de contre-argumenter. Sa réponse : le mot-clé est effectivement en première position, mais sur une intention de recherche de type « définition ». Le contenu proposé cible une intention de type « utilisation », donc ce ne sont pas les mêmes recherches. C’est un territoire sémantique inexploité.

L’IA venait de diagnostiquer un biais cognitif de l’équipe. Pas une hallucination, pas une erreur de calcul, mais un raccourci qu’une vision SEO classique avaient ancré dans les pratiques. Quand nous avons présenté l’analyse, la réaction a été immédiate : « On n’avait pas vu ça sous cet angle. »

Cet épisode nous a poussé à intégrer une étape systématique de contre-argumentation. La non-régression, la règle de ne jamais dégrader une section validée, reste un principe, mais nous avons appris qu’elle peut être trop rigide. Quand elle est questionnée trop fréquemment, c’est un signal : la règle elle-même doit évoluer.
 
 

Ce que la base de connaissance révèle de vous

Le résultat le moins attendu de tout ce travail n’est pas technique, mais plutôt l’humain. Un laboratoire de parfumerie, en structurant sa base de connaissance, a découvert que des concurrents communiquaient sur le terme « 100% transparent » pour des produits cosmétiques. Un terme volontairement ambigu. En confrontant cette découverte aux 5 ans de R&D investis pour atteindre le vrai 100% naturel, le dirigeant a pris conscience de la valeur réelle de ce qu’il avait construit, et de l’ampleur du greenwashing dans son secteur.

Le cas le plus concret de cette valeur : chez un client paysagiste, la responsable marketing a quitté l’entreprise en décembre 2025. Le temps de recruter, le client a externalisé son marketing auprès de notre cabinet. Le cerveau numérique, construit en amont, permettait à nos équipes d’interroger la base à chaque nouveau contenu, de vérifier la cohérence avec l’ADN, de maintenir une production soutenue. Sans ce cerveau, le départ d’une seule personne aurait créé un trou de plusieurs mois.

Une base de connaissance bien structurée pour un RAG n’est pas un projet technique. C’est la numérisation de ce qui rend une entreprise irremplaçable. La question n’est pas de savoir si vous en avez besoin, mais de savoir combien de cette expertise reste enfermée dans des têtes qui, un jour, ne seront plus là.

Lire aussi : L’IA comme révélateur en entreprise

 
 

Questions fréquentes

 
Quelle est la différence entre un RAG et une simple base documentaire connectée à une IA ?

Une base documentaire connectée (Google Drive + Gemini, SharePoint + Copilot) envoie des documents bruts à l’IA sans hiérarchie ni filtre. Le RAG va plus loin : il structure la connaissance en couches, qualifie chaque information et donne à l’IA un contexte d’identité (l’ADN) pour interpréter la donnée. La différence, c’est celle entre chercher un mot dans un dictionnaire et comprendre une conversation.
 
Par où commencer quand on veut structurer sa base de connaissance RAG ?
Par l’ADN de l’entreprise. Pas par les documents. L’erreur la plus fréquente est de charger immédiatement tout le contenu existant (site, brochures, présentations). Si ce contenu est obsolète ou générique, il contamine la base dès le départ. Commencez par des interviews du dirigeant et des experts pour capturer l’identité réelle, puis confrontez les documents existants à cet ADN.
 
Comment savoir si une information mérite d’entrer dans la base de connaissance ?
Posez-vous une question simple : est-ce qu’une IA pourrait produire cette information seule, sans accès à votre entreprise ? Si oui, c’est de la commodité. « La lumière bleue correspond aux longueurs d’onde entre 380 et 500 nm » est de la commodité. « Il a fallu 5 ans de R&D pour passer de 98% à 100% d’ingrédients naturels » ne l’est pas. Seul le second type rend votre RAG utile.
 
Combien de temps faut-il pour construire une base de connaissance RAG exploitable ?
La première version opérationnelle (ADN + premières interviews nettoyées + expertise scorée) se construit en quelques semaines. Mais une base de connaissance RAG n’est jamais « terminée ». Elle s’enrichit à chaque nouvelle interview, à chaque retour terrain, à chaque confrontation avec l’évolution du marché. C’est un actif vivant, pas un livrable ponctuel.
 
Que se passe-t-il si l’expertise de l’entreprise évolue ? La base devient-elle obsolète ?
C’est le risque principal d’un RAG non maintenu. Notre approche intègre une boucle de rétroaction : chaque nouvelle information est confrontée à l’ADN existant. Si une contradiction apparaît, le système la signale pour que l’entreprise tranche. L’objectif n’est pas de figer l’expertise, mais de la faire évoluer de façon contrôlée, sans polluer la base avec des informations contradictoires.
 
Un RAG peut-il remplacer un expert interne ?
Non, il peut préserver son expertise, accélérer la transmission et maintenir une continuité quand cette personne quitte l’entreprise. Nous l’avons vécu : le départ d’une responsable marketing n’a pas interrompu la production de contenu parce que le cerveau numérique contenait l’ADN, les références et les standards de qualité. Le RAG ne remplace pas l’humain. Il empêche que son départ efface des années de savoir accumulé.