Génération augmentée par la récupération (RAG)

Intermédiaire

Le RAG fait répondre un modèle à des questions sur vos données — documents, base de connaissances, base de code — sur lesquelles il n'a jamais été entraîné. L'idée est simple : récupérer les éléments pertinents, augmenter le prompt avec eux, puis générer une réponse ancrée dans ces éléments.

La boucle

Indexez vos données : découpez-les en fragments, encodez-les (embed), stockez-les dans un index vectoriel (et/ou par mots-clés).
Récupérez les meilleurs fragments les plus pertinents pour la question.
Augmentez : placez ces fragments dans le prompt avec une instruction du type « Réponds uniquement à partir du contexte ci-dessous ; si l'information n'y figure pas, dis-le. »
Générez — et idéalement citez le fragment d'où provient chaque affirmation.

Pourquoi le RAG plutôt que le fine-tuning ?

Le RAG garde le savoir frais (mettez à jour les données, pas le modèle), fournit des citations et coûte bien moins cher qu'un réentraînement. Pour la plupart des besoins du type « répondre à propos de mes documents », c'est le bon premier outil — voir Fine-tuning vs prompting vs RAG.

Les modes de défaillance (là où la qualité du RAG meurt)

Mauvaise récupération = mauvaise réponse. Si le bon fragment n'est pas récupéré, le modèle ne peut pas l'utiliser. La plupart des problèmes « le RAG se trompe » sont des problèmes de récupération.
Un découpage trop grossier/trop fin — ruine la pertinence (embeddings).
Pas d'instruction d'ancrage — le modèle mélange les faits récupérés avec ses propres suppositions. Dites-lui de répondre uniquement à partir du contexte et d'admettre les lacunes.
Trop en entasser — des fragments non pertinents diluent le signal et coûtent des jetons. Récupérez peu de fragments, de haute qualité.
Pas de citations — vous ne pouvez pas vérifier, donc vous ne pouvez pas faire confiance.

:::tip Évaluez la récupération séparément Mesurez « avons-nous récupéré le bon fragment ? » indépendamment de « le modèle a-t-il bien répondu ? ». Cela localise le problème rapidement. Voir Évaluations. :::

La boucle​

Pourquoi le RAG plutôt que le fine-tuning ?​

Les modes de défaillance (là où la qualité du RAG meurt)​

Pour aller plus loin​

La boucle

Pourquoi le RAG plutôt que le fine-tuning ?

Les modes de défaillance (là où la qualité du RAG meurt)

Pour aller plus loin