Développement

Découvrez les 10 éléments essentiels pour réussir avec le RAG agentique

Carl Lapierre

min read

Si vous avez expérimenté avec les grands modèles de langage (LLM) récemment, il y a de fortes chances que vous ayez entendu parler de la génération augmentée par récupération (RAG) et des systèmes agentiques. Depuis deux ans, nous avons travaillé intensivement sur la construction et le perfectionnement de ces systèmes à travers divers projets, en recueillant des informations précieuses en cours de route ! Mais d'abord, faisons un rapide survol du RAG agentique.

Qu'est-ce que le RAG Agentique ?

Le RAG agentique améliore les sorties d'IA en combinant la récupération d'informations avec la prise de décision, ce qui lui permet de traiter des requêtes complexes de manière proactive et contextuellement riche. Au-delà des améliorations conversationnelles, le RAG agentique est une véritable centrale pour la génération de rapports, la recherche et l'exploration de données. Il collecte, structure et synthétise de manière autonome les informations pertinentes, vérifie les faits et croise les sources pour réduire les hallucinations (le terme pour désigner les informations générées par l'IA mais inexactes). Cela en fait un partenaire fiable pour fournir des informations approfondies, précises et exploitables dans diverses tâches.

Par exemple, nous avons utilisé le RAG agentique pour analyser des documents techniques, identifier des spécifications critiques des matériaux et des niveaux de tolérance, économisant ainsi des heures de révision manuelle pour les ingénieurs. Nous avons également permis à des non-analystes d'interroger des données immobilières en langage naturel, générant dynamiquement des rapports qui répondent à des questions complexes sans nécessiter d'expertise technique.

En juillet 2024, j'ai présenté la génération augmentée par récupération (RAG) lors de la conférence WeAreDevelopers à Berlin, puis plus tard à Mila, l'Institut québécois de l'IA. Au cours de l'année écoulée, de nombreuses discussions avec des clients ont approfondi ma compréhension des complexités et des possibilités offertes par ces systèmes. Avec tout cela en tête, j'ai compilé dix points essentiels—des enseignements pour quiconque cherche à améliorer son approche du RAG et de l'IA agentique.

1. Les données sont essentielles

Dans les flux de travail de l'IA générative (GenAI), la qualité des données est primordiale. Les entreprises qui maintiennent des données propres, bien formatées et une documentation complète réussissent plus rapidement avec l'IA. Des données propres permettent aux modèles d'atteindre leur plein potentiel sans se perdre dans des entrées désordonnées et ambiguës. De plus, des processus bien documentés fournissent une orientation précieuse à ces agents, et favoriser une bonne culture de documentation est extrêmement gratifiant. Par exemple, nous avons créé un système agentique pour les données de business intelligence (BI) qui naviguait efficacement dans les tables « tier or » (de haute qualité), grâce à une documentation détaillée. Si vos données sont chaotiques, aucune technologie de pointe ne pourra les faire chanter.

2. Un RAG naïf n'est jamais suffisant

Nos clients se demandent souvent pourquoi une simple recherche sémantique n'est pas suffisante. La réponse réside dans la complexité des requêtes. Beaucoup de requêtes couvrent plusieurs sources ou documents, et certaines nécessitent une séquence d'étapes de raisonnement, où une réponse s'appuie sur la précédente. Imaginez poser une série de questions de manière naïve sans tenir compte des réponses précédentes. C'est comme résoudre un puzzle avec seulement la moitié des indices ; simplement récupérer des données pour augmenter une réponse de modèle n'est pas suffisant. Le RAG agentique utilise des « architectures cognitives » pour lier toutes les parties mobiles (c'est comme donner un cerveau à votre processus RAG). Cela s'appelle aussi la planification, et il existe de nombreuses façons d'aborder ce problème avec des approches courantes comme ReAct (Reason+Act) ou le cycle OODA, qui se compose de quatre étapes principales :

Observer (collecter des informations)
Orienter (analyser la situation)
Décider (sélectionner la meilleure action)
Agir (exécuter et surveiller les résultats)

Ce processus itératif permet de surmonter les limitations des flux de données simples, typiques de nombreux LLM et systèmes d'IA actuels. LangGraph, LLamaIndex ou l'orchestration personnalisée peuvent combler cette lacune, en fournissant la cohésion nécessaire pour soutenir efficacement des comportements agentiques plus nuancés.

3. Les pipelines RAG varient énormément

Nous avons travaillé sur de nombreux projets avec des organisations, chacune ayant des besoins uniques pour leur pipeline RAG. Ce processus commence toujours par un entretien approfondi avec l'expert du domaine—la personne qui comprend le mieux comment explorer efficacement leurs données. Pour certains clients, les données les plus récentes sont essentielles ; pour d'autres, la récupération basée sur la proximité ou des extraits spécifiques de mots-clés sont prioritaires. Le RAG, en tant que concept global, offre de la flexibilité dans ce que vous récupérez et la manière dont vous le récupérez, en fonction des objectifs commerciaux. Parfois, GraphRAG fonctionne mieux pour des données factuelles, tandis que d'autres fois, il s'agit de collecter des informations à partir d'images ou de diagrammes. L'important est de choisir la stratégie de récupération qui correspond le mieux à chaque cas d'utilisation spécifique.

4. Le vrai travail consiste à échelonner et maintenir les systèmes agentiques

Construire un système agentique qui fonctionne est un défi, mais maintenir sa performance au fil du temps est encore plus difficile. L'ingestion de contenu et l'indexation représentent environ 40 % du travail, le développement des agents 20 %, et l'évaluation et la surveillance le reste, soit environ 40 %. Assurer que votre pipeline livre constamment des résultats précieux exige des outils et une surveillance constante—c'est comme chercher une aiguille dans une botte de foin qui ne cesse de grandir. L'évaluation elle-même est un processus créatif ; d'autres systèmes agentiques peuvent être utilisés pour surveiller les réponses, et de nombreuses techniques existent à cet égard. Des outils comme LangSmith, LangFuse, Helicone (pour l'observabilité) et Ragas (pour l'évaluation) sont excellents pour une mise en place efficace, en particulier lors de l'itération et de l'expérimentation.

5. L'orchestration des micro-agents améliore la performance

Nous avons appris que plusieurs micro-agents, chacun gérant une tâche spécifique, sont plus efficaces qu'un seul agent monolithique avec une boîte à outils étendue. Les micro-agents fonctionnent comme des systèmes distribués : des agents plus petits et spécifiques au domaine sont plus faciles à affiner, à gérer et à combiner, permettant une orchestration plus adaptable et puissante. Des cadres comme Autogen, CrewAI et le cadre expérimental Swarm d'OpenAI soutiennent l'orchestration des agents, mais dans de nombreux cas, les solutions maison sont les plus adaptées. Voir le point 9 pour plus de détails.

6. Ne pas trop abuser de l'ingénierie des prompts

L'ingénierie des prompts n'atteint que certaines limites. Au lieu de tenir compte de chaque cas particulier et de passer des heures sans fin à affiner les invites, il est préférable de se concentrer sur la construction d'architectures capables de gérer l'incertitude de manière programmatique. Les invites en chaîne de réflexion et les exemples avec peu de tirages restent précieux, mais s'appuyer excessivement sur les ajustements de prompts n'est pas viable à long terme. Il est souvent plus efficace d'utiliser des fonctionnalités au-delà des invites, comme l'appel de fonctions et des cadres de génération structurée tels que les plans et les directives. Ajouter de l'auto-réflexion et des procédures de correction dans votre flux agentique produit souvent de meilleurs résultats que de viser la réponse parfaite en zéro-shot. Voir Corrective RAG (CRAG) comme exemple de réflexion.

7. Trouver l'équilibre entre coût, vitesse et précision

Lors de la construction des agents, chaque décision doit reposer sur l'équilibre entre coût, vitesse et précision. C'est similaire au triangle du gestionnaire de projet qualité, coût et rapidité, mais appliqué au pipeline agentique. Ajouter des étapes supplémentaires à votre flux peut améliorer la précision, mais cela augmente aussi les coûts. À l'inverse, un pipeline plus rapide et moins coûteux avec des modèles de base sacrifie souvent la précision. Ces compromis doivent être soigneusement évalués lors des phases de preuve de concept. Un flux agentique très précis est facile à présenter avec plusieurs étapes et des modèles de pointe, mais une planification prenant en compte le trafic, l'utilisation et le coût par requête évitera des erreurs coûteuses.

8. La cohérence interne est une métrique sous-estimée

Parfois, les solutions les plus simples fonctionnent le mieux : pour obtenir des résultats cohérents, essayez d'échantillonner plusieurs sorties et vérifiez si elles convergent. La cohérence à travers les tentatives indique la fiabilité ; bien que cela nécessite plus de calcul, les gains de précision peuvent être exponentiels—transformant une réponse de 90% de confiance en une qui approche les 99%.

9. L'orchestration maison plutôt que les cadres sophistiqués

Il est tentant de se lancer dans l'utilisation de cadres d'orchestration comme LlamaIndex ou LangGraph, mais ces cadres évoluent rapidement, ce qui rend difficile de suivre les nouvelles intégrations et fonctionnalités. Pour une preuve de concept, ils peuvent être utiles, mais au-delà de cela, construire vos propres flux est souvent plus simple et plus efficace. Si vous êtes à l'aise avec la programmation, orchestrer des flux agentiques vous-même nécessite généralement moins de lignes de code et offre un meilleur contrôle. Les cadres ont leur place, mais ne sous-estimez pas la puissance de la simplicité dans votre architecture.

10. Le besoin de systèmes agentiques est réel

Les systèmes agentiques sont le lien entre les processus intensifs en main-d'œuvre et l'automatisation efficace. Imaginez un agent adapté à vos besoins spécifiques et armé de vos données internes : c’est comme une arme secrète pour l’efficacité. Le retour sur investissement est considérable, surtout lorsqu'il permet de réduire le travail répétitif et de se concentrer sur des tâches créatives à forte valeur ajoutée. Les clients évitent souvent des outils d'IA comme Copilot ou les agents Salesforce parce qu'ils manquent de contrôle d'intégration, nécessitant une solution sur mesure : un agent expert du domaine capable de naviguer dans leur environnement unique. Récemment, nous avons observé une vague d'intérêt pour l'IA dans la transformation des processus d'affaires. Il est probable qu'à l'avenir, chaque entreprise disposera d'un agent en ligne, contribuant à un « web agentique » interconnecté où des agents intelligents travailleront en harmonie à travers différents domaines.

Prêt à explorer des solutions agentiques ensemble ?

Cela fait un moment que nous développons des applications alimentées par des agents et nous avons vu l'impact remarquable qu'elles peuvent avoir sur la productivité et la croissance. Si vous êtes intéressé par la création d'une solution qui relie l'IA à vos flux de travail uniques, contactez-nous et voyons comment nous pouvons la concrétiser.