Un nouveau paradigme pour les modèles de langage
Développée conjointement par Stanford University et Google DeepMind, la méthode Step-Wise Reinforcement Learning (SWiRL) révolutionne l’entraînement des modèles de langage en leur permettant de résoudre des tâches complexes nécessitant un raisonnement en plusieurs étapes et l’utilisation d’outils externes.
Contrairement aux approches traditionnelles de renforcement par retour humain (RLHF) ou par retour d’IA (RLAIF), SWiRL se concentre sur l’apprentissage de séquences d’actions complètes, offrant ainsi une meilleure capacité à gérer des processus multi-étapes tels que la rédaction de rapports ou l’analyse financière.
Une approche en deux phases : génération de données synthétiques et apprentissage par renforcement
La première phase de SWiRL consiste à générer des données synthétiques en simulant des trajectoires de résolution de problèmes.
Un modèle de langage est incité à décomposer une tâche complexe en sous-tâches, à appeler des outils externes (comme des moteurs de recherche ou des calculatrices), et à intégrer les résultats obtenus pour progresser vers une solution finale.
Chaque trajectoire est ensuite fragmentée en sous-trajectoires, permettant une analyse fine du raisonnement à chaque étape.
La seconde phase utilise ces trajectoires pour entraîner un modèle de base via un algorithme de renforcement spécialisé.
À chaque étape, le modèle reçoit un retour d’information sur la pertinnce de son action, favorisant ainsi un apprentissage plus robuste et généralisable.
Des performances supérieures sur des tâches complexes
Les tests menés sur des ensembles de données exigeants tels que GSM8K, HotPotQA, MuSiQue et BeerQA ont montré que les modèles entraînés avec SWiRL surpassent les approches traditionnelles, avec des gains de précision relatifs allant de 11 % à plus de 21 %.
Notamment, l’utilisation de données filtrées en fonction de la qualité du processus de raisonnement, plutôt que du seul résultat final, a permis d’améliorer significativement les performances, même lorsque la réponse finale était incorrecte.
Une généralisation prometteuse pour l’IA d’entreprise
SWiRL démontre une capacité notable à généraliser ses apprentissages.
Par exemple, un modèle entraîné sur des tâches de question-réponse textuelles a vu ses performances s’améliorer sur des problèmes mathématiques, sans entraînement spécifique sur ces derniers.
Cette transférabilité est particulièrement précieuse pour les applications d’entreprise, où les modèles doivent s’adapter à une variété de tâches sans nécessiter de fine-tuning spécifique pour chaque cas.
Perspectives : vers une IA plus fiable et explicable
En enseignant aux modèles à raisonner étape par étape et à intégrer efficacement des outils externes, SWiRL ouvre la voie à des agents IA plus fiables, capables de gérer des processus complexes avec une meilleure transparence.
Cette approche pourrait transformer la manière dont les entreprises utilisent l’IA, en rendant les modèles plus adaptables et explicables, répondant ainsi aux exigences croissantes en matière de conformité et de confiance.