← Tous les articles

PrezEval : évaluer les agents IA sur des slides professionnelles

6 avril 2026 · 8 min de lecture

Objectif

Dans quelle mesure un agent IA est-il capable de reproduire des slides de conseil professionnel à partir d’une simple image ?

Après avoir développé Folio, nous sommes convaincus que notre approche donne des résultats nettement supérieurs à ceux des autres solutions.

Encore faut-il le démontrer chiffres à l’appui.

C’est précisément ce que mesure PrezEval. À partir d’une image cible et de la présentation source d’origine (avec la mise en page correcte présélectionnée), un agent doit modifier la slide pour qu’elle corresponde le plus fidèlement possible à la cible. Un modèle de langage multimodal note ensuite le résultat en comparant la structure, le contenu, la hiérarchie et le style.

L’exercice est plus difficile qu’il n’y paraît. Les vraies slides de conseil sont des artefacts denses et précis : une légende mal alignée, un intitulé d’axe oublié ou une couleur erronée dans une heatmap comptent comme des échecs. Le benchmark ne vérifie pas seulement qu’un agent sait écrire du texte sur une slide, mais aussi qu’il sait gérer simultanément graphiques, tableaux, formes personnalisées, mises en page multi-colonnes et codes graphiques de la marque.

Construction du benchmark

Matériau source

Nous avons sélectionné 61 slides issues de 10 présentations professionnelles couvrant les grands cabinets de conseil et d’audit : McKinsey, Bain, BCG, PwC, EY et Deloitte, ainsi que les cabinets juridiques Cleary Gottlieb et Mattos Filho. Ce sont des présentations réelles, sur des sujets allant de l’économie de la santé aux transitions énergétiques, en passant par la réglementation sur les données personnelles.

Les slides ont été choisies pour maximiser la complexité visuelle et la diversité des éléments. Voici la composition du benchmark :

ÉlémentSlidesPart
Graphiques (barres, lignes, camembert…)3354 %
Mises en page multi-colonnes2439 %
Logos et icônes17*28 %
Tableaux1423 %
Mises en page à texte dense1321 %
Diagrammes complexes / chronologies813 %
Cartes58 %
Formes composites personnalisées35 %

*Seules les icônes illustratives notables sont comptées, sans les logos d’entreprise (présents sur environ 45 slides).

Pourquoi c’est difficile

Paramétrage des tâches

Pour chacune des 61 tâches, l’agent reçoit :

L’agent modifie ensuite la slide via des appels d’outils, et le résultat final est rendu en PNG puis évalué par un modèle de langage multimodal. L’évaluateur note chaque résultat sur une échelle entière de 1 à 5, car des recherches montrent qu’une échelle entière courte maximise l’accord entre humains et LLM dans les configurations LLM-as-a-judge. Les notes sont ensuite converties en score de 0 à 100 % pour plus de lisibilité.

Résultats

Nous avons comparé cinq configurations :

ConfigurationScoreTempsÉtapesTâches
Folio Max70,8 %293,4 s6,360/61
Folio Medium49,6 %207,7 s8,861/61
Folio Fast38,9 %157,5 s9,561/61
Claude for Powerpoint (Opus)36,5 %176,5 s11,661/61
Claude for Powerpoint (Sonnet)32,4 %154,4 s9,261/61

Folio Max se détache largement avec 70,8 %, soit près du double du meilleur agent non-Folio. Il y parvient en moyenne avec le moins d’étapes (6,3), signe d’une approche plus efficace, même s’il prend plus de temps par tâche (293,4 s) en raison d’un raisonnement plus poussé.

Folio Medium atteint 49,6 % : la plupart des reproductions capturent la bonne structure et le bon contenu, mais présentent des écarts notables sur le style ou le positionnement.

Folio Fast sacrifie la précision à la vitesse, en achevant les tâches 24 % plus vite que Folio Medium pour un score de 38,9 %. Curieusement, il fait davantage d’étapes en moyenne (9,5 contre 8,8), ce qui suggère que le modèle plus léger explore davantage avant de trouver la bonne action.

Claude for Powerpoint (Opus) obtient 36,5 % malgré le plus grand nombre d’étapes (11,6) et beaucoup plus de calcul. Claude for Powerpoint (Sonnet) ferme la marche à 32,4 %, le score le plus bas de la comparaison, tout en étant le plus rapide à 154,4 s par tâche.

Décomposition des scores par type de contenu

Décomposer les scores selon ce que contient la slide fait apparaître des tendances nettes :

Type de contenuFolio MediumClaude for PPT
Texte dense66,8 %48,3 %
Slides sans graphique63,5 %44,8 %
Tableaux48,3 %38,3 %
Diagrammes47,3 %25,0 %
Graphiques38,0 %29,5 %
Cartes12,5 %12,5 %
Global49,5 %36,5 %

Les slides à forte densité textuelle constituent la catégorie la plus facile, tandis que les cartes sont les plus difficiles (et les deux agents s’y cassent les dents à part égale). Les graphiques, qui représentent 54 % du benchmark, tirent fortement le score global vers le bas.

Là où Folio excelle

Folio obtient systématiquement de bons scores sur les slides à texte structuré : texte juridique mis en forme, mises en page multi-sections avec encadrés colorés, pages de type sommaire et mises en page multi-colonnes avec icônes. Sur ces tâches, Folio Max décroche régulièrement des scores quasi parfaits, et même Folio Medium et Folio Fast atteignent 75 à 100 %, alors que les deux variantes Claude for Powerpoint restent généralement loin derrière.

Ce qui reste difficile

Environ 20 % du benchmark est en pratique non résolu : sur les tâches les plus dures, les cinq agents plafonnent à 25 % ou moins. Les modes d’échec récurrents :

Là où Folio peut encore progresser

Même Folio Max, malgré sa moyenne de 70,8 %, peine encore sur certaines tâches (score de 25 % ou moins). Ce sont généralement des slides avec de grandes grilles structurées, des logos de marque intégrés dans des graphiques ou des éléments décoratifs. Autant de pistes d’amélioration concrètes pour Folio sur ces types de contenu.

La vitesse aussi reste un chantier. Folio Max prend près de 5 minutes par tâche, et même Folio Fast dépasse 2,5 minutes en moyenne. Un bon assistant IA devrait ressembler davantage à un prolongement fluide de votre travail qu’à une partie de tennis où l’on attend que la balle revienne. Nous travaillerons à réduire cette latence de manière significative dans les semaines qui viennent.

L’intégralité des résultats (images générées, références par tâche et critiques de l’évaluateur) est disponible dans le repo PrezEval.