← Alle Artikel

PrezEval: KI-Agenten auf professionellen Folien benchmarken

6. April 2026 · 7 Min. Lesezeit

Ziel

Wie gut kann ein KI-Agent professionelle Beratungsfolien anhand visueller Vorgaben reproduzieren?

Beim Aufbau von Folio sind wir zu der Überzeugung gelangt, dass unser Ansatz deutlich bessere Ergebnisse liefert als alle anderen. Aber halten wir das mit Zahlen fest.

PrezEval ist ein Benchmark, der genau das misst. Gegeben ein Zielbild einer Folie und die originale Quellpräsentation (mit dem bereits ausgewählten korrekten Layout) muss ein Agent die Folie so bearbeiten, dass sie dem Ziel so nah wie möglich kommt. Ein Vision-Language-Modell bewertet das Ergebnis anschließend durch Vergleich von Struktur, Inhalt, Hierarchie und Styling.

Diese Aufgabe ist trügerisch schwer. Echte Beratungsfolien sind dichte, präzise Artefakte: eine falsch ausgerichtete Chart-Legende, ein fehlender Achsenbeschriftung oder eine falsche Farbe in einer Heatmap-Zelle gelten als Fehler. Der Benchmark testet nicht nur, ob ein Agent Text auf eine Folie schreiben kann, sondern ob er Charts, Tabellen, benutzerdefinierte Formen, mehrspältige Layouts und markenspezifisches Styling beherrscht - alles gleichzeitig.

Benchmark-Aufbau

Quellmaterial

Wir haben 61 Folien aus 10 professionellen Präsentationsdecks zusammengestellt, die bedeutende Beratungs- und Wirtschaftsprüfungsgesellschaften abdecken: McKinsey, Bain, BCG, PwC, EY und Deloitte sowie die Kanzleien Cleary Gottlieb und Mattos Filho. Es handelt sich um reale Decks zu Themen wie Gesundheitsökonomie, Energiewende und Verbraucherdatenschutz.

Die Folien wurden ausgewählt, um maximale visuelle Komplexität und Elementvielfalt zu gewährleisten. Hier ist, was der Benchmark enthält:

ElementFolienAnteil
Charts (Balken, Linie, Kreis, Kombi…)3354 %
Mehrspältige Layouts2439 %
Logos und Icons17*28 %
Tabellen1423 %
Textschwere Layouts1321 %
Komplexe Diagramme / Timelines813 %
Karten58 %
Benutzerdefinierte Verbundformen35 %

*Nur substanzielle illustrative Icons gezählt, ohne Unternehmenslogos (die auf ca. 45 Folien erscheinen).

Was es so schwer macht

Aufgaben-Setup

Für jede der 61 Aufgaben erhält der Agent:

Der Agent bearbeitet die Folie dann per Tool-Calls, das Ergebnis wird als PNG gerendert und von einem Vision-Language-Modell bewertet. Das Modell vergibt ganzzahlige Werte von 1 bis 5, da Forschungsergebnisse zeigen, dass eine kompakte ganzzahlige Skala die Übereinstimmung zwischen Mensch und LLM bei LLM-as-a-Judge-Setups maximiert. Zur besseren Lesbarkeit wandeln wir die Bewertungen in einen Prozentwert von 0-100 % um.

Ergebnisse

Wir haben fünf Konfigurationen verglichen:

KonfigurationScoreZeitSchritteAufgaben
Folio Max70,8 %293,4 s6,360/61
Folio Medium49,6 %207,7 s8,861/61
Folio Fast38,9 %157,5 s9,561/61
Claude for Powerpoint (Opus)36,5 %176,5 s11,661/61
Claude for Powerpoint (Sonnet)32,4 %154,4 s9,261/61

Folio Max führt mit weitem Abstand bei 70,8 % - fast doppelt so hoch wie der nächstbeste Nicht-Folio-Agent. Das erreicht er mit durchschnittlich den wenigsten Schritten (6,3), was auf einen effizienteren Ansatz hindeutet, obwohl er pro Aufgabe länger braucht (293,4 s) aufgrund tieferer Reasoning-Prozesse.

Folio Medium erreicht 49,6 %: Die meisten Reproduktionen treffen Struktur und Inhalt, weisen aber spürbare Unterschiede in Styling oder Positionierung auf.

Folio Fast tauscht Genauigkeit gegen Geschwindigkeit - 24 % schneller als Folio Medium bei 38,9 % Score. Interessanterweise verwendet er im Schnitt mehr Schritte (9,5 vs. 8,8), was darauf hindeutet, dass das kleinere Modell explorativere Aktionen unternimmt.

Claude for Powerpoint (Opus) erreicht 36,5 % trotz der meisten Schritte (11,6) und deutlich mehr Rechenaufwand. Claude for Powerpoint (Sonnet) erzielt mit 32,4 % den niedrigsten Wert aller Konfigurationen - bei gleichzeitig der schnellsten Ausführungszeit von 154,4 s.

Score-Aufschlüsselung nach Inhaltstyp

Die Aufschlüsselung der Scores nach Folieninhalt zeigt klare Muster:

InhaltstypFolio MediumClaude for PPT
Textschwere Folien66,8 %48,3 %
Folien ohne Charts63,5 %44,8 %
Tabellen48,3 %38,3 %
Diagramme47,3 %25,0 %
Charts38,0 %29,5 %
Karten12,5 %12,5 %
Gesamt49,5 %36,5 %

Textschwere Folien sind die einfachste Kategorie, Karten die schwierigste (für beide Agenten gleich schlecht). Charts, die 54 % des Benchmarks ausmachen, ziehen den Gesamtscore erheblich nach unten.

Wo Folio glänzt

Folio erzielt durchgehend gute Ergebnisse bei strukturierten Textfolien: formatierter juristischer Text, mehrgliedrige Layouts mit farbigen Boxen, Inhaltsverzeichnis-Seiten und mehrspältige Icon-Layouts. Dort erreicht Folio Max regelmäßig nahezu perfekte Scores, und selbst Folio Medium und Folio Fast kommen auf 75-100 %, während beide Claude-for-Powerpoint-Varianten typischerweise deutlich zurückfallen.

Was nach wie vor schwierig ist

Etwa 20 % des Benchmarks sind praktisch ungelöst: Alle fünf Agenten erzielen bei den schwierigsten Aufgaben 25 % oder weniger. Die häufigsten Fehlermuster:

Wo Folio noch Potenzial hat

Selbst Folio Max kämpft bei einigen Aufgaben (Score 25 % oder weniger), obwohl der Gesamtdurchschnitt bei 70,8 % liegt. Das betrifft vor allem Folien mit großen strukturierten Rastern, in Charts eingebetteten Markenlogos oder dekorativen Elementen. Das zeigt konkrete Ansatzpunkte für die Weiterentwicklung.

Auch Geschwindigkeit bleibt ein Fokusthema. Folio Max benötigt fast 5 Minuten pro Aufgabe, selbst Folio Fast im Schnitt über 2,5 Minuten. Ein guter KI-Assistent sollte sich wie eine nahtlose Fortsetzung der eigenen Arbeit anfühlen - nicht wie ein Tennis-Rallye, bei dem man auf den Ball wartet. Wir arbeiten daran, die Latenz in den kommenden Wochen deutlich zu reduzieren.

Alle Ergebnisse - einschließlich generierter und Referenzbilder pro Aufgabe sowie Evaluator-Kommentare - sind im PrezEval-Repository verfügbar.