← Todos los artículos

PrezEval: evaluando agentes de IA en presentaciones profesionales

6 de abril de 2026 · 8 min de lectura

Objetivo

¿Qué tan bien puede un agente de IA reproducir diapositivas de consultoría profesional a partir de una imagen de referencia?

Tras construir Folio, hemos llegado a la convicción de que nuestro enfoque produce resultados muy superiores a los de otros sistemas.

Pero pongamos números sobre la mesa.

PrezEval es un benchmark que mide exactamente esto. Dado una imagen de diapositiva objetivo y la presentación fuente original (con el layout correcto preseleccionado), el agente debe editar la diapositiva para que coincida con el objetivo lo más fielmente posible. Luego, un modelo de visión-lenguaje evalúa el resultado comparando estructura, contenido, jerarquía y estilo visual.

La tarea es engañosamente difícil. Las diapositivas de consultoría reales son artefactos densos y precisos: una leyenda de gráfica desalineada, una etiqueta de eje que falta, o un color incorrecto en una celda de mapa de calor son todos errores que cuentan. El benchmark no evalúa únicamente si un agente puede escribir texto en una diapositiva, sino si puede manejar gráficas, tablas, formas personalizadas, maquetaciones multicolumna y estilos de marca específicos, todo a la vez.

Construcción del benchmark

Material fuente

Cubrimos 61 diapositivas procedentes de 10 presentaciones profesionales de grandes firmas de consultoría y asesoría: McKinsey, Bain, BCG, PwC, EY y Deloitte, así como los despachos de abogados Cleary Gottlieb y Mattos Filho. Son presentaciones reales sobre temas que van desde la economía sanitaria hasta las transiciones energéticas y la regulación de privacidad del consumidor.

Las diapositivas se seleccionaron para maximizar la complejidad visual y la diversidad de elementos. Esto es lo que contiene el benchmark:

ElementoDiapositivasProporción
Gráficas (barras, líneas, tarta…)3354%
Maquetaciones multicolumna2439%
Logos e iconos17*28%
Tablas1423%
Maquetaciones de texto denso1321%
Diagramas complejos / líneas de tiempo813%
Mapas58%
Formas compuestas personalizadas35%

*Contando únicamente iconos ilustrativos sustantivos, no logotipos de empresas (que aparecen en ~45 diapositivas).

Por qué es difícil

Configuración de las tareas

Para cada una de las 61 tareas, el agente recibe:

El agente edita la diapositiva mediante llamadas a herramientas, y el resultado final se renderiza como PNG y lo evalúa un modelo de visión-lenguaje. El evaluador puntúa cada resultado en una escala entera de 1 a 5, ya que la investigación demuestra que una escala entera compacta maximiza la alineación humano-LLM en configuraciones de LLM-como-juez. Luego convertimos las puntuaciones a un porcentaje de 0-100% para mayor legibilidad.

Resultados

Comparamos cuatro configuraciones:

ConfiguraciónPuntuaciónTiempoPasos
Folio Max70,0%2:195,5
Folio Medium66,8%2:445,2
Folio Fast43,0%1:3213,7
Claude for PowerPoint (Sonnet 4.6)46,9%16:0325,5

Folio Max lidera con un 70,0%, superando al siguiente agente no-Folio por 23 puntos (una ventaja relativa del 49%). Alcanza esa puntuación en 138,9s por tarea, unas 7 veces más rápido que Claude for PowerPoint (962,8s, casi 16 minutos), y con muchos menos pasos (5,5 frente a 25,5). Folio Max y Folio Fast trazan juntos la frontera de Pareto - uno marca el extremo de máxima precisión y el otro el de mínima latencia - mientras que Claude for PowerPoint queda dominado: más lento y menos preciso que Folio Max.

Folio Medium obtiene un 66,8%, a tiro de piedra de Max, con un coste algo menor. Razona menos pero resuelve con limpieza casi tantas reproducciones.

Folio Fast es el nivel económico y de baja latencia: con 0,21 $ por tarea cuesta unas 5 veces menos que Folio Max y 9 veces menos que Claude for PowerPoint, y con cerca de 1,5 minutos por diapositiva es la configuración más rápida del conjunto. El compromiso es la fidelidad (43,0%) y más acciones exploratorias (13,7 pasos), ya que funciona con un modelo más pequeño y barato.

Claude for PowerPoint (Sonnet 4.6) obtiene un 46,9%, pero lo paga caro: 962,8s por tarea (unas 7 veces más lento que Folio Max), 25,5 pasos, 1,80 $ y 5 de 61 tareas sin completar. Edita OOXML en bruto directamente, lo que resulta lento y propenso a errores frente al enfoque estructurado de Folio.

Desglose de puntuaciones por tipo de contenido

Desglosar las puntuaciones según el contenido de cada diapositiva revela patrones claros:

Tipo de contenidoFolio MediumClaude for PPT
Gráficas68,5%42,3%
Texto denso66,7%50,0%
Diagramas66,1%43,8%
Tablas65,9%47,7%
Mapas43,8%41,7%
Total66,8%46,9%

Lo llamativo es lo consistente que se ha vuelto Folio Medium: se mantiene en una banda estrecha del 65-69% en gráficas, texto denso, diagramas y tablas. Las gráficas, que representan más de la mitad del benchmark y solían ser la categoría que tiraba las puntuaciones hacia abajo, son ahora la categoría más fuerte de Folio. Los mapas son el único punto débil que queda, y son difíciles para todos (igual de malos para ambos agentes). Claude for PowerPoint queda por detrás en todas y cada una de las categorías, con las mayores diferencias en gráficas (+26 puntos) y diagramas (+22 puntos).

Donde Folio destaca

Folio maneja toda la gama de elementos de una diapositiva de consultoría: texto legal formateado, maquetaciones de varias secciones con cajas de color, páginas estilo índice, maquetaciones multicolumna con iconos, gráficas de datos y tablas. Folio Max puntúa un 75% o más en 47 de las 61 diapositivas (y un 100% perfecto en un par), mientras que Claude for PowerPoint suele quedar muy por detrás. La diferencia es más visible en las diapositivas con muchas gráficas y diagramas, justo el contenido denso y estructurado que llena los decks reales.

Donde Folio aún tiene margen de mejora

Los mapas siguen siendo la oportunidad más clara: cerrar solo esa brecha elevaría la puntuación global de forma notable. Más allá de eso, las tareas restantes que puntúan al 50% son en su mayoría casi-aciertos en gráficas densas y formas compuestas, donde la estructura es correcta pero el estilo o la alineación quedan ligeramente desviados.

La velocidad, que solía ser una preocupación, es ahora una fortaleza: Folio Max completa una diapositiva en unos 2,3 minutos y Folio Fast en 1,5, frente a casi 16 minutos de Claude for PowerPoint. Seguiremos reduciendo la latencia para que trabajar con Folio se sienta como una continuación fluida de tu trabajo y no como un partido de tenis donde esperas a que te devuelvan la pelota.

Todos los resultados, incluyendo las imágenes generadas frente a las de referencia por tarea y las críticas del evaluador, están disponibles en el repositorio de PrezEval.