← Todos los artículos

PrezEval: evaluando agentes de IA en presentaciones profesionales

6 de abril de 2026 · 8 min de lectura

Objetivo

¿Qué tan bien puede un agente de IA reproducir diapositivas de consultoría profesional a partir de una imagen de referencia?

Tras construir Folio, hemos llegado a la convicción de que nuestro enfoque produce resultados muy superiores a los de otros sistemas.

Pero pongamos números sobre la mesa.

PrezEval es un benchmark que mide exactamente esto. Dado una imagen de diapositiva objetivo y la presentación fuente original (con el layout correcto preseleccionado), el agente debe editar la diapositiva para que coincida con el objetivo lo más fielmente posible. Luego, un modelo de visión-lenguaje evalúa el resultado comparando estructura, contenido, jerarquía y estilo visual.

La tarea es engañosamente difícil. Las diapositivas de consultoría reales son artefactos densos y precisos: una leyenda de gráfica desalineada, una etiqueta de eje que falta, o un color incorrecto en una celda de mapa de calor son todos errores que cuentan. El benchmark no evalúa únicamente si un agente puede escribir texto en una diapositiva, sino si puede manejar gráficas, tablas, formas personalizadas, maquetaciones multicolumna y estilos de marca específicos, todo a la vez.

Construcción del benchmark

Material fuente

Cubrimos 61 diapositivas procedentes de 10 presentaciones profesionales de grandes firmas de consultoría y asesoría: McKinsey, Bain, BCG, PwC, EY y Deloitte, así como los despachos de abogados Cleary Gottlieb y Mattos Filho. Son presentaciones reales sobre temas que van desde la economía sanitaria hasta las transiciones energéticas y la regulación de privacidad del consumidor.

Las diapositivas se seleccionaron para maximizar la complejidad visual y la diversidad de elementos. Esto es lo que contiene el benchmark:

ElementoDiapositivasProporción
Gráficas (barras, líneas, tarta…)3354%
Maquetaciones multicolumna2439%
Logos e iconos17*28%
Tablas1423%
Maquetaciones de texto denso1321%
Diagramas complejos / líneas de tiempo813%
Mapas58%
Formas compuestas personalizadas35%

*Contando únicamente iconos ilustrativos sustantivos, no logotipos de empresas (que aparecen en ~45 diapositivas).

Por qué es difícil

Configuración de las tareas

Para cada una de las 61 tareas, el agente recibe:

El agente edita la diapositiva mediante llamadas a herramientas, y el resultado final se renderiza como PNG y lo evalúa un modelo de visión-lenguaje. El evaluador puntúa cada resultado en una escala entera de 1 a 5, ya que la investigación demuestra que una escala entera compacta maximiza la alineación humano-LLM en configuraciones de LLM-como-juez. Luego convertimos las puntuaciones a un porcentaje de 0-100% para mayor legibilidad.

Resultados

Comparamos cinco configuraciones:

ConfiguraciónPuntuaciónTiempoPasosTareas
Folio Max70,8%293,4s6,360/61
Folio Medium49,6%207,7s8,861/61
Folio Fast38,9%157,5s9,561/61
Claude for Powerpoint (Opus)36,5%176,5s11,661/61
Claude for Powerpoint (Sonnet)32,4%154,4s9,261/61

Folio Max lidera con amplia ventaja con un 70,8%, casi duplicando la puntuación del siguiente agente no-Folio. Lo logra con el menor número de pasos promedio (6,3), lo que sugiere un enfoque más eficiente en la reproducción de diapositivas, aunque tarda más por tarea (293,4s) debido a un razonamiento más profundo.

Folio Medium obtiene un 49,6%: la mayoría de las reproducciones capturan la estructura y el contenido correctos, pero presentan diferencias notables en estilo o posicionamiento.

Folio Fast sacrifica precisión por velocidad, completando las tareas un 24% más rápido que Folio Medium con una puntuación del 38,9%. Curiosamente, usa más pasos en promedio (9,5 vs 8,8), lo que sugiere que el modelo más pequeño realiza más acciones exploratorias.

Claude for Powerpoint (Opus) obtiene un 36,5% a pesar de usar más pasos (11,6) y significativamente más cómputo. Claude for Powerpoint (Sonnet) obtiene un 32,4%, el más bajo de todas las configuraciones, siendo el más rápido con 154,4s por tarea.

Desglose de puntuaciones por tipo de contenido

Desglosar las puntuaciones según el contenido de cada diapositiva revela patrones claros:

Tipo de contenidoFolio MediumClaude for PPT
Texto denso66,8%48,3%
Diapositivas sin gráfica63,5%44,8%
Tablas48,3%38,3%
Diagramas47,3%25,0%
Gráficas38,0%29,5%
Mapas12,5%12,5%
Total49,5%36,5%

Las diapositivas con mucho texto son la categoría más fácil, mientras que los mapas son los más difíciles (igual de malos para ambos agentes). Las gráficas, que representan el 54% del benchmark, tiran considerablemente la puntuación global hacia abajo.

Donde Folio destaca

Folio obtiene sistemáticamente buenas puntuaciones en diapositivas de texto estructurado: texto legal formateado, maquetaciones de varias secciones con cajas de color, páginas estilo índice y maquetaciones multicolumna con iconos. En estas, Folio Max logra habitualmente puntuaciones casi perfectas, e incluso Folio Medium y Folio Fast alcanzan el 75-100%, mientras que ambas variantes de Claude for Powerpoint suelen quedar significativamente por detrás.

Lo que sigue siendo difícil

Alrededor del 20% del benchmark está esencialmente sin resolver: los cinco agentes obtienen un 25% o menos en las tareas más difíciles. Los modos de fallo más comunes:

Donde Folio aún tiene margen de mejora

Incluso Folio Max, a pesar de su media del 70,8%, sigue teniendo dificultades en algunas tareas (puntuando 25% o menos). Estas tienden a ser diapositivas con grandes cuadrículas estructuradas, logotipos de marca incrustados en gráficas o elementos decorativos. Esto sugiere oportunidades específicas para mejorar el manejo de estos patrones en Folio.

La velocidad también es un área de foco. Folio Max tarda casi 5 minutos por tarea, e incluso Folio Fast promedia más de 2,5 minutos. Un buen asistente de IA debería sentirse más como una continuación fluida de tu trabajo que como un partido de tenis donde esperas a que te devuelvan la pelota. Trabajaremos en reducir la latencia significativamente en las próximas semanas.

Todos los resultados, incluyendo las imágenes generadas frente a las de referencia por tarea y las críticas del evaluador, están disponibles en el repositorio de PrezEval.