AI y el Tiempo: Fallan Modelos Avanzados con Relojes y Calendarios

Las herramientas de Inteligencia Artificial generativa (IA) están avanzando rápidamente, capaces de lograr hazañas impresionantes. Sin embargo, un estudio reciente revela una limitación sorprendente: muchas luchan con tareas básicas como leer relojes y calendarios. Investigadores de la Universidad de Edimburgo probaron varios modelos de IA líderes y encontraron que su rendimiento en estas áreas era significativamente menor de lo esperado, lo que destaca una brecha entre las capacidades de la IA y las habilidades humanas cotidianas.

A pesar de sus impresionantes capacidades en tareas complejas, las herramientas de IA generativa aún luchan con habilidades fundamentales como leer relojes analógicos y calendarios. Un estudio reciente realizado por investigadores de la Universidad de Edimburgo reveló una deficiencia significativa en esta área, encontrando que los sistemas de IA interpretan correctamente las esferas de los relojes menos de una cuarta parte de las veces. Esto resalta una brecha sorprendente entre las avanzadas capacidades de razonamiento de la IA y su incapacidad para realizar lo que se consideran habilidades humanas básicas.

Para investigar esto más a fondo, el equipo de la Universidad de Edimburgo probó varios modelos de lenguaje grandes multimodales prominentes. Los modelos incluyeron Gemini 2.0 de Google DeepMind, Claude 3.5 Sonnet de Anthropic, Llama 3.2-11B-Vision-Instruct de Meta, Qwen2-VL7B-Instruct de Alibaba, MiniCPM-V-2.6 de ModelBest y GPT-4o y GPT-o1 de OpenAI. Estos sistemas fueron presentados con imágenes de varios relojes analógicos y calendarios y se les pidió que respondieran preguntas relacionadas.

Los investigadores utilizaron un conjunto diverso de imágenes de relojes en sus pruebas. Estos incluyeron relojes con números romanos, aquellos con y sin manecillas de segundos, y relojes con esferas de diferentes colores. Esta variedad tenía como objetivo evaluar la robustez de la IA en diferentes representaciones visuales del tiempo. El hallazgo consistente en estas variaciones fue la baja tasa de éxito, con los sistemas leyendo los relojes correctamente menos del 25% de las veces.

El estudio encontró que ciertos elementos visuales planteaban mayores desafíos para los sistemas de IA. Específicamente, los relojes que incorporaban números romanos y manecillas estilizadas resultaron más difíciles de interpretar con precisión para los modelos. Curiosamente, el rendimiento de la IA no mejoró cuando se quitó la manecilla de segundos de la esfera del reloj. Esta observación llevó a los investigadores a plantear la hipótesis de que el problema central radica en la capacidad de la IA para detectar con precisión las manecillas del reloj e interpretar correctamente los ángulos formados en la esfera del reloj, en lugar de depender únicamente de la presencia de todas las manecillas.

Más allá de los relojes analógicos, los investigadores también probaron la capacidad de los sistemas de IA para comprender y utilizar calendarios. Utilizando imágenes que abarcan 10 años, plantearon preguntas que requerían que la IA extrajera y procesara información relacionada con fechas. Los ejemplos incluyeron preguntar por el día de la semana del día de Año Nuevo o el día 153 del año. Incluso los modelos de IA más exitosos en esta categoría aún proporcionaron respuestas incorrectas para las preguntas del calendario el 20 por ciento de las veces.

Si bien el rendimiento general fue bajo, hubo variaciones en las tasas de éxito entre los diferentes sistemas de IA probados. Por ejemplo, Gemini-2.0 emergió como el que obtuvo la puntuación más alta en la prueba de lectura de relojes, demostrando una comprensión ligeramente mejor del tiempo analógico en comparación con sus contrapartes. En la prueba del calendario, GPT-01 mostró el mejor rendimiento, logrando una tasa de precisión del 80% en las preguntas relacionadas con el calendario. Estas diferencias sugieren que, si bien el problema está muy extendido, algunos modelos están marginalmente mejor equipados para manejar estas tareas que otros.

Rohit Saxena, el líder del estudio de la Escuela de Informática de la Universidad de Edimburgo, enfatizó la importancia de estos hallazgos. Señaló que decir la hora y usar calendarios son habilidades que la mayoría de las personas adquieren a una edad temprana. Según Saxena, “Nuestros hallazgos resaltan una brecha significativa en la capacidad de la IA para llevar a cabo lo que son habilidades bastante básicas para las personas”. Subrayó que abordar estas “deficiencias debe abordarse si los sistemas de IA se van a integrar con éxito en aplicaciones del mundo real sensibles al tiempo, como la programación, la automatización y las tecnologías de asistencia”.

Aryo Gema, otro investigador de la Escuela de Informática de Edimburgo, se hizo eco de este sentimiento, destacando una posible desconexión en las actuales prioridades de investigación de la IA. Gema afirmó: “La investigación de la IA hoy en día a menudo enfatiza las tareas de razonamiento complejas, pero irónicamente, muchos sistemas todavía luchan cuando se trata de tareas más simples y cotidianas”. Esto sugiere que, si bien se están logrando avances significativos en áreas como la resolución de problemas complejos y la generación creativa, el razonamiento visual y espacial fundamental requerido para tareas como leer la esfera de un reloj sigue siendo un desafío.

Los hallazgos de este estudio se presentarán en un artículo revisado por pares en el taller de Razonamiento y Planificación para Modelos de Lenguaje Grandes en la Thirteenth International Conference on Learning Representations (ICLR) en Singapur el 28 de abril. El artículo está actualmente disponible en el servidor de preimpresión arXiv, lo que hace que los resultados sean accesibles a la comunidad investigadora en general. Esta presentación formal permitirá una mayor discusión y análisis de las implicaciones de estos hallazgos para el futuro desarrollo de la IA.

Este estudio no es un caso aislado que destaca la propensión de la IA a errores en tareas aparentemente simples. Otro estudio realizado por el Tow Center for Digital Journalism este mes examinó ocho motores de búsqueda de IA y encontró un nivel preocupante de imprecisión. Su investigación reveló que estos motores de búsqueda de IA fueron imprecisos el 60 por ciento de las veces. El peor desempeño en este estudio fue Grok-3, que demostró una asombrosa tasa de imprecisión del 94 por ciento. Estos hallazgos combinados subrayan que, a pesar de los rápidos avances, los sistemas de IA aún tienen limitaciones significativas en precisión y fiabilidad, incluso en áreas que parecen sencillas para los humanos.

A pesar de los impresionantes avances, un nuevo estudio revela que los modelos de IA generativa tienen dificultades con tareas sorprendentemente básicas como leer relojes (menos del 25% de precisión) y calendarios (hasta un 20% de error). Esto resalta una brecha crítica entre la capacidad de razonamiento complejo de la IA y su habilidad para realizar tareas cotidianas, subrayando la necesidad de priorizar la precisión fundamental a medida que la IA se integra en aplicaciones del mundo real.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *