Acaba de aparecer un nuevo punto de referencia matemático y los principales modelos de IA pueden resolver «menos del 2%» de sus problemas… ¡Dios mío!

Como jugador experimentado con experiencia tanto en matemáticas como en inteligencia artificial, no puedo evitar sentir que me he topado con el nivel de jefe definitivo en este gran juego de la existencia. El punto de referencia FrontierMath, presentado por Epoch AI, está llevando los modelos de IA a sus límites absolutos, haciendo sudar incluso a los matemáticos más formidables.


De vez en cuando, recuerdo que existe un ámbito expansivo más allá del nuestro donde los modelos de IA sirven para propósitos que van mucho más allá de tareas básicas como la investigación de rutina y la generación rápida de resúmenes. En el ámbito de los tomadores de decisiones de alto nivel, se utilizan para diversas funciones, como el análisis financiero y la investigación científica. Es por eso que su destreza matemática tiene un valor significativo, ya que también significa habilidades de razonamiento avanzadas.

Ésta es la razón por la que se crean puntos de referencia matemáticos. Por ejemplo, FrontierMath, lanzado recientemente por Epoch AI, es uno de esos puntos de referencia que desafía los modelos de lenguajes grandes con una variedad de problemas matemáticos complejos. Estos problemas, cuidadosamente diseñados por expertos, suman cientos y están destinados a evaluar las capacidades de razonamiento avanzadas en los sistemas de inteligencia artificial. (Parafraseado de Ars Technica)

Los modelos de IA actuales suelen sobresalir en varios puntos de referencia matemáticos como GSM-8k y MATH, pero según Epoch AI, solo pueden resolver menos del 2% de los problemas de FrontierMath. Esto sugiere una disparidad significativa entre las capacidades actuales de la IA y la fuerza colectiva de la comunidad matemática.

Para aclarar, estas cuestiones son excepcionalmente desafiantes, en la medida en que a menudo requieren mucho tiempo (horas o incluso días) para que matemáticos expertos encuentren una solución. Estas dificultades abarcan varios dominios matemáticos, desde problemas computacionalmente exigentes en teoría de números y análisis real, hasta consultas abstractas en geometría algebraica y teoría de categorías.

Este punto de referencia se destaca porque requiere una secuencia prolongada de razonamiento lógico meticuloso, donde cada paso depende explícitamente del anterior.

Históricamente, los modelos de IA han tenido problemas con el razonamiento lógico extendido, especialmente cuando se trata de matemáticas complejas. Esto se debe a que, en esencia, estos modelos están diseñados para predecir la siguiente palabra más probable en función de los datos con los que han sido entrenados. Si bien es posible guiar el modelo hacia palabras específicas, el proceso es esencialmente probabilístico más que determinista.

Recientemente, los modelos de IA han estado utilizando su razonamiento probabilístico de una manera más enfocada, paso a paso en su proceso de pensamiento. Básicamente, estamos observando un cambio hacia modelos de IA que se esfuerzan por razonar metódicamente sus decisiones en lugar de llegar únicamente a una conclusión probable.

Se ha desarrollado una nueva variante de ChatGPT-40, que incorpora la capacidad de razonar (así que tenga cuidado de no cuestionarla). En particular, este modelo podría dar lugar a recompensas por plantear preguntas que la IA no puede responder, lo que a menudo se denomina «la prueba final de la humanidad».

Por supuesto, estos procesos separados de deducción lógica bien pueden derivarse de manera probabilística, y eso es exactamente lo que uno esperaría de un algoritmo no sensible. Sin embargo, parece como si estuvieran exhibiendo comportamientos que los humanos etiquetamos como «razonamiento» una vez que los analizamos más adelante.

Sin embargo, estamos claramente lejos de que estos modelos de IA alcancen las capacidades de razonamiento de nuestros mejores y más brillantes. Podemos ver eso ahora que tenemos un punto de referencia matemático capaz de realmente ponerlos a prueba: el 2% no es genial, ¿verdad? (Y tomen eso, robots).

Con respecto a los problemas de FrontierMath, el medallista de Fields, Terence Tao, informa a Epoch AI que, por el momento, el enfoque más factible para resolverlos (aparte de contar con un experto en el campo) es colaborar con un semi-experto, como un estudiante de posgrado en un disciplina relevante, con una combinación de IA avanzada y numerosos paquetes de software de álgebra.

Aunque es posible que los modelos de IA actuales no tengan la capacidad de resolver problemas matemáticos complejos en este momento, el punto de referencia FrontierMath actúa como un criterio eficaz para futuras mejoras. Garantiza que los modelos no produzcan simplemente un galimatías matemático no verificable que sólo los expertos pueden confirmar como exactos.

En última instancia, debemos tener en cuenta que la IA no busca naturalmente la verdad, aunque los humanos podamos dirigir su razonamiento probabilístico hacia resultados que se acerquen a la verdad. Como filósofo, no puedo evitar preguntarme: si carece de un impulso innato hacia la verdad, ¿puede la verdad existir realmente para la IA? Claro, puede producir resultados veraces, pero ¿está realmente experimentando la verdad en la forma en que lo hacemos nosotros? Mi sospecha es que no, y es por eso que puntos de referencia como estos serán vitales a medida que navegamos por el próximo cambio tecnológico, ya sea que lo llamemos una nueva revolución industrial o cualquier otra cosa.

2024-11-13 15:49