Temas del día

febrero 23, 2026

TECNOLOGÍA

febrero 23, 2026

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

Por infolitica

La iniciativa apunta a medir razonamiento matemático real, no desempeño en ejercicios de competencia. El foco está en determinar si la IA crea conocimiento o si simplemente recuerda patrones presentes en sus datos de entrenamiento.

Un grupo de once matemáticos internacionales lanzó “First Proof”, un proyecto que busca evaluar si la inteligencia artificial puede resolver problemas de investigación inéditos y no solo reproducir información aprendida. El primer test mostró que los modelos analizados resolvieron correctamente apenas dos de diez desafíos.

El proyecto que cuestiona cómo se evalúa a la IA

El paper fue publicado el 5 de febrero de 2026 en arXiv por un equipo integrado, entre otros, por Mohammed Abouzaid (Stanford), Andrew J. Blumberg (Columbia), Martin Hairer (EPFL e Imperial College, Medalla Fields 2014), Daniel Spielman (Yale) y Lauren Williams (Harvard). Según explican en el sitio oficial 1stproof.org, el nombre remite tanto a “primera prueba” como al primer leudado en panadería: esa instancia inicial donde la masa comienza a transformarse.

La crítica metodológica es directa. Hoy, buena parte de las evaluaciones en matemáticas se basan en problemas de olimpíadas o ejercicios ampliamente difundidos. Eso genera lo que denominan “contaminación de datos”: los grandes modelos de lenguaje fueron entrenados con libros, soluciones publicadas y discusiones académicas disponibles online. Bajo esa lógica, resolver no necesariamente implica razonar, sino recordar.

Diez problemas inéditos y un resultado parcial

Para evitar ese sesgo, el equipo diseñó diez problemas reales de investigación nunca publicados, vinculados a áreas como combinatoria algebraica, teoría espectral de grafos, topología algebraica, análisis estocástico y geometría simpléctica. Las soluciones humanas fueron cifradas y almacenadas previamente en el sitio oficial.

Los modelos evaluados —GPT-5.1 Pro y Gemini 3 Pro— debieron responder en modalidad “one-shot”: un único intento por problema, sin pistas adicionales. El resultado fue contundente: solo dos respuestas alcanzaron el nivel mínimo esperado.

Desde OpenAI señalaron que pudieron generar soluciones candidatas en minutos, aunque su verificación demandó horas de trabajo humano especializado, lo que evidencia un cuello de botella en la validación. El proyecto continuará y prevé una segunda prueba el 14 de marzo, Día Internacional de Pi, con la intención de construir un sistema de evaluación sostenido en el tiempo. La discusión, por ahora, sigue abierta entre lo que la IA parece comprender y lo que efectivamente logra demostrar.

Lo Último

11:07

Gran Hermano Generación Dorada: cuándo empieza y cómo será la primera semana más intensa del reality

10:44

Infostealers: el malware silencioso que roba contraseñas y sesiones activas sin que lo notes

11:42

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

14:41

Horóscopo semanal del 23 de febrero al 3 de marzo: qué dice el tarot para eclipse total de luna en Virgo

14:36

Kicillof y Alak rompen con los rumores de fractura: “Reafirmamos el compromiso”

Lee además

Te puede interesar