Temas del día

junio 15, 2026

TECNOLOGÍA

febrero 23, 2026

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

Por infolitica

La iniciativa apunta a medir razonamiento matemático real, no desempeño en ejercicios de competencia. El foco está en determinar si la IA crea conocimiento o si simplemente recuerda patrones presentes en sus datos de entrenamiento.

Un grupo de once matemáticos internacionales lanzó “First Proof”, un proyecto que busca evaluar si la inteligencia artificial puede resolver problemas de investigación inéditos y no solo reproducir información aprendida. El primer test mostró que los modelos analizados resolvieron correctamente apenas dos de diez desafíos.

El proyecto que cuestiona cómo se evalúa a la IA

El paper fue publicado el 5 de febrero de 2026 en arXiv por un equipo integrado, entre otros, por Mohammed Abouzaid (Stanford), Andrew J. Blumberg (Columbia), Martin Hairer (EPFL e Imperial College, Medalla Fields 2014), Daniel Spielman (Yale) y Lauren Williams (Harvard). Según explican en el sitio oficial 1stproof.org, el nombre remite tanto a “primera prueba” como al primer leudado en panadería: esa instancia inicial donde la masa comienza a transformarse.

La crítica metodológica es directa. Hoy, buena parte de las evaluaciones en matemáticas se basan en problemas de olimpíadas o ejercicios ampliamente difundidos. Eso genera lo que denominan “contaminación de datos”: los grandes modelos de lenguaje fueron entrenados con libros, soluciones publicadas y discusiones académicas disponibles online. Bajo esa lógica, resolver no necesariamente implica razonar, sino recordar.

Diez problemas inéditos y un resultado parcial

Para evitar ese sesgo, el equipo diseñó diez problemas reales de investigación nunca publicados, vinculados a áreas como combinatoria algebraica, teoría espectral de grafos, topología algebraica, análisis estocástico y geometría simpléctica. Las soluciones humanas fueron cifradas y almacenadas previamente en el sitio oficial.

Los modelos evaluados —GPT-5.1 Pro y Gemini 3 Pro— debieron responder en modalidad “one-shot”: un único intento por problema, sin pistas adicionales. El resultado fue contundente: solo dos respuestas alcanzaron el nivel mínimo esperado.

Desde OpenAI señalaron que pudieron generar soluciones candidatas en minutos, aunque su verificación demandó horas de trabajo humano especializado, lo que evidencia un cuello de botella en la validación. El proyecto continuará y prevé una segunda prueba el 14 de marzo, Día Internacional de Pi, con la intención de construir un sistema de evaluación sostenido en el tiempo. La discusión, por ahora, sigue abierta entre lo que la IA parece comprender y lo que efectivamente logra demostrar.

Lo Último

09:57

Informan corte de tránsito en 72 entre 142 y 143

12:32

Alak encabezó la apertura de sobres para la reconstrucción del Parque Saavedra

11:58

Nuevas oportunidades de ahorro en el Mercado Bonaerense Fijo de La Plata

11:33

Repudio por la aparición de militares de Estados Unidos en un predio donde se buscan restos de desaparecidos

10:52

Se cayó Meta: reportan fallas en Instagram, Facebook y WhatsApp en todo el mundo

Lee además

Te puede interesar