TECNOLOGÍA

febrero 23, 2026

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

Por infolitica

La iniciativa apunta a medir razonamiento matemático real, no desempeño en ejercicios de competencia. El foco está en determinar si la IA crea conocimiento o si simplemente recuerda patrones presentes en sus datos de entrenamiento.

Un grupo de once matemáticos internacionales lanzó “First Proof”, un proyecto que busca evaluar si la inteligencia artificial puede resolver problemas de investigación inéditos y no solo reproducir información aprendida. El primer test mostró que los modelos analizados resolvieron correctamente apenas dos de diez desafíos.

El proyecto que cuestiona cómo se evalúa a la IA

El paper fue publicado el 5 de febrero de 2026 en arXiv por un equipo integrado, entre otros, por Mohammed Abouzaid (Stanford), Andrew J. Blumberg (Columbia), Martin Hairer (EPFL e Imperial College, Medalla Fields 2014), Daniel Spielman (Yale) y Lauren Williams (Harvard). Según explican en el sitio oficial 1stproof.org, el nombre remite tanto a “primera prueba” como al primer leudado en panadería: esa instancia inicial donde la masa comienza a transformarse.

La crítica metodológica es directa. Hoy, buena parte de las evaluaciones en matemáticas se basan en problemas de olimpíadas o ejercicios ampliamente difundidos. Eso genera lo que denominan “contaminación de datos”: los grandes modelos de lenguaje fueron entrenados con libros, soluciones publicadas y discusiones académicas disponibles online. Bajo esa lógica, resolver no necesariamente implica razonar, sino recordar.

Diez problemas inéditos y un resultado parcial

Para evitar ese sesgo, el equipo diseñó diez problemas reales de investigación nunca publicados, vinculados a áreas como combinatoria algebraica, teoría espectral de grafos, topología algebraica, análisis estocástico y geometría simpléctica. Las soluciones humanas fueron cifradas y almacenadas previamente en el sitio oficial.

Los modelos evaluados —GPT-5.1 Pro y Gemini 3 Pro— debieron responder en modalidad “one-shot”: un único intento por problema, sin pistas adicionales. El resultado fue contundente: solo dos respuestas alcanzaron el nivel mínimo esperado.

Desde OpenAI señalaron que pudieron generar soluciones candidatas en minutos, aunque su verificación demandó horas de trabajo humano especializado, lo que evidencia un cuello de botella en la validación. El proyecto continuará y prevé una segunda prueba el 14 de marzo, Día Internacional de Pi, con la intención de construir un sistema de evaluación sostenido en el tiempo. La discusión, por ahora, sigue abierta entre lo que la IA parece comprender y lo que efectivamente logra demostrar.

Lo Último

13:39

Bianco reavivó la interna peronista: “Hay sectores más preocupados por criticar a los compañeros que a Milei”

12:58

La Plata rindió homenaje a jubilados sobrevivientes de la dictadura

12:56

Llega una jornada abierta sobre desafíos y oportunidades de la economía digital para las pymes

12:35

El Municipio implementa permisos provisorios para agilizar la apertura de nuevos comercios

11:56

Crisis de GNC: advierten que podrían extenderse los cortes y afectar a industrias bonaerenses

Lee además

Jorge Macri echó a la cúpula de la policía y queda expuesta la crisis

Bianco reavivó la interna peronista: “Hay sectores más preocupados por criticar a los compañeros que a Milei”

La Plata rindió homenaje a jubilados sobrevivientes de la dictadura

Llega una jornada abierta sobre desafíos y oportunidades de la economía digital para las pymes

El Municipio implementa permisos provisorios para agilizar la apertura de nuevos comercios

Crisis de GNC: advierten que podrían extenderse los cortes y afectar a industrias bonaerenses

La interna por Adorni expone la pelea entre Karina Milei y Patricia Bullrich

Te puede interesar

El Gobierno oficializó un aumento del 565% en la tasa de seguridad aérea y suben los pasajes de cabotaje

política

Juliano apuntó contra sectores de la UCR tras la caída de la sesión para interpelar a Adorni

Milei autorizó tomar hasta 5.000 millones de dólares de deuda bajo legislación extranjera

política

Katopodis denunció que Nación bloquea créditos internacionales para obras en Buenos Aires

La informalidad laboral alcanzó un récord y ya afecta a casi 10 millones de trabajadores

fútbol

Messi hizo historia otra vez: Argentina venció a Austria y se clasificó a los 16avos del Mundial

Milei le quitó a Adorni el manejo de la comunicación y profundiza el operativo para sostenerlo en el poder

Comunidad

Servicios municipales, actividades culturales y talleres educativos llegan a Altos de San Lorenzo

salud

Acceso a la salud pública: la Municipalidad impulsa nuevas jornadas gratuitas en los barrios

Zussane Garret

Zumba

Zuleika Esnal.

zuccari

Zoonosis Urbana

zoom juntos por el cambio

zoologico

Zoológico de La Plata

zoo la plata

zoo

zonas frias

zona roja

zona norte

zona liberada

zona de control

zona caliente

zombies

ziulu

Zilioto

zika

TECNOLOGÍA

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

El proyecto que cuestiona cómo se evalúa a la IA

Diez problemas inéditos y un resultado parcial

Lo Último

13:39

Bianco reavivó la interna peronista: “Hay sectores más preocupados por criticar a los compañeros que a Milei”

12:58

La Plata rindió homenaje a jubilados sobrevivientes de la dictadura

12:56

Llega una jornada abierta sobre desafíos y oportunidades de la economía digital para las pymes

12:35

El Municipio implementa permisos provisorios para agilizar la apertura de nuevos comercios

11:56

Crisis de GNC: advierten que podrían extenderse los cortes y afectar a industrias bonaerenses

Lee además

Jorge Macri echó a la cúpula de la policía y queda expuesta la crisis

Bianco reavivó la interna peronista: “Hay sectores más preocupados por criticar a los compañeros que a Milei”

La Plata rindió homenaje a jubilados sobrevivientes de la dictadura

Llega una jornada abierta sobre desafíos y oportunidades de la economía digital para las pymes

El Municipio implementa permisos provisorios para agilizar la apertura de nuevos comercios

Crisis de GNC: advierten que podrían extenderse los cortes y afectar a industrias bonaerenses

La interna por Adorni expone la pelea entre Karina Milei y Patricia Bullrich

Te puede interesar

El Gobierno oficializó un aumento del 565% en la tasa de seguridad aérea y suben los pasajes de cabotaje

política

Juliano apuntó contra sectores de la UCR tras la caída de la sesión para interpelar a Adorni

Milei autorizó tomar hasta 5.000 millones de dólares de deuda bajo legislación extranjera

política

Katopodis denunció que Nación bloquea créditos internacionales para obras en Buenos Aires

La informalidad laboral alcanzó un récord y ya afecta a casi 10 millones de trabajadores

fútbol

Messi hizo historia otra vez: Argentina venció a Austria y se clasificó a los 16avos del Mundial

Milei le quitó a Adorni el manejo de la comunicación y profundiza el operativo para sostenerlo en el poder

Comunidad

Servicios municipales, actividades culturales y talleres educativos llegan a Altos de San Lorenzo

salud

Acceso a la salud pública: la Municipalidad impulsa nuevas jornadas gratuitas en los barrios

junio 25, 2026