TECNOLOGÍA

febrero 23, 2026

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

Por infolitica

La iniciativa apunta a medir razonamiento matemático real, no desempeño en ejercicios de competencia. El foco está en determinar si la IA crea conocimiento o si simplemente recuerda patrones presentes en sus datos de entrenamiento.

Un grupo de once matemáticos internacionales lanzó “First Proof”, un proyecto que busca evaluar si la inteligencia artificial puede resolver problemas de investigación inéditos y no solo reproducir información aprendida. El primer test mostró que los modelos analizados resolvieron correctamente apenas dos de diez desafíos.

El proyecto que cuestiona cómo se evalúa a la IA

El paper fue publicado el 5 de febrero de 2026 en arXiv por un equipo integrado, entre otros, por Mohammed Abouzaid (Stanford), Andrew J. Blumberg (Columbia), Martin Hairer (EPFL e Imperial College, Medalla Fields 2014), Daniel Spielman (Yale) y Lauren Williams (Harvard). Según explican en el sitio oficial 1stproof.org, el nombre remite tanto a “primera prueba” como al primer leudado en panadería: esa instancia inicial donde la masa comienza a transformarse.

La crítica metodológica es directa. Hoy, buena parte de las evaluaciones en matemáticas se basan en problemas de olimpíadas o ejercicios ampliamente difundidos. Eso genera lo que denominan “contaminación de datos”: los grandes modelos de lenguaje fueron entrenados con libros, soluciones publicadas y discusiones académicas disponibles online. Bajo esa lógica, resolver no necesariamente implica razonar, sino recordar.

Diez problemas inéditos y un resultado parcial

Para evitar ese sesgo, el equipo diseñó diez problemas reales de investigación nunca publicados, vinculados a áreas como combinatoria algebraica, teoría espectral de grafos, topología algebraica, análisis estocástico y geometría simpléctica. Las soluciones humanas fueron cifradas y almacenadas previamente en el sitio oficial.

Los modelos evaluados —GPT-5.1 Pro y Gemini 3 Pro— debieron responder en modalidad “one-shot”: un único intento por problema, sin pistas adicionales. El resultado fue contundente: solo dos respuestas alcanzaron el nivel mínimo esperado.

Desde OpenAI señalaron que pudieron generar soluciones candidatas en minutos, aunque su verificación demandó horas de trabajo humano especializado, lo que evidencia un cuello de botella en la validación. El proyecto continuará y prevé una segunda prueba el 14 de marzo, Día Internacional de Pi, con la intención de construir un sistema de evaluación sostenido en el tiempo. La discusión, por ahora, sigue abierta entre lo que la IA parece comprender y lo que efectivamente logra demostrar.

Lo Último

11:07

Gran Hermano Generación Dorada: cuándo empieza y cómo será la primera semana más intensa del reality

10:44

Infostealers: el malware silencioso que roba contraseñas y sesiones activas sin que lo notes

11:42

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

14:41

Horóscopo semanal del 23 de febrero al 3 de marzo: qué dice el tarot para eclipse total de luna en Virgo

14:36

Kicillof y Alak rompen con los rumores de fractura: “Reafirmamos el compromiso”

Lee además

Jorge Macri echó a la cúpula de la policía y queda expuesta la crisis

Horóscopo semanal del 23 de febrero al 3 de marzo: qué dice el tarot para eclipse total de luna en Virgo

Kicillof y Alak rompen con los rumores de fractura: “Reafirmamos el compromiso”

Multitudinaria celebración del Año Nuevo Chino en Plaza Moreno

La Plata suma infraestructura para la educación pública en Savoia

Ante el inicio de clases, el Municipio diagramó nuevas jornadas de salud

Avanza el Plan 1.000 cuadras en Villa Castells con nuevos trabajos de pavimentación

Te puede interesar

política

Arde el PJ bonaerense: qué distritos siguen en disputa en la interna del Partido Justicialista

política

ATE denuncia graves amenazas del Gobierno antes del paro de 36 hs

clima

Diluvio histórico: 48 horas de alerta y más de 5 provincias temen por las intensas lluvias y el viento

Oficializaron las listas del nuevo Partido Justicialista bonaerense: quiénes son y cómo quedaron conformadas

Tras la represión y el escándalo en Diputados, el Gobierno consigue dictamen express para la Reforma Laboral en el Senado

Berisso: Avanza la construcción del nuevo playón deportivo

Elecciones en Abastense, dos listas y un candidato acusado de homicidio

Más de diez camiones volcaron en la autopista Rosario–Córdoba tras un violento temporal

Más aumentos: el Gobierno autorizó la suba de tarifas de colectivos que también se actualizarán en marzo

Zussane Garret

Zumba

Zuleika Esnal.

zuccari

Zoonosis Urbana

zoom juntos por el cambio

zoologico

Zoológico de La Plata

zoo la plata

zoo

zonas frias

zona roja

zona norte

zona liberada

zona de control

zona caliente

zombies

ziulu

Zilioto

zika

TECNOLOGÍA

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

El proyecto que cuestiona cómo se evalúa a la IA

Diez problemas inéditos y un resultado parcial

Lo Último

11:07

Gran Hermano Generación Dorada: cuándo empieza y cómo será la primera semana más intensa del reality

10:44

Infostealers: el malware silencioso que roba contraseñas y sesiones activas sin que lo notes

11:42

First Proof: el experimento que pone a prueba si la IA realmente razona matemáticas

14:41

Horóscopo semanal del 23 de febrero al 3 de marzo: qué dice el tarot para eclipse total de luna en Virgo

14:36

Kicillof y Alak rompen con los rumores de fractura: “Reafirmamos el compromiso”

Lee además

Jorge Macri echó a la cúpula de la policía y queda expuesta la crisis

Horóscopo semanal del 23 de febrero al 3 de marzo: qué dice el tarot para eclipse total de luna en Virgo

Kicillof y Alak rompen con los rumores de fractura: “Reafirmamos el compromiso”

Multitudinaria celebración del Año Nuevo Chino en Plaza Moreno

La Plata suma infraestructura para la educación pública en Savoia

Ante el inicio de clases, el Municipio diagramó nuevas jornadas de salud

Avanza el Plan 1.000 cuadras en Villa Castells con nuevos trabajos de pavimentación

Te puede interesar

política

Arde el PJ bonaerense: qué distritos siguen en disputa en la interna del Partido Justicialista

política

ATE denuncia graves amenazas del Gobierno antes del paro de 36 hs

clima

Diluvio histórico: 48 horas de alerta y más de 5 provincias temen por las intensas lluvias y el viento

Oficializaron las listas del nuevo Partido Justicialista bonaerense: quiénes son y cómo quedaron conformadas

Tras la represión y el escándalo en Diputados, el Gobierno consigue dictamen express para la Reforma Laboral en el Senado

Berisso: Avanza la construcción del nuevo playón deportivo

Elecciones en Abastense, dos listas y un candidato acusado de homicidio

Más de diez camiones volcaron en la autopista Rosario–Córdoba tras un violento temporal

Más aumentos: el Gobierno autorizó la suba de tarifas de colectivos que también se actualizarán en marzo

febrero 23, 2026