Crear 1
Posts
GPT-5: la nueva frontera de la IA

GPT-5: la nueva frontera de la IA

Plataforma une a modelo de lenguaje y modelo de razonamiento en uno.

Ricardo Carreon
8 de agosto de 2025

In partnership with

Looking for unbiased, fact-based news? Join 1440 today.

Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.

Subscribe to 1440 today.

Crea con IA — Edición especial: GPT-5

Fecha: 8 de agosto de 2025

Decidimos retrasar la salida de Crea con IA esta semana para poder cubrir el lanzamiento de GPT-5, el nuevo modelo de frontera de OpenAI. Este sábado tendremos un en vivo en YouTube para hacerle pruebas y demostrar capacidades. Ven y haz tus preguntas en vivo.

Una nueva frontera.

GPT-5 no es “un poco mejor” que 4.x: es el primer lanzamiento de OpenAI que orquesta el razonamiento como sistema—un router decide cuándo responder rápido y cuándo “pensar” más, integrando variantes main y thinking bajo un mismo paraguas. Eso recodifica cómo diseñamos flujos: menos prompt artesano y más políticas de tarea + verificación.

Lo esencial en 30 segundos

Qué es: Un sistema unificado con un modelo rápido (gpt-5-main), uno de razonamiento profundo (gpt-5-thinking), y routing en tiempo real. Llega a todos los usuarios de ChatGPT; Plus/Pro obtienen más cuota y GPT-5 pro con razonamiento extendido.
Por qué importa: Nuevo State of the Art en tareas clave (AIME, SWE-bench Verified, MMMU, HealthBench) y caída marcada de alucinaciones y “engaño” frente a o3/4o.
Disponibilidad & contexto: Anuncio oficial el 7 de agosto de 2025; despliegue en ChatGPT y ecosistema Microsoft (Copilot, Azure, GitHub Copilot).

Qué cambió realmente (más allá del hype)

Razonamiento orquestado: Router decide esfuerzo de pensamiento y herramientas; opción “think hard” fuerza razonamiento. Implica pasar de prompting a diseño de políticas (límites de costo/latencia, reintentos, fuentes).
Mini/pro y unificación: Cuando agotas cuota, entra mini; Pro habilita thinking pro con cómputo de prueba paralelo. Roadmap: converger a un solo modelo.
Seguridad centrada en la salida (safe-completions): menos rechazos binarios, más respuestas útiles bajo política; mejoras en biorriesgo, ciber y jailbreaks.

Benchmarks (resultados clave, versión pública de OpenAI)

Todos evaluados con el setup de OpenAI; varios sin herramientas, “alto esfuerzo de razonamiento”.

AIME 2025 (math, sin tools): 94.6%.
SWE-bench Verified (código real): 74.9%; Aider Polyglot: 88%.
MMMU (multimodal): 84.2%.
HealthBench Hard: 46.2%.
GPQA (sin tools, en GPT-5 pro): 88.4%. (OpenAI)

Latencia y “pensar mejor con menos”: GPT-5 supera a o3 usando 50–80% menos tokens de pensamiento en visual, agentes de código y problemas científicos.

Alucinaciones y honestidad: −45% de errores vs 4o con búsqueda; −80% vs o3 cuando “piensa”. Menor “engaño” al admitir imposibilidades (2.1% vs 4.8% en tráfico real). Metodología y stress-tests en CharXiv, LongFact y FActScore en la system card.

Contexto sectorial: la escalada en MMMU/GPQA/SWE-bench sigue la tendencia de aceleración de 2024-2025 observada por Stanford HAI. (Stanford HAI)

Reacciones de la industria (curadas y contrastadas)

Microsoft (Nadella): anunció despliegue de GPT-5 en Microsoft 365 Copilot, GitHub Copilot y Azure AI Foundry; reafirma la alianza OpenAI-Azure en día de lanzamiento.
xAI (Elon Musk): afirmó en X que “Grok 4 Heavy era más inteligente hace dos semanas que GPT-5 ahora” y prometió Grok 5 “antes de fin de año”; típico postureo competitivo, sin evals independientes publicados al cierre.
Medios tech: coberturas coinciden en unified system, eliminación parcial del model picker y personalidades/voz más ricas (impacto en adopción masiva de ChatGPT).

Nota editorial: No hay (aún) respuesta formal pública de Google/Anthropic específica a GPT-5 más allá de estrategia general previa; seguimos monitoreando canales oficiales.

Hallazgos poco obvios (los “detalles finos”)

Safe-completions > hard refusals: cambia el objetivo de seguridad a salidas seguras; útil para dominios dual-use (bio/ciber).
Tipología de modelos GPT-5: gpt-5-main / main-mini (alto rendimiento) y gpt-5-thinking / thinking-mini / thinking-nano (razonamiento); thinking-pro en ChatGPT con cómputo de prueba paralelo.
Decepción medida: se evalúa “reconocer imposibles” y evitar afirmar éxito ficticio en tareas sin recursos—una métrica que faltaba en generaciones previas.

Qué cambia para equipos (hoja de ruta práctica 30/60/90)

Día 0–30

Migrar playbooks de prompts a políticas de tarea (objetivo, evidencia mínima, límites de costo/latencia, reintentos).
Telemetría nueva: retries per task, confidence del paso, coverage de grounding.
Pilotos con verificación automática (conciliaciones, QA web, resúmenes regulatorios).

Día 31–60

Agentes con herramientas: RAG + ejecución controlada (SQL/Python) + verificadores; métricas FPY y costo/resultado.
SLAs de IA: P95 de latencia, costo por caso resuelto, % de intervención humana.

Día 61–90

Escalar a carteras con tablero de cost-to-quality; fallback multi-proveedor (incluye open-weights + verificador externo).

Playbook para creadores y marketing

Investigación: pedir plan de indagación con hipótesis, fuentes y checkpoints de confianza.
Guiones & social: activar razonamiento para auditoría previa de datos y lista de fuentes.
CRO/Ads: experimentar con tests generativos + verificación estadística y budget pacing.
Contenido educativo/salud: aprovechar mejoras en HealthBench con disclaimers y guardrails activados.

Riesgos y gobernanza (para compliance)

Alucinaciones de alta confianza: usar umbrales de veracidad por paso + escalado a evidencia.
Bio/Chem alto riesgo: GPT-5-thinking clasificado “High capability” bajo el Preparedness Framework; aplicar Trusted Access y controles de cuenta/API.
Ciber y agentes: revisar system card de Agent y métricas nuevas en ciber (sets más duros, no comparables 1:1 con previos).

FAQ ejecutiva

¿Reemplaza a RAG? No: exige mejor RAG, routing y verificadores.
¿Soy PyME? Un flujo rentable + verificación primero; no “agente para todo”.
¿Benchmarks internos? Mide tu First-Pass Accuracy y costo/caso, no sólo MMLU/GPQA.

En Vivo para demostración de GPT-5

Asiste este sábado 9 de agosto a la sesión En Vivo en donde Ricardo Carreón y Ramón Morales demostrarán GPT-5 y analizarán el producto. La sesión será por YouTube Live. Coloca tu notificación para recibir recordatorio previo al evento.

Reply

or to participate.