• Crear 1
  • Posts
  • GPT-5: la nueva frontera de la IA

GPT-5: la nueva frontera de la IA

Plataforma une a modelo de lenguaje y modelo de razonamiento en uno.

In partnership with

Looking for unbiased, fact-based news? Join 1440 today.

Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.

Crea con IA — Edición especial: GPT-5

Fecha: 8 de agosto de 2025

Decidimos retrasar la salida de Crea con IA esta semana para poder cubrir el lanzamiento de GPT-5, el nuevo modelo de frontera de OpenAI. Este sábado tendremos un en vivo en YouTube para hacerle pruebas y demostrar capacidades. Ven y haz tus preguntas en vivo.

Una nueva frontera.

GPT-5 no es “un poco mejor” que 4.x: es el primer lanzamiento de OpenAI que orquesta el razonamiento como sistema—un router decide cuándo responder rápido y cuándo “pensar” más, integrando variantes main y thinking bajo un mismo paraguas. Eso recodifica cómo diseñamos flujos: menos prompt artesano y más políticas de tarea + verificación.

Lo esencial en 30 segundos

  • Qué es: Un sistema unificado con un modelo rápido (gpt-5-main), uno de razonamiento profundo (gpt-5-thinking), y routing en tiempo real. Llega a todos los usuarios de ChatGPT; Plus/Pro obtienen más cuota y GPT-5 pro con razonamiento extendido.

  • Por qué importa: Nuevo State of the Art en tareas clave (AIME, SWE-bench Verified, MMMU, HealthBench) y caída marcada de alucinaciones y “engaño” frente a o3/4o.

  • Disponibilidad & contexto: Anuncio oficial el 7 de agosto de 2025; despliegue en ChatGPT y ecosistema Microsoft (Copilot, Azure, GitHub Copilot).

Qué cambió realmente (más allá del hype)

  1. Razonamiento orquestado: Router decide esfuerzo de pensamiento y herramientas; opción “think hard” fuerza razonamiento. Implica pasar de prompting a diseño de políticas (límites de costo/latencia, reintentos, fuentes).

  2. Mini/pro y unificación: Cuando agotas cuota, entra mini; Pro habilita thinking pro con cómputo de prueba paralelo. Roadmap: converger a un solo modelo.

  3. Seguridad centrada en la salida (safe-completions): menos rechazos binarios, más respuestas útiles bajo política; mejoras en biorriesgo, ciber y jailbreaks.

Benchmarks (resultados clave, versión pública de OpenAI)

Todos evaluados con el setup de OpenAI; varios sin herramientas, “alto esfuerzo de razonamiento”.

  • AIME 2025 (math, sin tools): 94.6%.

  • SWE-bench Verified (código real): 74.9%; Aider Polyglot: 88%.

  • MMMU (multimodal): 84.2%.

  • HealthBench Hard: 46.2%.

  • GPQA (sin tools, en GPT-5 pro): 88.4%. (OpenAI)

Latencia y “pensar mejor con menos”: GPT-5 supera a o3 usando 50–80% menos tokens de pensamiento en visual, agentes de código y problemas científicos.

Alucinaciones y honestidad: −45% de errores vs 4o con búsqueda; −80% vs o3 cuando “piensa”. Menor “engaño” al admitir imposibilidades (2.1% vs 4.8% en tráfico real). Metodología y stress-tests en CharXiv, LongFact y FActScore en la system card.

Contexto sectorial: la escalada en MMMU/GPQA/SWE-bench sigue la tendencia de aceleración de 2024-2025 observada por Stanford HAI. (Stanford HAI)

Reacciones de la industria (curadas y contrastadas)

  • Microsoft (Nadella): anunció despliegue de GPT-5 en Microsoft 365 Copilot, GitHub Copilot y Azure AI Foundry; reafirma la alianza OpenAI-Azure en día de lanzamiento.

  • xAI (Elon Musk): afirmó en X que “Grok 4 Heavy era más inteligente hace dos semanas que GPT-5 ahora” y prometió Grok 5 “antes de fin de año”; típico postureo competitivo, sin evals independientes publicados al cierre.

  • Medios tech: coberturas coinciden en unified system, eliminación parcial del model picker y personalidades/voz más ricas (impacto en adopción masiva de ChatGPT).

Nota editorial: No hay (aún) respuesta formal pública de Google/Anthropic específica a GPT-5 más allá de estrategia general previa; seguimos monitoreando canales oficiales.

Hallazgos poco obvios (los “detalles finos”)

  1. Safe-completions > hard refusals: cambia el objetivo de seguridad a salidas seguras; útil para dominios dual-use (bio/ciber).

  2. Tipología de modelos GPT-5: gpt-5-main / main-mini (alto rendimiento) y gpt-5-thinking / thinking-mini / thinking-nano (razonamiento); thinking-pro en ChatGPT con cómputo de prueba paralelo.

  3. Decepción medida: se evalúa “reconocer imposibles” y evitar afirmar éxito ficticio en tareas sin recursos—una métrica que faltaba en generaciones previas.

Qué cambia para equipos (hoja de ruta práctica 30/60/90)

Día 0–30

  • Migrar playbooks de prompts a políticas de tarea (objetivo, evidencia mínima, límites de costo/latencia, reintentos).

  • Telemetría nueva: retries per task, confidence del paso, coverage de grounding.

  • Pilotos con verificación automática (conciliaciones, QA web, resúmenes regulatorios).

Día 31–60

  • Agentes con herramientas: RAG + ejecución controlada (SQL/Python) + verificadores; métricas FPY y costo/resultado.

  • SLAs de IA: P95 de latencia, costo por caso resuelto, % de intervención humana.

Día 61–90

  • Escalar a carteras con tablero de cost-to-quality; fallback multi-proveedor (incluye open-weights + verificador externo).

Playbook para creadores y marketing

  • Investigación: pedir plan de indagación con hipótesis, fuentes y checkpoints de confianza.

  • Guiones & social: activar razonamiento para auditoría previa de datos y lista de fuentes.

  • CRO/Ads: experimentar con tests generativos + verificación estadística y budget pacing.

  • Contenido educativo/salud: aprovechar mejoras en HealthBench con disclaimers y guardrails activados.

Riesgos y gobernanza (para compliance)

  • Alucinaciones de alta confianza: usar umbrales de veracidad por paso + escalado a evidencia.

  • Bio/Chem alto riesgo: GPT-5-thinking clasificado “High capability” bajo el Preparedness Framework; aplicar Trusted Access y controles de cuenta/API.

  • Ciber y agentes: revisar system card de Agent y métricas nuevas en ciber (sets más duros, no comparables 1:1 con previos).

FAQ ejecutiva

  • ¿Reemplaza a RAG? No: exige mejor RAG, routing y verificadores.

  • ¿Soy PyME? Un flujo rentable + verificación primero; no “agente para todo”.

  • ¿Benchmarks internos? Mide tu First-Pass Accuracy y costo/caso, no sólo MMLU/GPQA.

En Vivo para demostración de GPT-5

Asiste este sábado 9 de agosto a la sesión En Vivo en donde Ricardo Carreón y Ramón Morales demostrarán GPT-5 y analizarán el producto. La sesión será por YouTube Live. Coloca tu notificación para recibir recordatorio previo al evento.

Reply

or to participate.