- Crear 1
- Posts
- GPT-5: la nueva frontera de la IA
GPT-5: la nueva frontera de la IA
Plataforma une a modelo de lenguaje y modelo de razonamiento en uno.
Looking for unbiased, fact-based news? Join 1440 today.
Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.
Crea con IA — Edición especial: GPT-5
Fecha: 8 de agosto de 2025
Decidimos retrasar la salida de Crea con IA esta semana para poder cubrir el lanzamiento de GPT-5, el nuevo modelo de frontera de OpenAI. Este sábado tendremos un en vivo en YouTube para hacerle pruebas y demostrar capacidades. Ven y haz tus preguntas en vivo.
Una nueva frontera.
GPT-5 no es “un poco mejor” que 4.x: es el primer lanzamiento de OpenAI que orquesta el razonamiento como sistema—un router decide cuándo responder rápido y cuándo “pensar” más, integrando variantes main y thinking bajo un mismo paraguas. Eso recodifica cómo diseñamos flujos: menos prompt artesano y más políticas de tarea + verificación.
Lo esencial en 30 segundos
Qué es: Un sistema unificado con un modelo rápido (gpt-5-main), uno de razonamiento profundo (gpt-5-thinking), y routing en tiempo real. Llega a todos los usuarios de ChatGPT; Plus/Pro obtienen más cuota y GPT-5 pro con razonamiento extendido.
Por qué importa: Nuevo State of the Art en tareas clave (AIME, SWE-bench Verified, MMMU, HealthBench) y caída marcada de alucinaciones y “engaño” frente a o3/4o.
Disponibilidad & contexto: Anuncio oficial el 7 de agosto de 2025; despliegue en ChatGPT y ecosistema Microsoft (Copilot, Azure, GitHub Copilot).
Qué cambió realmente (más allá del hype)
Razonamiento orquestado: Router decide esfuerzo de pensamiento y herramientas; opción “think hard” fuerza razonamiento. Implica pasar de prompting a diseño de políticas (límites de costo/latencia, reintentos, fuentes).
Mini/pro y unificación: Cuando agotas cuota, entra mini; Pro habilita thinking pro con cómputo de prueba paralelo. Roadmap: converger a un solo modelo.
Seguridad centrada en la salida (safe-completions): menos rechazos binarios, más respuestas útiles bajo política; mejoras en biorriesgo, ciber y jailbreaks.
Benchmarks (resultados clave, versión pública de OpenAI)
Todos evaluados con el setup de OpenAI; varios sin herramientas, “alto esfuerzo de razonamiento”.
AIME 2025 (math, sin tools): 94.6%.
SWE-bench Verified (código real): 74.9%; Aider Polyglot: 88%.
MMMU (multimodal): 84.2%.
HealthBench Hard: 46.2%.
GPQA (sin tools, en GPT-5 pro): 88.4%. (OpenAI)
Latencia y “pensar mejor con menos”: GPT-5 supera a o3 usando 50–80% menos tokens de pensamiento en visual, agentes de código y problemas científicos.
Alucinaciones y honestidad: −45% de errores vs 4o con búsqueda; −80% vs o3 cuando “piensa”. Menor “engaño” al admitir imposibilidades (2.1% vs 4.8% en tráfico real). Metodología y stress-tests en CharXiv, LongFact y FActScore en la system card.
Contexto sectorial: la escalada en MMMU/GPQA/SWE-bench sigue la tendencia de aceleración de 2024-2025 observada por Stanford HAI. (Stanford HAI)
Reacciones de la industria (curadas y contrastadas)
Microsoft (Nadella): anunció despliegue de GPT-5 en Microsoft 365 Copilot, GitHub Copilot y Azure AI Foundry; reafirma la alianza OpenAI-Azure en día de lanzamiento.
xAI (Elon Musk): afirmó en X que “Grok 4 Heavy era más inteligente hace dos semanas que GPT-5 ahora” y prometió Grok 5 “antes de fin de año”; típico postureo competitivo, sin evals independientes publicados al cierre.
Medios tech: coberturas coinciden en unified system, eliminación parcial del model picker y personalidades/voz más ricas (impacto en adopción masiva de ChatGPT).
Nota editorial: No hay (aún) respuesta formal pública de Google/Anthropic específica a GPT-5 más allá de estrategia general previa; seguimos monitoreando canales oficiales.
Hallazgos poco obvios (los “detalles finos”)
Safe-completions > hard refusals: cambia el objetivo de seguridad a salidas seguras; útil para dominios dual-use (bio/ciber).
Tipología de modelos GPT-5: gpt-5-main / main-mini (alto rendimiento) y gpt-5-thinking / thinking-mini / thinking-nano (razonamiento); thinking-pro en ChatGPT con cómputo de prueba paralelo.
Decepción medida: se evalúa “reconocer imposibles” y evitar afirmar éxito ficticio en tareas sin recursos—una métrica que faltaba en generaciones previas.
Qué cambia para equipos (hoja de ruta práctica 30/60/90)
Día 0–30
Migrar playbooks de prompts a políticas de tarea (objetivo, evidencia mínima, límites de costo/latencia, reintentos).
Telemetría nueva: retries per task, confidence del paso, coverage de grounding.
Pilotos con verificación automática (conciliaciones, QA web, resúmenes regulatorios).
Día 31–60
Agentes con herramientas: RAG + ejecución controlada (SQL/Python) + verificadores; métricas FPY y costo/resultado.
SLAs de IA: P95 de latencia, costo por caso resuelto, % de intervención humana.
Día 61–90
Escalar a carteras con tablero de cost-to-quality; fallback multi-proveedor (incluye open-weights + verificador externo).
Playbook para creadores y marketing
Investigación: pedir plan de indagación con hipótesis, fuentes y checkpoints de confianza.
Guiones & social: activar razonamiento para auditoría previa de datos y lista de fuentes.
CRO/Ads: experimentar con tests generativos + verificación estadística y budget pacing.
Contenido educativo/salud: aprovechar mejoras en HealthBench con disclaimers y guardrails activados.
Riesgos y gobernanza (para compliance)
Alucinaciones de alta confianza: usar umbrales de veracidad por paso + escalado a evidencia.
Bio/Chem alto riesgo: GPT-5-thinking clasificado “High capability” bajo el Preparedness Framework; aplicar Trusted Access y controles de cuenta/API.
Ciber y agentes: revisar system card de Agent y métricas nuevas en ciber (sets más duros, no comparables 1:1 con previos).
FAQ ejecutiva
¿Reemplaza a RAG? No: exige mejor RAG, routing y verificadores.
¿Soy PyME? Un flujo rentable + verificación primero; no “agente para todo”.
¿Benchmarks internos? Mide tu First-Pass Accuracy y costo/caso, no sólo MMLU/GPQA.
En Vivo para demostración de GPT-5
Asiste este sábado 9 de agosto a la sesión En Vivo en donde Ricardo Carreón y Ramón Morales demostrarán GPT-5 y analizarán el producto. La sesión será por YouTube Live. Coloca tu notificación para recibir recordatorio previo al evento.


Reply