Crear 1
Posts
Veo 3: Historias poderosas con un prompt de texto

Veo 3: Historias poderosas con un prompt de texto

Google crea un modelo extraordinario.

Ricardo Carreon
29 de mayo de 2025

In partnership with

Looking for unbiased, fact-based news? Join 1440 today.

Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.

Subscribe to 1440 today.

📨 Crea con IA – Edición especial · 29 de mayo de 2025

Veo 3 de Google: la llegada del video + audio generados por IA

Resumen rápido

Google estrena Veo 3, el primer modelo de texto-a-video que genera diálogo, efectos y ambiente sonoro nativos.
El salto cierra la brecha entre imagen y narrativa, anticipando flujos “texto → corto completo” listos para publicar.
Repasamos la línea de tiempo de la tecnología, de VideoGAN (2016) a Sora, Lumiere y, ahora, Veo 3.
Beneficios y casos de uso: prototipado creativo, localización instantánea, contenidos 24/7 y mucho más.

1. Contexto histórico: de los primeros fotogramas a la “película-prompt”

Año	Hito	Aporte clave
2016	VideoGAN / TGAN	Primeros clips sintéticos de unos segundos, sin audio.
2017	MoCoGAN	Separa contenido + movimiento para mejorar coherencia.
2022	Make-A-Video (Meta)	Democratiza el texto-a-video de calidad “social” (Facebook AI)
2022	Imagen Video (Google)	Difusión en cascada, 1280×768 p, 24 fps (Google Research Blog)
2023	Runway Gen-2	Interfaz web, control “imagen → video” y re-estilizado (Runway Academy)
2024	Sora (OpenAI)	Narrativas largas y consistentes hasta 60 s (OpenAI, The Verge)
2024	Lumiere (Google)	Arquitectura Space-Time U-Net: movimiento natural (Google News)
2025	Veo 3 (Google)	Audio, diálogos y Foley generados sin guion (The Verge)

2. Veo 3 bajo la lupa

Característica	¿Qué la hace distinta?	Beneficio directo
Audio nativo (voz, efectos, música)	El modelo mezcla difusión de imagen y un decodificador de audio autoregresivo.	Un solo prompt → video listo para redes, sin post-sonorización.
Diálogos auto-generados	Puede inferir parlamentos coherentes con la escena, incluso sin pedirlos.	Historias rápidas para storyboards, prototipos de anuncios o pruebas A/B.
Sincronía labial	Ajusta fonemas a labios renderizados.	Reducción drástica de tiempo en doblaje y localización.
Coherencia multi-toma (hasta 30 s)	Mantiene personajes y puesta en escena entre tomas.	Producciones “one-prompt short film”.
Guardrails robustos	Bloqueo de deepfakes políticos y violencia explícita.	Menor riesgo de uso malicioso; apto para marcas.
Acceso	Incluido en el plan Google AI Ultra via Google AI Studio.	Fácil integración con Flows y APIs para automatización.
Fuente principal: demo y reporte inicial de The Verge (The Verge)

3. Casos de uso emergentes

Agencias creativas
- Producción de mock-ups de spots con locución multilingüe en minutos.
EdTech & e-learning
- Videos explicativos con personajes que “hablan” el script generado por LLM, reduciendo costos de producción.
Medios locales y marketing hiper-personalizado
- Generación automática de clips (ofertas, clima, noticias de barrio) con voz sintética regional.
Cine independiente
- Pre-visualizaciones completas (“previz”) para pitching, sin necesidad de equipo de rodaje.
Gaming & mundos virtuales
- Tráilers dinámicos generados a partir de logs de partidas o prompts de la comunidad.

4. Qué significa para creadores y marcas

Velocidad de iteración: pasar de idea a video con audio en una sola generación recorta hasta 70 % del pipeline tradicional.
Barrera de entrada: creadores individuales compiten con estudios gracias a producción “todo-en-IA”.
Riesgos: sobre-abundancia de contenidos genéricos y nuevas vías de desinformación audiovisual; urge alfabetización mediática y watermarking.
Próximo paso: integración con herramientas de edición no lineal vía timeline JSON; Google ya muestra Flow como puente a Premiere/DaVinci (blog.google)

5. Para tu toolbox

Necesidad	Herramienta recomendada
Video rápido sin audio	Runway Gen-2
Audio + Foley básico	Pika Lab 1.1
Video + audio + diálogos	Google Veo 3
Narrativas largas (60 s)	OpenAI Sora
Motion loops ultra-realistas	Google Lumiere

6. Cierre y llamado a la acción

Nos acercamos a la era del “Prompt-to-Premiere”. Veo 3 no solo genera fotogramas; genera historias sonoras. La próxima frontera: control granular de guion y banda sonora vía parámetros estructurados.

Cómo accesarlo? https://gemini.google.com/ y selecciona video. Está disponible para usuarios pagados de Gemini,

🎯 ¿Ya tienes acceso a Veo 3? Cuéntanos en la comunidad Crea con IA cómo piensas usar audio generativo y comparte tus clips para la curaduría semanal.

Referencias (formato APA)

Johnson, A. (2025, 24 mayo). Google’s Veo 3 AI video generator is a slop monger’s dream. The Verge. (The Verge)
Vondrick, C., Pirsiavash, H., & Torralba, A. (2016). Generating videos with scene dynamics [Paper]. arXiv. (arXiv)
Saito, M., Matsumoto, E., & Saito, S. (2016). Temporal GANs with singular value clipping. arXiv. (arXiv)
Tulyakov, S., Liu, M.-Y., Yang, X., & Kautz, J. (2017). MoCoGAN: Decomposing motion and content for video generation. arXiv. (arXiv)
Meta AI. (2022). Introducing Make-A-Video: An AI system that generates videos from text. Meta AI Blog. (Facebook AI)
Google AI Blog. (2023). Imagen Video: High-definition video generation from diffusion models. (Google Research Blog)
Runway. (2023). Using Text-to-Video and Image-to-Video – Gen-2. Runway Academy. (Runway Academy)
OpenAI. (2024). Sora. https://openai.com/sora (OpenAI)
The Verge. (2024, 9 diciembre). OpenAI has finally released Sora. (The Verge)
AZoAI. (2024). Lumiere: A breakthrough in realistic text-to-video generation. (Google News)
Google Blog. (2025, 20 mayo). Meet Flow: AI-powered filmmaking with Veo 3. (blog.google)

¡Hasta la próxima edición y… a Crear con IA!

Reply

or to participate.