Uncategorized

Gemini y Whisk integran Veo 2: ahora puedes generar videos con IA a partir de texto e imágenes

A partir de hoy, los usuarios de Gemini Advanced y los suscriptores de Google One AI Premium podrán generar videos utilizando Veo 2, el último modelo de generación de videos de Google. Esta tecnología permite transformar descripciones de texto en videos dinámicos de 8 segundos en 720p, así como animar imágenes creadas en Whisk, el laboratorio experimental de IA generativa de Google.


Google executive Sissie Hsiao (center) with some of the team that works on the company’s AI offerings (from left: Amar Subramanya, Jenny Blackburn, Suman Prasad, Trevor Strohman, and Jack Krawczyk)

La gigante de las búsquedas debería haber sido la primera en llegar a la revolución de los chatbot. No lo fue. Así que contraatacó con madrugones, despidos y bajando algunas barreras.


Creación de videos en Gemini con Veo 2

Veo 2 marca un avanceen la generación de videos, ofreciendo resultados con realismo cinematográfico, movimientos fluidos y detalles visuales mejorados. El modelo interpreta mejor la física del mundo real y los movimientos humanos, lo que permite crear escenas más realistas y variadas en múltiples estilos, desde lo fantástico hasta lo hiperrealista.

Para usarlo, los suscriptores de Gemini Advanced solo deben:

  1. Seleccionar Veo 2 en el menú desplegable de modelos.

2. Describir con detalle la escena que desean generar (una historia corta, un concepto visual, etc.).

3. Recibir el video en formato MP4 (16:9), listo para compartir en redes como TikTok o YouTube Shorts.

La función, disponible desde hoy en la web y la app móvil de Gemini (con despliegue progresivo en las próximas semanas), tiene un límite mensual de generaciones, aunque Google notificará a los usuarios cuando se acerquen a ese tope.

Whisk Animate: convierte imágenes en videos

Por su parte, Whisk, la herramienta experimental de Google Labs, estrena Whisk Animate, una función exclusiva para suscriptores de Google One AI Premium. Los usuarios podrán tomar cualquier imagen generada en Whisk (mediante texto o otra imagen) y animarla automáticamente en un clip de 8 segundos con Veo 2.

Seguridad y transparencia

Google asegura que ha implementado medidas para garantizar un uso responsable, incluyendo:

Evaluaciones exhaustivas (“red teaming”) para evitar contenido violatorio.

SynthID, una marca de agua digital incrustada en cada fotograma que identifica los videos como generados por IA.

Aun así, la compañía reconoce que, como en cualquier IA generativa, pueden surgir resultados no deseados, por lo que invita a los usuarios a enviar feedback mediante los botones de “me gusta/no me gusta”.

Disponibilidad

Gemini Advanced: Acceso a generación de videos con Veo 2 en gemini.google.com.

Google One AI Premium: Whisk Animate en labs.google/whisk.

Con estas novedades, Google acerca la creación audiovisual a un público más amplio, eliminando la necesidad de equipos especializados o conocimientos técnicos. ¿El límite? La imaginación del usuario.

Google prepara unos lentes de realidad virtual con Gemini

Durante el evento TED 2025 en Vancouver, se vivió una aparición inesperada y espectacular: la presentación en vivo de los prototipos de gafas inteligentes con la nueva plataforma Android XR. Shahram Izadi, líder del desarrollo de realidad mixta en Google sorprendió al público al subir al escenario usando un par. En lugar de limitarse a explicar las capacidades del proyecto, Izadi optó por mostrar el dispositivo en acción, destacando las posibilidades que ofrece la integración con Gemini, el asistente de IA de Google.

Actualmente, dos gigantes tecnológicas trabajan en el desarrollo de Android XR: Google y Samsung. Cada uno ha tomado caminos distintos en cuanto a diseño y enfoque. Por ejemplo, en el evento Unpacked de enero, Samsung presentó la gama de smatphones Galaxy S25, a la par de su visor de realidad virtual (RV), aún conocido como Project Moohan. Este dispositivo, que compite directamente con las Vision Pro de Apple, también integra Android XR y está orientado a experiencias inmersivas de realidad virtual y multitarea.

Google, en cambio, ha apostado por unas gafas inteligentes mucho más discretas, similares en apariencia a unas gafas tradicionales, como las populares Ray-Ban Meta. A pesar de su diseño delgado, estos prototipos esconden un hardware avanzado en sus patillas, incluyendo cámaras frontales que permiten superponer información en tiempo real en los lentes. Durante la demostración, se mostraron funciones como navegación GPS giro a giro y reconocimiento contextual de objetos, todo proyectado directamente sobre el campo visual del usuario.