Google fusionará sus modelos Gemini y Veo para mejorar la inteligencia artificial
DeepMind planea combinar ambos sistemas para crear un asistente digital universal. El anuncio lo realizó el CEO Demis Hassabis en un podcast. La integración busca que la IA comprenda mejor el mundo físico mediante el análisis de videos.
«Un asistente que ayuda en el mundo real»
Hassabis explicó que Gemini fue diseñado desde el inicio como un modelo multimodal, capaz de procesar texto, imágenes y audio. La fusión con Veo, especializado en generación de videos, permitirá a la IA «entender la física del mundo» mediante el análisis de contenido visual, según el ejecutivo.
El rol de YouTube en el entrenamiento
El CEO de DeepMind señaló que los datos de entrenamiento de Veo provienen «en gran parte» de YouTube, plataforma propiedad de Google. La compañía confirmó previamente que sus modelos «pueden estar» entrenados con contenido de YouTube, ajustándose a acuerdos con creadores.
Tendencia hacia modelos «omni»
La industria avanza hacia sistemas capaces de sintetizar múltiples formatos. OpenAI y Amazon también desarrollan modelos similares. Estas IA requieren grandes cantidades de datos (videos, audio, texto) para su entrenamiento, lo que llevó a Google a actualizar sus términos de servicio en 2024 para acceder a más información.
La carrera por la IA más completa
Google, OpenAI y Amazon compiten por liderar el desarrollo de inteligencia artificial multifuncional. Gemini ya genera audio e imágenes, mientras que ChatGPT produce ilustraciones. La fusión Gemini-Veo marcaría un nuevo paso en esta evolución.
Asistentes digitales con visión de futuro
La integración de ambas tecnologías podría transformar la interacción entre humanos y máquinas. El objetivo final, según Hassabis, es crear un asistente digital universal que opere con comprensión del entorno físico, aunque el proceso aún depende del acceso a datos y avances técnicos.