Google Whisk: La nueva herramienta de IA que utiliza instrucciones visuales en lugar de palabras

En un intento de ofrecer una herramienta de inteligencia artificial (IA) innovadora y creativa, Google ha lanzado recientemente “Whisk,” que permite a los usuarios subir fotografías para obtener una imagen combinada generada por IA sin tener que escribir una sola palabra.

Antes de mezclar las fotografías, los usuarios pueden proporcionar imágenes de sujetos, escenarios y estilos.

En una entrada de blog, Google describió a Whisk como una “herramienta creativa” para una rápida inspiración, no como un “editor de imágenes tradicional.” Whisk está destinado a ser una función de IA divertida, y no una herramienta profesional.

Grandes empresas tecnológicas como Google y OpenAI se están apresurando a ofrecer productos de consumo que demuestran la nueva y atractiva tecnología, a pesar de las advertencias de los detractores que advierten que el crecimiento de la IA sin límites es peligroso para la humanidad.

Desde que OpenAI lanzó Dall-E, una herramienta de producción de texto a imagen, en 2021, las obras de arte generadas por IA han invadido las redes sociales y han permeado los artículos de consumo. Google Whisk es un generador de imagen a imagen que se basa en los generadores de texto a imagen.

Los usuarios de Whisk pueden modificar sus entradas y mezclar categorías para crear peluches, pines de esmalte y pegatinas. Los usuarios pueden dirigir los detalles mediante palabras, pero una imagen no es esencial.

“Whisk está diseñado para permitir a los usuarios remezclar un tema, escena y estilo de nuevas formas creativas, ofreciendo una exploración visual rápida en lugar de ediciones perfectas de píxeles,” afirmó el director de gestión de productos de Google Labs, Thomas Iljic.

Google adquirió DeepMind en 2014 y utilizó su IA generativa para construir Whisk.

Whisk utiliza el servicio principal de IA de Google, Gemini, introducido en diciembre de 2023, e Imagen 3, el generador de texto a imagen más reciente de DeepMind.

Imagen 3 recibe subtítulos de Gemini cuando los usuarios publican fotografías. Para remezclar la imagen final, la técnica captura la “esencia” del tema en lugar de una reproducción exacta, lo que puede alejarse de la indicación inicial.

Google afirmó en una entrada de blog que la imagen creada puede diferir de las fotografías iniciales en altura, corte de pelo y tono de piel.

Google recibió críticas en febrero cuando lanzó el conversor de texto a imagen de Gemini porque creaba imágenes históricamente incorrectas.

Whisk, un sitio web exclusivo de Google Labs solo en EE. UU., se encuentra en una etapa temprana de desarrollo, indicó la empresa.

OpenAI presentó a Sora, un generador de texto a video, demostrando competencia en productos de consumo.

Dan Ives, director gerente y analista senior de equidades de Wedbush Securities, declaró a CNN que Whisk es otro momento para “hacer alarde de músculos” para Google en IA y tecnología.

Los productos de IA son parte del “tesoro” de nuevos productos de Google para 2025, que incluye un nuevo sistema operativo Android desarrollado con Samsung y Qualcomm. “DeepMind es un activo clave para Google,” dijo Ives.