Google adelanta a DALL-E con Imagen
El mundo de la inteligencia artificial lleva unos años decidido a dejarnos con la boca abierta cada poco tiempo, y lo cierto es que lo están consiguiendo. Desde empresas específicas del sector como OpenAI hasta grandes tecnológicas como Google, en estos tiempos hemos visto como las inteligencias artificiales han aprendido a hacer de todo, desde escribir un texto sobre un tema concreto que indiquemos nosotros, hasta reescalar imágenes de juegos en tiempo real para mejorar la experiencia de juego.
Un área muy interesante de esta evolución de la inteligencia artificial lo encontramos en la generación de imágenes, en algunos casos de manera puramente aleatoria, en otros en base a una descripción facilitada previamente por el usuario. Y en este último grupo podemos encontrar soluciones especializadas en algún tipo de imagen en concreto, como GauGAN2 de NVIDIA o el popular generador de rostros de Google, así como las de propósito general.
Entre estas últimas, hasta ahora la medalla de oro le correspondía al sistema DALL-E de OpenAI, pero esto ha cambiado con la presentación de Imagen, un nuevo sistema diseñado por Google de generación de imágenes a partir de descripciones de texto. Y es que, como podemos ver en la página de presentación del proyecto, algunas de las imágenes generadas por esta inteligencia artificial pueden pasar perfectamente por reales, salvo por el hecho de que al menos una parte de ella reproducen motivos no del todo realistas.
Sí que es importante mencionar, no obstante, que como suele ocurrir siempre en estos casos, Google habrá hecho una selección de los mejores resultados obtenidos, pero podemos suponer que también se han producido algunas salidas no tan efectivas. Además, esto es algo que no podremos comprobar, al menos a corto plazo, ya que Google ha decidido que, al menos de momento, no pondrá Imagen a disposición de los potenciales usuarios/clientes.
En esta muestra puedes comprobar como el resultado de Imagen no siempre es perfecto.
Son dos las razones para ello. La primera es que a la compañía le preocupan los potenciales usos malintencionados de Imagen, desde noticias falsas hasta contenidos de naturaleza sexual ilegales, como el CSAM, Google actúa con bastante sentido común en este punto, pues podemos dar por seguro que dichos usos se producirían casi desde el primer momento en el que esta tecnología pasara a ser accesible para todo el mundo.
La otra, y que también tiene bastante sentido, es que como ocurre prácticamente con todos los datasets masivos empleados para alimentar los procesos de aprendizaje de las inteligencias artificiales, podemos encontrar en los mismos algunos sesgos que deberían ser corregidos. El problema es que realizar un análisis en detalle de dichos datasets es una tarea titánica, que hace palidecer incluso a empresas con el tamaño de Google. Así, en vez de abordarlo de ese modo, el planteamiento es lograr que la propia IA sea capaz de aprender sobre esos sesgos para corregirlos automáticamente.
Personalmente, reconozco que no tengo claro si me parece fascinante o si me da miedo, así que lo más probable es que sea un poco de ambas cosas.