Redes Generativas: ¿Cómo usarlas en la industria y en visión artificial?

Tiempo de lectura: 8 minutos

Las redes generativas son un componente fundamental dentro del campo de la inteligencia artificial y han ganado una gran atención en los últimos años debido a sus capacidades para generar contenido creativo y realista. Estas redes generativas son modelos de aprendizaje automático que pueden generar nuevas muestras que se asemejan a las muestras de un conjunto de datos de entrenamiento dado. A diferencia de otros enfoques de aprendizaje automático que se centran en el reconocimiento de patrones o clasificación, las redes generativas se enfocan en la creación de nuevos datos. Una de las arquitecturas más conocidas de redes generativas es la Red Generativa Adversaria (GAN).

Las Generative Adversarial Networks (GAN) o redes generativas desde su introducción en 2014 por Ian Goodfellow y su equipo de investigación, han capturado la atención y el interés de la comunidad científica y la industria tecnológica. En este artículo, exploraremos en detalle qué son, cómo funcionan, los diferentes tipos que existen (como las GAN de imagen, audio y video) y algún ejemplo notable, como DALL-E. Además, analizaremos los diversos usos prácticos de las GAN en diferentes campos de la industria y veremos hacia donde apunta el futuro de las redes generativas.

FIGURA 1. Imágen generada por DALL-E. OpenAI (2023)

¿Qué son las Redes Generativas Adversarias?

Las GAN son un enfoque novedoso en el campo del aprendizaje automático que permite generar contenido artificial que es difícil de distinguir del contenido real. En esencia, consta de dos componentes principales: el generador y el discriminador. El generador crea nuevas muestras de datos, mientras que el discriminador intenta distinguir entre las muestras generadas y las reales. A diferencia de otros enfoques de IA, como las redes neuronales convolucionales (CNN) utilizadas para clasificación o reconocimiento de imágenes, las GAN tienen como objetivo principal crear contenido nuevo e inédito.

An Abstract paiting of artificial intelligence
IMAGEN 2. Ejemplo de imagen creada por DALL-E y su prompt. OpenAI(2023)

El funcionamiento de las GAN

El generador y el discriminador trabajan en conjunto en un proceso de aprendizaje iterativo. El primero toma una señal aleatoria, llamada vector latente, y la utiliza para generar una muestra de datos. El discriminador, por otro lado, recibe tanto muestras reales como creadas por el generador y trata de clasificarlas correctamente como «real» o «falsa». A medida que el generador mejora en su capacidad para engañar al discriminador, el discriminador también se vuelve más hábil en la detección de muestras generadas.

Este proceso de competencia entre el generador y el discriminador conduce a la mejora continua de ambos componentes, lo que resulta en una creación de contenido artificial cada vez más realista y convincente. Esta dinámica de juego de suma cero es lo que impulsa el éxito de las GAN y las distingue de otros enfoques de aprendizaje automático.


FIGURA 3. Esquema de una red GAN. Fuente: ResearchGate (2022)

Tipos de Redes Generativas Adversariales

Las GAN han evolucionado y se han aplicado a diferentes dominios, dando lugar a varios tipos específicos según el tipo de contenido que se genere. Algunos de los tipos más destacados son las GAN de imagen, audio y video.

Texto: El objetivo final de las GAN dedicadas al texto es entrenar un generador que pueda crear texto que sea coherente, relevante y de apariencia auténtica. Estas redes pueden utilizarse en diversas aplicaciones, como la generación automática de diálogos, la creación de resúmenes de texto o la realización de contenido para chatbots.

Imagen: Estas GAN se han utilizado ampliamente para generar imágenes realistas y de alta calidad, incluso de objetos que no existen en el mundo real.

Audio: Este tipo de GAN se utiliza para generar contenido de audio, como música o voces sintéticas. A través del aprendizaje de patrones en conjuntos de datos de audio, las GAN de audio pueden producir melodías y sonidos realistas. Estas aplicaciones encuentran utilidad en campos como la composición musical y la síntesis de voz.

Vídeo: Las GAN de video son capaces de generar secuencias de video realistas y fluidas. Estas redes pueden aprender la distribución de datos en conjuntos de videos y generar contenido visualmente coherente. Un ejemplo destacado es el proyecto MidJourney, que utiliza GAN para crear transiciones suaves y realistas entre diferentes escenas de video.

Manipulaciones de imágenes empleando GAN.
FIGURA 4. Manipulaciones de imágenes empleando GAN. Fuente: Ali Jahanjan, Lucy Chai & Phillip Isola. MIT 2022.

DALL-E: La revolución artística

Un ejemplo destacado es DALL-E, una GAN desarrollada por OpenAI que puede generar imágenes a partir de descripciones de texto (prompt). DALL-E ha demostrado su capacidad para crear imágenes sorprendentes y originales.

A partir de una descripción textual, el modelo es capaz de combinar elementos de diferentes imágenes y generar composiciones únicas y surrealistas. Desde criaturas fantásticas hasta paisajes oníricos, DALL-E desafía los límites de la imaginación y ofrece una ventana a un mundo visualmente extraordinario. Además de esta capacidad para generar imágenes, también tiene la posibilidad de extender una imagen de entrada, incluir elementos nuevos o hacer variaciones sobre la imagen.

Generación de imágenes. Como vemos en la figura 4, DALL-E puede generar una imagen a través de una entrada de texto (en este caso “una foto de un cachorro de corgi contento sentado mirando al frente, luz de estudio”.

Pintura extendida. DALL-E puede expandir imágenes más allá de sus extremos, creando composiciones extendidas. En lugar de simplemente completar una imagen, DALL-E puede crear una extensión coherente y convincente de la imagen existente.

Inpainting. El inpainting se refiere a la capacidad de DALL-E de completar partes faltantes o dañadas de una imagen o incluso agregar nuevos elementos. El modelo puede generar una predicción de cómo debería ser esa área faltante en base al contexto de la imagen. Esto se logra al proporcionar una descripción textual de la imagen completa y dejar que DALL-E genere una versión coherente y realista.

inpainting
FIGURA 7. Imagen original e imagen de salida de DALL-E. Fuente: OpenAI (2022)

Variaciones. DALL-E tiene la capacidad de generar variaciones de una imagen en función de las instrucciones textuales proporcionadas.

Imagen de entrada e imagen con variaciones generadas por DALL-E.
FIGURA 8. Imagen de entrada e imagen con variaciones generadas por DALL-E. Fuente: OpenAI (2022)

Usos prácticos de las GAN

Las Redes Generativas Adversariales han encontrado aplicaciones en una amplia gama de campos. A continuación, se presentan algunos ejemplos notables de uso de las GAN en distintos campos.

Arte y Diseño Gráfico:

La IA generativa ha revolucionado el mundo del arte y el diseño gráfico. Con DALL-E, los artistas y diseñadores pueden experimentar con ideas innovadoras y plasmarlas en imágenes antes de invertir tiempo y recursos en la producción física. Esto permite una mayor libertad creativa y la exploración de conceptos que podrían haber sido considerados demasiado arriesgados o costosos de implementar. Además, DALL-E puede ayudar a generar inspiración y servir como una herramienta colaborativa para los creativos.

Publicidad y Marketing:

La capacidad de la IA generativa para crear contenido visualmente atractivo y llamativo ha tenido un impacto significativo en el campo de la publicidad y el marketing. Con DALL-E, los profesionales de la publicidad pueden generar imágenes personalizadas y de alta calidad que resuenan con sus audiencias objetivo. Esto permite una comunicación más efectiva y una conexión más profunda con los consumidores. Además, la generación automatizada de contenido visual puede acelerar los procesos de producción y reducir los costos asociados.

Moda y Diseño de Vestuario:

Ha demostrado ser una herramienta valiosa en el ámbito de la moda y el diseño de vestuario. Los diseñadores pueden utilizar la tecnología para crear imágenes de diseños aún no fabricados, lo que les brinda una representación visual realista de cómo lucirían sus creaciones antes de la producción física. Esto permite iteraciones rápidas y una toma de decisiones más informada en el proceso de diseño. Además, puede ayudar a los diseñadores a explorar nuevas formas, colores y estilos, estimulando su creatividad.

Generación de Contenido Creativo:

La IA generativa, ofrece nuevas posibilidades en la generación de contenido creativo en varios formatos, como imágenes, música y texto. Por ejemplo, los escritores pueden utilizar DALL-E para obtener inspiración visual al describir escenarios o personajes en sus historias. Los músicos pueden experimentar con la generación de melodías y arreglos musicales únicos. En esencia, la IA generativa se convierte en una herramienta colaborativa y de expansión creativa para artistas y creadores.

Redes generativas en industria y visión artificial

La inteligencia artificial generativa (IA generativa) tiene múltiples aplicaciones en el entorno de la visión artificial industrial.

Generación de imágenes realistas: La IA generativa puede utilizarse para generar imágenes sintéticas que se asemejen a las imágenes reales. Esto es especialmente útil en situaciones donde se necesita generar datos de entrenamiento para algoritmos de visión artificial. Por ejemplo, se puede utilizar para generar imágenes de piezas defectuosas en una línea de producción para entrenar un modelo de detección de defectos.

Ejemplo de uso de GAN para generación de defectos en diferentes materiales.
FIGURA 10. Ejemplo de uso de GAN para generación de defectos. Fuente IEEE (2022)

Mejora de imágenes: La IA generativa puede utilizarse para mejorar la calidad y resolución de las imágenes capturadas por sistemas de visión artificial. Al aplicar técnicas de generación de imágenes, es posible obtener imágenes más claras y detalladas, lo que facilita la detección de objetos o características específicas.

Simulación de escenarios: La IA generativa puede simular escenarios virtuales para ayudar en el desarrollo y prueba de sistemas de visión artificial. Esto permite probar algoritmos y modelos en entornos controlados y reproducibles antes de implementarlos en situaciones reales. Por ejemplo, se pueden generar escenas virtuales para probar sistemas de detección de objetos en diferentes condiciones de iluminación, fondos o niveles de ruido.

Mejora de la detección de anomalías: La IA generativa puede ser utilizada para generar modelos de referencia de cómo se ven las imágenes normales en un entorno industrial. Luego, estos modelos se comparan con las imágenes en tiempo real capturadas por sistemas de visión artificial para detectar anomalías o desviaciones. Esto es especialmente útil en la detección temprana de fallas en equipos o sistemas.

Conclusión

Las Redes Generativas Adversariales (GAN) están impulsando la innovación en la visión artificial industrial, abriendo un mundo de posibilidades en la generación de imágenes, mejora de calidad, sintetización de datos y transferencia de estilos. Desde la generación de imágenes personalizadas y la visualización de productos hasta la detección de objetos y la generación de contenido multimedia, las GAN están transformando la forma en que las empresas interactúan con la visión artificial y aprovechan su potencial en diversas industrias.

A medida que las tecnologías de las GAN continúan evolucionando y mejorando, podemos esperar avances aún más emocionantes en el campo de la visión artificial industrial. Estos avances tienen el potencial de impulsar la eficiencia, la productividad y la creatividad en numerosos sectores, brindando beneficios tangibles tanto para las empresas como para los consumidores. A medida que exploramos y aprovechamos las posibilidades de las GAN, debemos tener en cuenta los desafíos éticos y de privacidad que pueden surgir, asegurando un uso responsable y ético de esta poderosa tecnología.

Escrito por Arturo Piñeiro, Vision Application Engineer en Grupo Bcnvision.

¿Quieres seguir leyendo blogs sobre visión artificial? haz clic aquí

Bibliografía

  1. OpenAI. https://platform.openai.com/docs/introduction/overview
  2. A Survey of Defect Detection Applications Based on GAN. https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9930483
  3. DeepStyle: The Fashion GAN. https://towardsdatascience.com/deepstyle-part-2-4ca2ae822ba0
  4. Generative Adversarial Networks: el lado creativo del machine learning. https://www.ionos.es/digitalguide/online-marketing/marketing-para-motores-de-busqueda/generative-adversarial-networks/
  5. Generative Adversarial Networks. https://arxiv.org/abs/1406.2661
  6. Yes, we GAN: Applying Adversarial Techniques for Autonomous Driving. https://arxiv.org/pdf/1902.03442.pdf
  7. Ai photography …and a controversial award-winner. https://www.absolutelyai.com.au/aiphotography
  8. On the “steerability” of generative adversarial networks. https://arxiv.org/pdf/1907.07171.pdf
  9. Automatic Target Recognition for Low Resolution FoliagePenetrating SAR Images Using CNNs and GANs. https://www.researchgate.net/publication/349182009_Automatic_Target_Recognition_for_Low_Resolution_Foliage_Penetrating_SAR_Images_Using_CNNs_and_GANs