Réseaux génératifs: Comment les utiliser dans la vision industrielle?

Tiempo de lectura: 8 minutos

Les réseaux génératifs sont un élément fondamental dans le domaine de l’intelligence artificielle et ont fait l’objet d’une grande attention ces dernières années en raison de leur capacité à générer des contenus créatifs et réalistes. Les réseaux génératifs sont des modèles d’apprentissage automatique capables de générer de nouveaux échantillons qui ressemblent à ceux d’un ensemble de données d’apprentissage donné. Contrairement à d’autres approches d’apprentissage automatique qui se concentrent sur la reconnaissance des formes ou la classification, les réseaux génératifs se concentrent sur la création de nouvelles données. L’une des architectures de réseau génératif les plus connues est le Generative Adversarial Network (GAN).

Depuis leur introduction en 2014 par Ian Goodfellow et son équipe de recherche, les Generative Adversarial Networks (GAN), ou réseaux génératifs, ont capté l’attention et l’intérêt de la communauté scientifique et de l’industrie technologique. Dans cet article, nous explorerons en détail ce qu’ils sont, comment ils fonctionnent, les différents types qui existent (tels que les GAN d’images, d’audio et de vidéo) et quelques exemples notables, comme DALL-E. En outre, nous examinerons les diverses utilisations pratiques des GAN dans différents domaines de l’industrie et nous verrons où se dirige l’avenir des réseaux génératifs.

FIGURE 1 : Image générée par DALL-E. OpenAI (2023)

Que sont les réseaux génératifs contradictoires ?

Les GAN sont une nouvelle approche dans le domaine de l’apprentissage automatique qui vous permet de générer un contenu artificiel difficile à distinguer du contenu réel. Essentiellement, il se compose de deux composants principaux : le générateur et le discriminateur. Le générateur crée de nouveaux échantillons de données, tandis que le discriminateur tente de faire la distinction entre les échantillons générés et réels. Contrairement à d’autres approches d’IA, telles que les réseaux de neurones convolutifs (CNN) utilisés pour la reconnaissance ou la classification d’images, les GAN visent principalement à créer du contenu nouveau et inédit.


IMAGE 2. Exemple d’image créée par DALL-E et son invite. 
OpenAI (2023)

Le fonctionnement des GAN

Le générateur et le discriminateur travaillent ensemble dans un processus d’apprentissage itératif. Le premier prend un signal aléatoire, appelé vecteur latent, et l’utilise pour générer un échantillon de données. Le discriminateur, d’autre part, reçoit à la fois des échantillons réels et créés par le générateur et essaie de les classer correctement comme « vrais » ou « faux ». Au fur et à mesure que le générateur améliore sa capacité à tromper le discriminateur, le discriminateur devient également plus apte à détecter les échantillons générés.

Ce processus de concurrence entre le générateur et le discriminateur conduit à l’amélioration continue des deux composants, ce qui se traduit par une création de contenu artificiel de plus en plus réaliste et convaincante. Cette dynamique de jeu à somme nulle est ce qui fait le succès des GAN et les distingue des autres approches d’apprentissage automatique.

FIGURE 3. Schéma d’un réseau GAN. 
Source : ResearchGate (2022)

Types de réseaux génératifs contradictoi

Les GAN ont évolué et ont été appliqués à différents domaines, donnant naissance à plusieurs types spécifiques en fonction du type de contenu généré. Certains des types les plus importants sont les GAN image, audio et vidéo.

Texte : l’objectif ultime des GAN dédiés au texte est de former un générateur capable de créer un texte cohérent, pertinent et d’apparence authentique. Ces réseaux peuvent être utilisés dans diverses applications, telles que la génération automatique de dialogues, la création de résumés de texte ou la création de contenu pour les chatbots.

Image : Ces GAN ont été largement utilisés pour générer des images réalistes de haute qualité, même d’objets qui n’existent pas dans le monde réel.

Audio : Ce type de GAN est utilisé pour générer du contenu audio, comme de la musique ou des voix synthétiques. Grâce à l’apprentissage de modèles dans des ensembles de données audio, les GAN audio peuvent produire des mélodies et des sons réalistes. Ces applications trouvent une utilité dans des domaines tels que la composition musicale et la synthèse vocale.

Vidéo : Les GAN vidéo sont capables de générer des séquences vidéo fluides et réalistes. Ces réseaux peuvent apprendre la distribution des données dans les ensembles vidéo et générer un contenu visuellement cohérent. Un exemple frappant est le projet MidJourney, qui utilise GAN pour créer des transitions fluides et réalistes entre différentes scènes vidéo.

FIGURE 4. Manipulations d’images à l’aide de GAN. 
Source : Ali Jahanjan, Lucy Chai et Phillip Isola. 
MIT 2022.

DALL-E : la révolution artistique

Un exemple frappant est DALL-E, un GAN développé par OpenAI qui peut générer des images à partir de descriptions textuelles (invite). DALL-E a prouvé sa capacité à créer des images étonnantes et originales.

À partir d’une description textuelle, le modèle est capable de combiner des éléments de différentes images et de générer des compositions uniques et surréalistes. Des créatures fantastiques aux paysages oniriques, DALL-E repousse les limites de l’imagination et offre une fenêtre sur un monde visuellement extraordinaire. En plus de cette possibilité de générer des images, vous avez également la possibilité d’étendre une image d’entrée, d’inclure de nouveaux éléments ou de faire des variations sur l’image.

FIGURE 5. Exemple d’image photoréaliste créée avec DALL-E. 
Source : OpenAI (2023)

Génération d’images. Comme nous le voyons sur la figure 4, DALL-E peut générer une image via une entrée de texte (dans ce cas « une photo d’un chiot corgi heureux assis face à l’avant, lumière de studio ».

peinture prolongée. DALL-E peut étendre les images au-delà de leurs extrémités, créant des compositions étendues. Au lieu de simplement compléter une image, DALL-E peut créer une extension cohérente et convaincante de l’image existante.

Peinture. L’inpainting fait référence à la capacité de DALL-E à remplir les parties manquantes ou endommagées d’une image ou même à ajouter de nouveaux éléments. Le modèle peut générer une prédiction de ce à quoi cette zone manquante devrait ressembler en fonction du contexte de l’image. Ceci est réalisé en fournissant une description textuelle de l’image complète et en laissant DALL-E générer une version cohérente et réaliste.

FIGURE 7. Image d’origine et image de sortie de DALL-E. 
Source : OpenAI (2022)

Variantes. DALL-E a la capacité de générer des variations d’une image en fonction des instructions textuelles fournies.

FIGURE 8. Image d’entrée et image avec variations générées par DALL-E. 
Source : OpenAI (2022)

Utilisations pratiques des GAN

Les réseaux génératifs contradictoires ont trouvé des applications dans un large éventail de domaines. Vous trouverez ci-dessous quelques exemples notables de l’utilisation des GAN dans différents domaines.

Art et design graphique :

L’IA générative a révolutionné le monde de l’art et du graphisme. Avec DALL-E, les artistes et les designers peuvent expérimenter des idées innovantes et les traduire en images avant d’investir du temps et des ressources dans la production physique. Cela permet une plus grande liberté créative et l’exploration de concepts qui auraient pu être considérés comme trop risqués ou coûteux à mettre en œuvre. De plus, DALL-E peut aider à générer de l’inspiration et servir d’outil collaboratif pour les créatifs.

Publicité et marketing:

La capacité de l’IA générative à créer un contenu visuellement attrayant et convaincant a eu un impact significatif dans le domaine de la publicité et du marketing. Avec DALL-E, les professionnels de la publicité peuvent générer des images personnalisées de haute qualité qui trouvent un écho auprès de leurs publics cibles. Cela permet une communication plus efficace et une connexion plus profonde avec les consommateurs. De plus, la génération automatisée de contenu visuel peut accélérer les processus de production et réduire les coûts associés.

Conception de mode et de costumes :

Il s’est avéré être un outil précieux dans le domaine de la mode et de la conception de costumes. Les concepteurs peuvent utiliser la technologie pour créer des images de conceptions non encore fabriquées, leur donnant une représentation visuelle réaliste de ce à quoi ressembleraient leurs créations avant la production physique. Cela permet des itérations rapides et une prise de décision plus éclairée dans le processus de conception. De plus, cela peut aider les designers à explorer de nouvelles formes, couleurs et styles, en stimulant leur créativité.

Génération de contenu créatif :

L’IA générative offre de nouvelles possibilités dans la génération de contenu créatif dans divers formats, tels que des images, de la musique et du texte. Par exemple, les écrivains peuvent utiliser DALL-E pour s’inspirer visuellement lorsqu’ils décrivent des décors ou des personnages dans leurs histoires. Les musiciens peuvent expérimenter la création d’arrangements musicaux et de mélodies uniques. Essentiellement, l’IA générative devient un outil d’expansion créative et de collaboration pour les artistes et les créateurs.

Réseaux génératifs dans l’industrie et vision artificielle

L’intelligence artificielle générative (IA générative) a de multiples applications dans l’environnement de vision industrielle industrielle.

Génération d’images réalistes : l’IA générative peut être utilisée pour générer des images synthétiques qui ressemblent à des images réelles. Ceci est particulièrement utile dans les situations où vous devez générer des données d’apprentissage pour les algorithmes de vision industrielle. Par exemple, il peut être utilisé pour générer des images de pièces défectueuses sur une ligne de production pour former un modèle de détection de défauts.

FIGURE 10. Exemple d’utilisation du GAN pour générer des défauts.
Source IEEE (2022)

Amélioration de l’image : l’IA générative peut être utilisée pour améliorer la qualité et la résolution des images capturées par les systèmes de vision industrielle. En appliquant des techniques d’imagerie, il est possible d’obtenir des images plus claires et plus détaillées, ce qui facilite la détection d’objets ou de caractéristiques spécifiques.

FIGURE 11. Exemple d’images améliorées par GAN. 
Source : Valéo (2022)

Simulation de scénarios : l’IA générative peut simuler des scénarios virtuels pour faciliter le développement et les tests de systèmes de vision industrielle. Cela permet de tester des algorithmes et des modèles dans des environnements contrôlés et reproductibles avant de les mettre en œuvre dans des situations réelles. Par exemple, des scènes virtuelles peuvent être générées pour tester les systèmes de détection d’objets dans différentes conditions d’éclairage, arrière-plans ou niveaux de bruit.

Détection améliorée des anomalies : l’IA générative peut être utilisée pour générer des modèles de référence de ce à quoi ressemblent des images normales dans un environnement industriel. Ces modèles sont ensuite comparés à des images en temps réel capturées par des systèmes de vision industrielle pour détecter des anomalies ou des écarts. Ceci est particulièrement utile pour la détection précoce des pannes d’équipement ou de système.

Conclusion

Les réseaux antagonistes génératifs (GAN) stimulent l’innovation dans la vision industrielle industrielle, ouvrant un monde de possibilités dans la génération d’images, l’amélioration de la qualité, la synthèse de données et le transfert de style. De la génération d’images personnalisées et de la visualisation de produits à la détection d’objets et à la génération de contenu multimédia, les GAN transforment la façon dont les entreprises interagissent avec la vision artificielle et exploitent son potentiel dans divers secteurs.

Alors que les technologies GAN continuent d’évoluer et de s’améliorer, nous pouvons nous attendre à des développements encore plus passionnants dans le domaine de la vision industrielle. Ces avancées ont le potentiel de stimuler l’efficacité, la productivité et la créativité dans de nombreuses industries, offrant des avantages tangibles aux entreprises et aux consommateurs. Alors que nous explorons et tirons parti des possibilités des GAN, nous devons garder à l’esprit les défis éthiques et de confidentialité qui peuvent survenir, garantissant une utilisation responsable et éthique de cette puissante technologie.

Écrit par  Arturo Piñeiro , ingénieur d’application de vision chez Bcnvision Group.

Voulez-vous continuer à lire des blogs sur la vision artificielle ? cliquez  ici

Bibliographie

  1. Ouvrez l’IA. https://platform.openai.com/docs/introduction/overview
  2. Une enquête sur les applications de détection de défauts basées sur GAN. https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9930483
  3. DeepStyle : le GAN de la mode. https://towardsdatascience.com/deepstyle-part-2-4ca2ae822ba0
  4. Réseaux antagonistes génératifs : le côté créatif de l’apprentissage automatique. https://www.ionos.es/digitalguide/online-marketing/marketing-para-motores-de-busqueda/generative-adversarial-networks/
  5. Réseaux antagonistes génératifs. https://arxiv.org/abs/1406.2661
  6. Oui, nous GAN : Application de techniques contradictoires pour la conduite autonome. https://arxiv.org/pdf/1902.03442.pdf
  7. Ai photography … et un lauréat controversé. https://www.absolutelyai.com.au/aiphotography
  8. Sur la « dirigeabilité » des réseaux génératifs antagonistes. https://arxiv.org/pdf/1907.07171.pdf
  9. Reconnaissance automatique des cibles pour les images SAR pénétrant dans le feuillage à faible résolution à l’aide de CNN et de GAN. https://www.researchgate.net/publication/349182009_Automatic_Target_Recognition_for_Low_Resolution_Foliage_Penetrating_SAR_Images_Using_CNNs_and_GANs