Ces réseaux neuronaux vous ont compris, le projet OpenAI

Du nouveau du côté d’un projet dont on a déjà parlé dans le WID n°2106, l’année dernière. Nous relayions les avancées en matière de réseaux de neurones de la société OpenAI (à relire ici).

Nous vous proposons, un article complet, à l’occasion de la présentation de leur nouveau projet baptisé Glide.

Génèse du projet OpenAI

OpenAI est une société a “but lucratif plafonné” basée à San Francisco, dont l’objectif est de promouvoir et développer une intelligence artificielle à visage humain qui bénéficiera à toute l’humanité. Rien que ça. 

Jusqu’ici, l’équipe projet a créé plusieurs modèles neuronaux. Leur crédo est d’associer des technologies de reconnaissance de texte et des technologies de reconnaissances d’image.  L’objectif est qu’une seule et même IA puisse mieux comprendre le mécanisme du langage. 

La gymnastique : comprendre un texte> se le représenter> produire une image. Ce processus, votre cerveau le fait sans effort. Pour une machine, il y a toute une logique de programmation à mettre sur pied.

Si je vous dis de ne pas imaginer une pomme. Bon courage. Votre esprit est déjà en train de décomposer, d’interpréter et d’aller fouiller dans sa mémoire pour obtenir l’image de l’objet qu’on connait tous en tant que “pomme”. Instantanément. Vous venez de finir de lire cette phrase que je vois votre pomme d’ici.

Ouloulou la belle Poooomme (l’artiste, pas le fruit), vous l’avez ?

Le hic, c’est que sans le contexte, le même mot peut prendre plusieurs sens. Un peu comme avec notre mauvais exemple ou il faut séparer le fruit de l’artiste.

Pour les équipes d’OpenAI, le but poursuivi est toujours le même : réussir à « cracker le langage naturel” pour la machine. Ce langage qui est rempli de sous-entendus, de nuances et d’allusions très difficiles à identifier pour un ordinateur.

Un modèle neuronal par marche à gravir

Deux modèles neuronaux avaient étés développés jusqu’ici :  

  • Dall.E : capable de créer des images à partir de sa compréhension du texte 
  • CLIP : qui permet de reconnaître une image en fonction de sa description, donc de plusieurs mots – qui va rendre obsolète ces chers captchas images

Selon la scientifique en chef de l’équipe “à long terme, on aura des modèles capables de comprendre en même temps le texte et l’image. L’IA sera capable de mieux comprendre le langage parce qu’elle sera capable de visualiser un mot ou une phrase.”

Les résultats sont quand même très encourageants et impressionnants comme avec l’exemple de cette chaise avocat. Les propositions sont produites par Dall.e.

Plusieurs interprétations visuelles du modèle neuronal Dall.e à partir de la phrase : “an armchair in the shape of an avocado”

2022, une nouvelle étape

Cette année OpenAI nous présente le projet Glide (Guided Language-to-Image Diffusion for Generation and Editing). Une évolution de Dall.e qui améliore la création d’images à partir d’une phrase, grâce à une meilleure compréhension du contexte de l’image

La nouveauté : une meilleure intégration de plusieurs objets entre eux et la capacité à ajouter du détail (comme des reflets) pour donner la sensation d’une vraie image unique

Regardez donc ces exemples qui sont vraiment étonnants : 

Galerie de plusieurs essais de rendu produits par le réseau de neurones Glide. Par exemple : “La peinture d’un renard dans un style nuit étoilée” assez impressionnant puisqu’on dirait vraiment une œuvre originale.

On voit bien que les productions des enfants de maternelle ont du souci à se faire quand on regarde le modèle “un ascenseur spatial au dessin au crayon”. 

Ce qu’il faut retenir c’est la qualité de la proposition. Quand on regarde cette galerie, on s’aperçoit que la 3e voie, produite par Glide à chaque fois, est vraiment réaliste. 

En fait, si on sortait n’importe quelle image de cet article, on ne se poserait aucune question.

Modifier une image existante

Mais ce n’est pas tout, Glide, et c’est une nouveauté, peut aussi modifier une image existante. Toujours en prenant en compte le contexte global, il peut remplacer une partie de la photo. La, ça devient bluffant.

Ici, une photo d’un tableau ancien représentant une petite fille enlaçant un chien. L’IA a remplacé ce qui semble être un épagneul breton (grosse culture chien au lab) par un Corgi.

Donc pour cet exemple, Glide a identifié qu’il y avait une petite fille et un chien. Il remplace le chien par le Corgi, le tout, en restant le plus possible dans le style existant. Pour le bras ajouté en revanche… bon… la retouche est assez peu naturelle, il est vrai.

La même image de petite fille au chien avec des modifications sur le fond (sélection du fond, puis intégration d’un feu dans le fond de l’image).

Sur l’exemple qui suit, on demande d’ajouter un vase avec des fleurs dans la zone du carré en vert. Regardez bien le décor que le carré vert couvre. 

Image de gauche : eh bien, Glide comprend qu’il y a des fauteuils et une table basse en verre tout seul (comme notre âme de graphiste).

Image de droite : le programme ajoute un vase, tout en prenant en compte la perspective et le reflet de la table basse. Par contre, il rogne les accoudoirs des deux fauteuils (on ne sait pas trop pourquoi, le challenge ?), et il a aussi retiré la table du fond.

Si vous voulez en savoir plus, vous trouverez ici le compte rendu et le code sources sur Github

Rêver les perspectives

En dehors de toute question relative à la législation ou au droit en matière d’image, au Lab 303, les évolutions de ces IA nous laissent rêveurs. On ne peut pas s’empêcher d’imaginer les applications que cette technologie pourrait apporter, en termes d’aide à la retouche d’image, mais en termes d’usages surtout. 

On pense à ceux d’entre nous dont le talent de dessinateur se résume à un rond et quelque trait pour dessiner un personnage, en priorité (on vous reconnait…). 

Mais surtout, avec ce genre d’IA il n’y aura plus de barrières pour exprimer ses idées ou pour représenter facilement un concept important. Imaginez pouvoir aligner tout le monde en réunion facilement grâce à une image ou une animation que vous pourrez créer juste à la voix. 

Plus d’articles ?