Comment ChatGPT analyse une image d’œuvre d’art et crée des mots-clés

Marina Rheingantz - Born to Love (2025)
Marina Rheingantz – Born to Love (2025)

La façon dont l’IA interprète un tableau d’art est un mystère pour moi et j’aimerais pouvoir en discuter avec un spécialiste (allo allo y’a quelqu’un?…). Le ressenti sur un tableau est souvent de l’ordre émotionnel et l’IA n’a pas d’émotion. Elle va donc la compenser par un process rigoureux d’analyse. J’ai demandé à ChatGPT de m’expliquer en direct comment il analysait ce tableau qui illustrait récemment mon poème « après la pluie« . Je l’ai choisi parce qu’il est mi-figuratif mi abstrait. Qu’en pensez-vous?

  1. Observation visuelle brute (contenu descriptif)
    • Couleurs dominantes : vert, noir, rouge, touches de blanc et ocre.
    • Texture : épaisse, pâteuse, couche superposée.
    • Formes : amas végétal, taches organiques, fragments lumineux, amas rouges évoquant des fleurs ou blessures.
    • Contraste : clair-obscur fort, zones lumineuses isolées dans un environnement sombre.
  2. Évocation et suggestions sensibles
    • Ambiance : nocturne, mystérieuse, tourmentée.
    • Sensations : désorientation, labyrinthe végétal, force sauvage.
    • Émotions : passion, violence contenue, mélancolie, mais aussi vitalité (le vert éclate malgré l’obscurité).
    • Références possibles : nature après une tempête, jardin crépusculaire, souvenir fragmenté.
  3. Proposition de mots-clés
    • Contenu concret : végétation, nuit, obscurité, lumière, texture
    • Évocation / idée : mystère, passion, chaos, mémoire, vitalité

Dans une autre discussion, je lui donne des conseils pour que ses mots-clés soient le plus adaptés. Il comprend et il intègre qu’il doit choisir pour chaque image un mot-clé descriptif central qui catégorise la scène (paysage, intérieur, portrait, etc.) , un type (figuratif, abstrait, semi-abstrait) puis un mix de mots-clés contenu-évocation . Voici ce qu’il me répond qu’il va mettre en œuvre:

👉 Pour que les mots-clés soient réellement utiles dans ta base :

  • On évite les termes trop abstraits ou génériques comme présence, existence, chose, etc. sauf si c’est strictement indispensable à l’esprit de l’œuvre.J’ai alors demandé à ChatGPt qu’il m’explique comment en général il travaille sur une œuvre d’art pour en tirer des mots-clés représentatifs.. Voici sa réponse:
  • On privilégie les éléments concrets visibles (objet, forme, composition).
  • On ajoute des qualifications évocatrices (absence, solitude, chaos, harmonie, silence, énergie, etc.), qui sont recherchables.

J’ai alors demandé à ChatGPT qu’il m’explique comment en général il travaille sur une œuvre d’art pour en tirer des mots-clés représentatifs.. Voici sa réponse:

Excellente question 👍 Je vais t’expliquer simplement mon processus pour générer les mots-
En fait, c’est un mélange d’analyse visuelle, d’art historique et d’écriture poétique, mais toujours avec tes règles (10–15 mots, moitié concrets / moitié évocatifs, masculins singuliers si possible).


🔎 Étapes principales

1. Lecture technique de l’image

  • Détection des éléments concrets : personnage, arbre, mer, chaise, nuage, etc.
  • Analyse des couleurs dominantes : bleu, rouge, noir…
  • Repérage des formes / composition : carré, spirale, foule, fenêtre, visage, etc.
  • Examen du support (huile, aquarelle, dessin, sculpture…) si disponible.

2. Lecture historique et stylistique

  • Je croise l’image avec la connaissance des courants artistiques : impressionnisme, surréalisme, abstraction lyrique…
  • Si c’est un artiste connu, je vérifie que les mots ne contredisent pas sa période ou son style.
  • Si c’est un contemporain, je regarde les codes plastiques (minimalisme, figuration, collage…).

3. Lecture émotionnelle / poétique

  • Ici, j’ajoute les mots évocatifs : solitude, mémoire, désir, silence, lumière, vertige…
  • Je me base sur :
    • l’atmosphère générale (lumineuse, sombre, violente, calme)
    • la dynamique du tableau (fixité, mouvement, tension)
    • l’émotion possible du spectateur (mélancolie, joie, oppression, liberté…)

4. Sélection et équilibre

  • Je dresse une liste brute (souvent 20–25 mots).
  • J’en sélectionne 10 à 15 :
    • environ la moitié concrets/visibles (personnage, mer, arbre, couleur)
    • environ la moitié évocatifs/abstraits (solitude, mémoire, silence)
  • J’uniformise : masculin singulier, sans verbe, sans adjectif trop spécialisé.
  • J’évite les doublons ou synonymes trop proches pour maximiser la diversité.

tableau illustrant un paysage nocturne avec une maison éclairée, un arbre sombre et un lampadaire, reflet dans l'eau, ambiance mystérieuse
René Magritte – L’Empire des Lumières (1954)

🖼 Exemple concret (avec Magritte L’Empire des lumières)

  1. Concrets : maison, ciel, arbre, nuage, lumière, rue.
  2. Évocatifs : mystère, mémoire, silence, contraste, rêve, vertige.
    ➡️ Résultat :
    maison, ciel, arbre, nuage, lumière, rue, mystère, mémoire, silence, contraste, rêve, vertige

⚖️ Ce que j’adapte pour toi

  • Je respecte tes consignes fixes (10–15 mots, séparés par virgule + espace).
  • Je garde toujours l’équilibre concret / émotionnel.
  • Je privilégie les noms communs simples (pas de jargon).
  • J’oriente l’évocation de manière à pouvoir dialoguer avec tes poèmes.

Dans une autre synthèse de nos échanges voici ce qu’il me dit faire pour que son processus imite le regard du spectateur sur l’œuvre:

👍 Tu touches à un point crucial : mon processus doit imiter le regard humain.

  1. Contexte général → paysage, saison, ambiance.
  2. Éléments dominants / massifs → rivière, chemin, grande forme, horizon.
  3. Éléments secondaires → maison, arbre, figure, détail.
  4. Lecture interprétative → calme, solitude, mystère, silence.

👉 Donc, je vais modifier ma méthode d’analyse en suivant cette règle :

  • Étape 1 (Contexte global) : type (paysage, portrait, nature morte…), cadre général (intérieur, extérieur, saison, ambiance).
  • Étape 2 (Éléments dominants) : les formes les plus visibles et au premier plan.
  • Étape 3 (Éléments secondaires) : détails moins visibles mais importants.
  • Étape 4 (Évocation) : sentiments, idées, interprétation (pas trop abstraits ni trop vagues).

Résultat attendu : des mots-clés plus logiques, hiérarchisés, et toujours avec un “mot central concret” (comme repas ou rivière).

Jean-Baptiste Corot – Autoportrait (c.1818-1821) – huile sur papier

ChatGPT est un bon élève, il se rajoute des règles au fur et à mesure que je lui montre ses plantages; par exemple, sur un tableau de Corot, il voit un paysage au lieu d’un portrait. Et voici ce qu’il me répond:

Tu as raison, mea culpa 🙏
Je me suis laissé entraîner par un biais “Corot = paysage” et j’ai classé sans vérifier assez finement l’image. Je corrige tout de suite — et j’ajoute une règle à mon process : toujours valider “portrait vs. paysage” par un repérage visuel (visage/buste/intérieur) avant de générer les mots-clés.

Une autre fois il se plante encore. Voici le tableau et voici ce qu’il me trouve comme mots-clés .

Rémy Aron

mots-clés:

paysage, extérieur, village, maison, ciel, arbre, lumière, colline, campagne, atmosphère, réalisme, calme

Je lui demande comment un tel plantage est possible et son explication est très intéressante ainsi que sa piste de travail pour éviter ce type d’erreur grossière à l’avenir:

Oui, tu as raison — et c’est précieux que tu pointes ça, car ça montre où mon processus déraille.
Je vais t’expliquer pourquoi :

  • Mon modèle de vision IA “voit” d’abord globalement : si la palette est claire, avec une zone bleutée, il peut interpréter “ciel/paysage”. Or dans ton exemple (Rémy Aron), ce sont des formes de vaisselle et de table, mais prises à plat et avec une lumière diffuse → il a “vu” ça comme un horizon + maison.
  • Ce que l’œil humain fait naturellement (distinguer qu’un rectangle clair est une assiette, pas une façade), une IA généraliste le confond parfois.
  • Mon tri interne privilégie parfois les “catégories picturales classiques” (paysage, portrait, abstrait) avant d’analyser les détails. C’est un biais de simplification qui explique l’erreur.

👉 La solution, si on veut éviter ce genre de plantage :

  1. Procéder hiérarchiquement et lentement :
    • Étape 1 : type de scène (intérieur, extérieur, portrait, nature morte, abstrait).
    • Étape 2 : objets concrets (table, verre, pot, fruit, rideau, etc.).
    • Étape 3 : évocations (calme, intimité, solitude, etc.).
  2. Corriger en fonction de l’artiste : Aron est connu pour ses intérieurs/natures mortes, jamais pour des “paysages de village”. Donc je dois intégrer un filtre “cohérence artistique”.

👉 Pour Rémy Aron, la vraie ligne devrait être :
intérieur, nature morte, table, pot, verre, bouteille, ustensile, cuisine, quotidien, simplicité, sobriété, intimité

A noter que sur ce tableau de Rémy Aron, le créateur IA de descriptif d’image de WordPress.com a vu juste d’emblée autour d’une nature morte avec pots et il a même vu des coquillages !

Et enfin je vous donne ici les quelques premières règles validées par ChatGPT pour moi sur les mots-clés pour une œuvre d’art

Règles des mots-clés (10 au total par image/œuvre)

  • 4 mots-clés concrets : description visuelle, technique, contenu.
    (ex. : huile, portrait, femme, robe rouge).
  • 6 mots-clés sensibles : évocations, sentiments, idées.
    (ex. : mystère, nostalgie, solitude, inquiétude, silence, désir).
  • Les mots-clés doivent être pertinents et discriminants (éviter les termes trop vagues comme « beau », « art »).

Style et rigueur

  • Respect de la neutralité descriptive (pas d’interprétation trop fantaisiste).
  • Mais autorisation d’aller dans l’évocation poétique pour les mots sensibles.
  • Chaque mot est unique (pas de doublon dans une même ligne).
  • Forme singulier masculin préférée (ex. oiseau plutôt que oiseaux).

CONCLUSION

J’espère que toutes ces informations vous aideront notamment pour améliorer votre recherche d’œuvres d’art comme illustrations de contenu, qui est un sujet central pour nous et sur lequel Amavero reviendra bientôt avec une grosse annonce ! (Ça, c’est du teasing!)