Une infographie soignée, un alt text générique « image01.jpg » et zéro transcript vidéo. C’est la configuration de la majorité des sites qui se demandent pourquoi ChatGPT ne les cite jamais. La lisibilité machine, pas la qualité visuelle, fait la différence. En 2026, ChatGPT, Gemini et Perplexity traitent les images et les vidéos comme des blocs de données : si le contenu n’est pas extractible en texte, il n’existe pas pour eux.
Pourquoi les IA « voient » vos images différemment de Google Images
Google Images fonctionne depuis des années sur un principe simple : crawler l’image, lire le contexte textuel autour, indexer. Les LLM (grands modèles de langage) qui propulsent ChatGPT Search ou Gemini fonctionnent autrement. Quand ils accèdent à une page web pour générer une réponse, ils parsent le HTML et les images ne leur sont accessibles que via deux canaux : l’alt text et les données structurées.
Une étude SearchVIU d’octobre 2025 a testé si ChatGPT, Claude, Perplexity, Gemini et Google AI Mode extraient le balisage Schema.org (JSON-LD) lors de la phase de génération de réponse. Résultat contre-intuitif : aucun des cinq systèmes testés n’a extrait les données placées exclusivement dans le JSON-LD lors d’un direct fetch. Les IA lisent en priorité le HTML visible. Le structured data joue un rôle différé, via l’index de Google et Bing, pas lors du fetch en temps réel.
La différence pratique avec Google Images est là. Google peut inférer le sujet d’une image à partir du contexte de la page, des pixels via Google Lens ou des liens entrants. Les IA génératives raisonnent en texte : elles ont besoin que vous leur fournissiez la description. Les guides SEO classiques n’ont pas encore tous intégré ce décalage.
L’alt text en 2026 : la règle des 125 caractères est morte
La règle historique « 150 caractères max » venait des lecteurs d’écran. Elle reste utile pour l’accessibilité, mais insuffisante pour les IA.
En 2026, l’alt text est le signal GEO à plus fort levier pour les images, selon les données d’AltText.ai publiées début 2026. Le GEO (Generative Engine Optimization) est l’optimisation du contenu pour les moteurs génératifs, par opposition au SEO classique. ChatGPT, Claude et Perplexity consomment l’alt text directement. Un alt text performant pour les IA n’est pas une description générique (« réunion d’équipe ») mais une phrase qui encode le contexte éditorial : qui, quoi et dans quel cadre.
Exemple concret : pour un schéma qui illustre le flux d’optimisation d’une image WebP, l’alt text « schéma » ou « infographie SEO » ne transmet rien. Un alt text utile aux IA serait : « Flux d’optimisation : conversion JPEG vers WebP via Squoosh, compression lossy 85%, ajout alt text descriptif avant upload WordPress. » C’est extractible et citable.
53,1 % des sites web ont encore au moins une image sans alt text, soit en moyenne plus de 10 images par page invisibles aux crawlers IA (WebAIM Million, 2026). C’est le premier point à corriger et souvent le plus rapide.
Format et performance : WebP, AVIF et le seuil de lisibilité machine
Le format de l’image impacte l’IA d’une façon que peu d’articles documentent. Quand une image est trop compressée avec des artefacts lossy importants, les tokens visuels générés par le modèle deviennent bruités. Le modèle peut alors halluciner des détails, décrire des objets ou du texte qui n’existent pas réellement dans l’image. C’est particulièrement critique pour les infographies avec du texte embarqué.
WebP reste le standard de 2026 pour la majorité des images : 25 à 35 % plus léger que le JPEG à qualité équivalente, supporté nativement par tous les navigateurs modernes. AVIF offre des gains encore supérieurs (50 à 70 % sous le JPEG selon plusieurs benchmarks indépendants) mais la compatibilité navigateur reste à vérifier selon votre cible.
Le seuil pratique pour la lisibilité IA : ne pas descendre sous une qualité lossy de 75-80 % pour les images contenant du texte (infographies, captures d’écran annotées, schémas). En dessous, le risque d’artefacts dégradant l’OCR interne du modèle augmente. Pour les photos sans texte, 65-70 % suffisent.
Structurer les images avec Schema.org : ImageObject et son entourage
Le balisage Schema.org est utile pour les images qui visent la citabilité dans les IA. Le JSON-LD est le standard sur lequel s’appuient Google, Bing, Perplexity et ChatGPT pour extraire des signaux structurés (StackMatrix, 2026).
Pour une image, le minimum viable en Schema.org est le type ImageObject avec les propriétés suivantes :
contentUrl: l’URL absolue de l’imagedescription: description longue (100-200 caractères), différente de l’alt text, où vous développez le contexte éditorialname: nom de l’image, cohérent avec le sujet de la pageauthor: entité auteur (votre site, un photographe), signal d’autoritédatePublished: date de création, utile pour les images de données ou statistiqueslicense: URL de la licence (Creative Commons, usage propre). Google et Gemini utilisent ce champ dans leurs filtres d’images.
Imbriquer l’ImageObject dans le schema de la page (WebPage ou Article) via la propriété image lui donne plus de poids sémantique qu’un objet isolé flottant dans le HTML.
Vidéos : le transcript est la seule chose qui compte pour les IA
Les IA génératives sont des modèles de langage. Une vidéo sans transcript est une boîte noire pour elles, peu importe la qualité de production, la durée ou le nombre de vues. Les captions automatiques YouTube ne suffisent pas non plus : elles contiennent des erreurs, manquent de ponctuation et ne sont pas accessibles via le schema VideoObject standard.
« Le transcript est la propriété la plus précieuse du VideoObject pour les citations IA : il rend le contenu parlé cherchable et citable. », aeo-expert.nl, analyse du schema VideoObject, 2025
Le schema VideoObject avec la propriété transcript donne aux IA la matière pour vous citer directement. Les tests confirment que ChatGPT et Gemini accèdent à ce champ lors de la génération de réponses sur des sujets couverts par vos vidéos. Un transcript propre, découpé en paragraphes thématiques et associé à un VideoObject complet, modifie concrètement la probabilité d’apparition dans une réponse IA.
Les propriétés VideoObject prioritaires pour la visibilité IA :
transcript: texte complet de la vidéo (propriété la plus impactante)description: résumé dense de 200-300 caractères avec les entités clésthumbnailUrl: URL absolue de la vignette, optimisée avec son propre ImageObjectuploadDate: date ISO 8601duration: format PT[minutes]M[secondes]S (ex : PT12M30S)embedUrl: URL d’embed directe
Les sites qui ont implémenté structured data et blocs FAQ ont enregistré une hausse de 44 % des citations dans les IA, d’après une étude BrightEdge, sans changer le contenu textuel des pages.
Ce que Gemini traite différemment de ChatGPT
Gemini et ChatGPT ne fonctionnent pas de la même façon sur le traitement des visuels. Gemini, intégré à l’écosystème Google, a un accès natif à Google Lens et aux signaux Google Images. Il peut interpréter les pixels d’une image directement lors d’une recherche, pas seulement lire les métadonnées. ChatGPT Search reste plus dépendant du texte extrait autour de l’image.
Pour Gemini, les leviers supplémentaires qui jouent :
- La cohérence entre le nom de fichier (ex :
optimisation-image-webp-alt-text.webp), l’alt text et lenamedu schema. Gemini croise ces signaux. - Le texte embarqué dans l’image lui-même : Gemini utilise l’OCR pour lire le texte visible sur les infographies. Un titre d’infographie lisible dans le fichier image améliore la probabilité de citation.
- La réputation du domaine dans Google Search et dans les AI Overviews : Gemini est construit sur les données Google, donc l’autorité SEO classique (E-E-A-T, backlinks, ancienneté) reste un facteur d’amplification.
ChatGPT cite en moyenne 5 sources par réponse et le fait dans 96 % des cas. Gemini cite dans 82 % des réponses mais avec une moyenne de 8 sources (Similarweb, janvier 2026). Pour ChatGPT, il faut être dans le top des sources lisibles et cliqueuses. Pour Gemini, une présence dans plusieurs pages thématiquement reliées augmente les chances d’apparaître parmi ses 8 citations.
Les erreurs courantes qui rendent vos visuels invisibles
Ces pièges reviennent régulièrement sur les sites qui se demandent pourquoi leurs images ne remontent pas dans les IA.
Alt texts en doublon. WordPress copie souvent le titre de la pièce jointe dans le champ alt text. Résultat : 40 images avec le même alt text « logo-header ». Les IA traitent ça comme du spam de métadonnées et ignorent la série.
Transcript YouTube non transféré. Si votre vidéo est sur YouTube et que vous avez un embed sur votre page, le transcript doit être ajouté manuellement dans votre VideoObject. YouTube ne l’expose pas dans le schema de votre page automatiquement.
Compression agressive sur les infographies de données. Une infographie avec des chiffres compressée à JPEG 60 % génère des artefacts qui dégradent la lisibilité OCR. Gardez les infographies textuelles en PNG ou WebP lossless.
Nom de fichier par défaut. « DSC_4821.jpg » ou « image-3.png » ne transmettent aucune information sémantique. Renommer en kebab-case descriptif avant upload est une opération de 10 secondes par image qui change le signal envoyé aux crawlers IA.
VideoObject sans transcript sur des vidéos longues. Si votre vidéo dure 20 minutes et couvre un sujet que vos concurrents traitent en texte, l’absence de transcript vous exclut mécaniquement de toute citation IA sur ce sujet.
L’impact de ces erreurs est cumulatif. Un alt text générique, un VideoObject sans transcript, un JSON-LD incomplet : trois signaux négatifs qui s’additionnent. L’inverse est aussi vrai.
Le SEO visuel n’a pas changé de règles. C’est la couche qui décide de ce qui mérite d’être cité qui a changé.
