Votre site est invisible aux IA — et vous ne le savez pas

Il y a une différence entre un site que Google peut indexer et un site qu'un LLM peut lire.

Google envoie un crawler qui récupère le HTML, suit les liens, mémorise les balises. C'est un mécanisme bien documenté depuis vingt ans. Des milliers d'outils l'auditent, des millions de développeurs l'optimisent.

Les LLM, eux, fonctionnent différemment. Quand un modèle va chercher une information sur votre site, il ne navigue pas. Il scanne. Il extrait du texte. Il cherche du sens structuré. Et si ce qu'il trouve est opaque, fragmenté, noyé dans du JavaScript ou du HTML mal balisé, il passe à autre chose.

Le résultat : des sites parfaitement optimisés pour Google, bien rankés, bien chargés, avec un score Core Web Vitals vert, qui sont quasiment inexistants du point de vue des LLM.

Ce que "lisible pour une IA" veut dire vraiment

Ce n'est pas une question de performances techniques. Ce n'est pas non plus une question de meta-descriptions ou de balises alt.

La lisibilité IA, c'est la capacité du contenu d'une page à être extrait, compris et mobilisé par un modèle de langage dans une réponse à un utilisateur.

Ça commence par une question basique : si vous retirez tout le JavaScript de votre page et que vous ne gardez que le HTML brut, que reste-t-il comme texte lisible ? Sur beaucoup de sites e-commerce ou SaaS modernes, la réponse est peu de choses. Le contenu principal est rendu dynamiquement. Les descriptions sont cachées derrière des accordéons. Les avis clients arrivent via une API tierce. Les prix s'affichent après un appel JavaScript.

Pour un LLM, tout ça n'existe pas.

Les angles morts les plus fréquents

Le premier angle mort, c'est le contenu en JavaScript. Un LLM qui scanne une page produit et ne trouve qu'un squelette HTML vide parce que tout le contenu est rendu côté client va tout simplement ignorer la page. Les frameworks frontend modernes sont formidables pour l'expérience utilisateur. Pour la lisibilité LLM, c'est souvent une catastrophe.

Le deuxième, c'est la structure invisible. Un contenu dense mais sans hiérarchie claire, sans titres bien positionnés, sans logique de progression lisible en diagonal — un LLM a du mal à l'exploiter. Il ne lit pas comme un humain. Il cherche des signaux de structure pour savoir ce qui est important.

Le troisième, c'est le markdown inexistant. Les LLM traitent nativement le markdown. Un contenu en markdown bien structuré est plus facilement traitable qu'un contenu équivalent en HTML riche. Pour les pages stratégiques d'un site — pages produit, pages de comparaison, guides d'achat — avoir une version markdown accessible est un avantage direct.

Le quatrième, c'est le robots.txt mal calibré. Bloquer certains bots dans robots.txt sans réaliser que ce sont précisément les crawlers des LLM. GPTBot, ClaudeBot, Googlebot AI Mode, PerplexityBot — autant d'agents qui peuvent se retrouver bloqués par des règles de robots.txt copiées-collées depuis des templates qui datent d'avant leur existence.

L'audit de lisibilité IA en pratique

L'audit commence par un test simple : accéder à chacune de vos pages stratégiques via un navigateur en mode texte seul, ou via un scraper sans JavaScript, et observer ce qui reste. C'est souvent révélateur.

Ensuite, vérifier la cohérence entre robots.txt et la stratégie GEO. Si certains crawlers sont bloqués, est-ce intentionnel ? Si c'est intentionnel, quels LLM en sont affectés ? L'impact sur la visibilité est-il accepté ?

Vérifier l'état du llms.txt. Est-il présent ? Est-il cohérent avec le contenu réel du site ? Pointe-t-il vers les bonnes pages ?

Analyser la densité informationnelle des pages clés. Une fiche produit, une page de comparaison, une page pricing — sont-elles rédigées avec suffisamment de substance textuelle pour qu'un LLM puisse en extraire quelque chose d'utile ?

Vurto propose un outil dédié à ce diagnostic : une vérification de la lisibilité IA du site, page par page, qui identifie les blocages techniques, les contenus invisibles au crawl, les incohérences robots.txt/llms.txt, et les pages à prioriser pour la réécriture ou la restructuration. C'est souvent le premier outil que les équipes web ouvrent quand elles commencent à travailler sur leur GEO.

Ce que ça change pour les équipes techniques

Le GEO n'est pas qu'un sujet marketing. Il a des implications techniques directes.

Server-side rendering ou hydratation partielle côté serveur pour les contenus stratégiques. Fichiers markdown statiques pour les pages produit ou les guides. Audit des règles robots.txt pour vérifier l'accès des crawlers LLM. Mise en place du llms.txt. Données structurées Schema.org à jour et cohérentes.

Aucune de ces actions n'est compliquée. Mais elles demandent une coordination entre équipes SEO, tech et contenu qui n'existe pas encore dans la plupart des organisations.

Le problème n'est pas technique. Le problème est que personne n'a encore clairement posé la question : est-ce que nos pages stratégiques sont lisibles pour les LLM ? Et dans la grande majorité des cas, la réponse honnête serait non, pas vraiment.

Vurto vérifie la lisibilité IA de votre site : contenus invisibles au crawl, robots.txt, llms.txt, structure des pages stratégiques.