Cela peut arriver en tant que “surfeur du web” que nous atterrissions sur une page blanche, sans contenu, voire au mieux avec un message d’erreur. C’est ce qu’on appelle une erreur HTTP 404 “not found ” en Anglais, que l’on peut traduire cavalièrement par “non trouvé”.
Mais si vous lisez cet article, c’est que vous n’êtes pas qu’internaute. Vous êtes sûrement responsable SEO et plus largement responsable de plateformes web (un site internet en bref).
Une soft 404 peut effectivement avoir un impact sur vos positionnements sur les moteurs de recherche , le traffic sur votre site et plus largement sur l’appréciation que les internautes auront de votre plateforme .
Pour bien comprendre ce qu’est une erreur soft 404, je vais rappeler rapidement comment une erreur 404 “normale” se produit :
L’internaute clique sur un lien ; Le navigateur de l’internaute, envoie une requête au serveur correspondant au domaine de l’URL requise ; Le serveur cherche parmi ses documents (les pages pour simplifier), celui qui correspond à l’URL demandée - au slug pour être précis -. ; En quelques dizaines de millisecondes, le serveur ne trouve pas ce document. Il renvoie alors au navigateur de l'internaute une réponse HTTP 404, signe que le document n’a pas été trouvé. C’est quoi une Soft 404 ? C’est justement pour comprendre cela que j’ai rappelé le processus ci-dessus. Comme je l’expliquais, le serveur renvoie une réponse HTTP 404.
Néanmoins, dans le cas d’une soft 404, certains sites internets vont renvoyer une page dite “404” mais avec une erreur HTTP 200. Le code 200 signifiant “OK”, en d’autres termes “j’ai bien trouvé la page souhaitée”.
Techniquement pour les robots d’exploration (les crawlers ), la page servie correspond à la page demandée puisque le code HTTP associé est 200 et non 404.
Quelle différence entre une erreur 404 et une soft 404 ? Toute la différence est donc là :
Une “vraie” erreur 404 renvoie un code HTTP 404 “page not found ” à la fois au robot d’exploration (crawler ) du moteur de recherche ainsi qu’un message type “Nous n’avons pas trouvé votre page” à l’utilisateur ; Une soft 404 renvoie un code HTTP 200 “OK” au crawler lui donnant ainsi l’autorisation d’explorer , et affichera un contenu à l’utilisateur. Mon utilisation ici du terme “contenu” est importante et vous allez le comprendre plus tard dans l’article. Donc la différence est technique.
Il est important de noter que l’erreur soft 404 n’existe pas officiellement puisque c’est d’ailleurs une 200. C’est une expression qui fût utilisée la première fois en 2004 dans un article intitulé Sic transit gloria telae: towards an understanding of the web's decay .
Yahoo et Google étaient d’ailleurs les premiers moteurs de recherche à reprendre et diffuser ce terme de Soft 404. A tel point que si vous lisez cet article, c’est probablement que vous avez vu l’erreur remonter dans votre Google Search Console .
Je trouve d'ailleurs amusant qu'à l'époque, pour détecter les soft 404 de manière automatique, Yahoo générait volontairement de mauvaises URL que ses propres crawlers répondant au doux nom de Slurp tentaient d’explorer. Selon le code renvoyé par le serveur (200 ou 404), le moteur de recherche était capable d’identifier une soft 404.
Une soft 404 a-t-elle un impact sur mon référencement SEO ? Oui cela a un impact même si il est difficile de le mesurer comme toujours en SEO. Si on ne considère que l’impact SEO (et pas l’impact sur l’expérience utilisateur), la soft 404 - tout comme l’erreur 404 - consomme votre crawl budget inutilement.
Petit rappel sur le crawl budget : le “budget d’exploration” - je ne suis même pas sûr que cela se traduise - est un crédit d’actions que Google alloue à ses robots pour explorer votre site. Bien évidemment, ce budget (ou crédit) dépend de plusieurs paramètres tels que :
La popularité de votre domaine ; La fréquence à laquelle vous publiez ou mettez à jour des contenus ; La performance technique de votre site ; Et de nombreux autres paramètres que l’on évoquera dans notre article dédié. Rapide aparté sur la performance technique : j’entends par là, la crawlabilité qu’est notamment un sujet en Javascript SEO, mais aussi la vitesse de réponse de votre serveur, la disponibilité de vos pages, etc.
Pour revenir à nos erreurs soft 404, imaginons que Google soit prêt à dépenser un budget crawl de 1 000 unités d'œuvre (voyez cela comme des actions) pour l’exploration de votre site.
Si à chaque fois que Google se lance dans l’exploration de votre site, pour 1 000 unités d'œuvre il est capable d’explorer 100 pages et sur ces 100 pages 10 d’entre elles sont en soft 404 , alors il a dépensé 10% de ses ressources pour rien. Qui plus est, ce sont peut-être 10 pages viables qui n’auront pas été explorées à cause de ces soft 404.
Sur le moyen terme, il est probable que Google perçoive votre domaine comme étant de moins en moins “qualitatif” (disons correctement maintenu) et donc s’évertue moins à l’explorer pour découvrir de nouveaux contenus ou vos récentes mises à jour. Cela sera d’autant plus vrai si vos concurrents semblent plus propres techniquement.
Google cherche aussi à économiser ses ressources, car l’exploration de milliards de page web coûte cher, donc il favorisera des sites techniquement “propres” et “rapides” à explorer.
L’autre impact des Soft 404 : l’expérience utilisateur Il est important de noter qu’une page en soft 404 est à la fois explorable par les robots d’exploration puisqu’elle renvoie un code HTTP 200, mais elle est aussi indexable dans les moteurs de recherche.
Ainsi, l’expérience d’un internaute atterrissant sur cette page soft 404 en serait d’autant plus déceptive puisque provenant des résultats de recherche, il découvre une page potentiellement sans contenu.
Comment corriger une erreur soft 404 ? Pour corriger une soft 404, il faut d’abord en comprendre l’origine.
Comme expliqué précédemment “Une soft 404 renvoie un code HTTP 200 “OK” au crawler et un contenu à l’utilisateur.“ Mais si le serveur renvoie un code HTTP 200 “OK”, comment les robots d’exploration et les indexers peuvent-ils identifier la page comme une 404 ? Et bien cela s’explique par le contenu. En effet, ce qui est parfois identifié comme une erreur soft 404 peut parfois être une page avec un contenu trop pauvre.
Cas #1 : contenu pauvre Si le contenu d’une de vos pages web est trop pauvre (pas assez de mots, pas de media , peu d’éléments interactifs), les robots d’exploration peuvent interpréter cette page comme une soft 404.
On l’observe notamment pour certains sites qui créent une page par question / réponse de leur FAQ. Cela donne parfois des pages avec des contenus de seulement 50 mots.
Comment corriger ?
Assez simplement :
Ouvrez la page ; Vérifiez le contenu ; Si la page “mérite” d’exister, il faut alors enrichir son contenu et renforcer le maillage interne. A noter toutefois qu’en général, ces pages sont signalées comme détectée, actuellement non indexée voire explorée, actuellement non indexée et non en tant que soft 404.
Cas #2 : contenu absent Une situation probable si vous utilisez un framework en Javascript avec un CMS headless .
Pour faire simple, votre page web est construite à partir de plusieurs composants. Pour une raison technique (erreur de code ou de database ), l'élément principal de votre page web (généralement le rich text component ) n’est pas assemblé.
Ainsi, quand les robots d’exploration accèdent à votre page web, il découvre une page vide ou avec trop peu d’éléments ce qui rejoint la cause #1 de contenu pauvre.
Comment corriger ?
Comme dans le cas précédent, un examen attentif vous aidera à comprendre l’erreur et à la corriger. Cependant, si votre site repose sur un framework en Javascript, je vous recommande la lecture de mon guide sur le Javascript SEO.
Cas #3 : contenu dépublié Un cas rare mais qui relève du problème technique c’est lorsque vous avez effectivement dépublié une page, mais que pour une raison technique de mauvaise configuration, le serveur renvoie quand même un code HTTP 200.
Dans ce cas, mettez en place soit une redirection 301, soit faites en sorte que votre serveur renvoie bien un code HTTP 404.
Cas #4 : page de résultat de recherche interne J’ai déjà vu ça sur des webflows mais aussi sur des sites custom avec un moteur de recherche interne.
Parce que certains rédacteurs ou sites externes mettent des liens vers les pages de résultat de votre moteur interne, Google peut finir par les découvrir et les explorer. Sauf qu’une page de résultats est rarement très fournie en contenus. C’est même souvent une liste d’hyperliens.
Comment corriger ?
Généralement, il n’y a pas de bonnes raisons pour que vous souhaitez que Google explore vos pages de résultats de recherche. Le mieux est donc de s’assurer qu’il n’y accède pas en bloquant leurs accès via le fichier robots.txt.
L’erreur soft 404 dans la Google Search Console finira par disparaître après quelques semaines.
Cas #5 : fausse bonne idée de la redirection vers la homepage en 301 Alors celle-là, ma préférée des soft 404.
Certains d’entre nous ont eu cru pour une obscure raison, qu’une erreur 404 c’est le mal (oui et non, on en parle dans notre article dédié aux erreurs 404). Du coup, ils se sont dit que pour préserver l’expérience utilisateur et peut-être aussi celle des robots d’exploration, il valait mieux rediriger vers la page d’accueil en utilisant une redirection 301.
Sauf que c’est une mauvaise idée. Pourquoi ?
Car je m’arrache les cheveux à comprendre ce que sont ces contenus rediriges en 301 avant de finir par comprendre que ce sont des pages qui ont été supprimées et sont automatiquement redirigées vers la homepage ; Ça ne vous aide pas à identifier les vraies 404 puisqu’elles sont signalées comme des 301 par la plupart des outils d’exploration type Screaming Frog . Heureusement, la Google Search Console ne se laisse pas systématiquement berner ; L’utilisateur qui demande à accéder à un contenu précis et se retrouve sur votre page d’accueil n’a pas compris ce qu’il lui est arrivé. Il vaut mieux lui afficher une vraie page 404 en lui indiquant que le contenu n’a pas été trouvé et lui proposer une barre de recherche ou un lien vers votre blog, votre page d’accueil, ou le formulaire de contact ; Vous ne bernez pas les robots d’exploration puisqu’ils demandent un document avec un slug précis et vous leur servez la homepage . Comment corriger ?
Mettre en place une véritable page 404 qui renvoie bien un code HTTP 404 ; S’assurer que cette page a un contenu interactif dans le sens où ce ne doit pas être une impasse mais une page d’excuses avec un bouton vers votre page d’accueil ou votre blog ; Tester que la nouvelle page 404 fonctionne quand on cherche à accéder à une fausse URL. Alors, par expérience, la fausse bonne idée de mettre en place une redirection 301 vers la homepage quand il y a une requête vers une page inexistante vient des équipes techniques (l’IT en d’autres termes). Il doit y avoir quelque part dans les contenus de formation de nos amis développeurs, un pseudo gourou qui leur a dit de mettre en place une 301.
En tant que professionnel du SEO, vous retrouverez généralement cette erreur sur les projets web sur lesquels vous arrivez quelques mois après l’équipe technique et le go-live .
Cas #6 : votre page 404 renvoie un code HTTP 200 L’erreur bête. Vous avez préparé une très belle page 404 avec une jolie illustration, un beau message plein d’empathie et des liens vers votre page d’accueil ou votre moteur de recherche interne pour ne pas perdre l’utilisateur. Néanmoins, le code HTTP renvoyé est un code 200 et non 404.
Il faut alors retourner dans votre infra (ou auprès de votre équipe technique) et leur indiquer l’erreur pour qu’ils la corrigent.
Comment identifier une soft 404 ? Si vous avez déjà lu mon guide sur la google search console , vous savez déjà tout le bien que je pense de cet outil et que les professionnels, notamment des grands groupes, tendent à ignorer.
Donc, connectez-vous à la Google Search Console, rendez-vous ensuite dans l'onglet Pages accessible depuis la barre latérale. Vous arrivez alors sur le rapport d'indexation de la Google Search Console. Descendez en bas de la page jusqu'à trouver la liste des raisons pour lesquelles certaines pages ne sont pas indexées et vous retrouverez alors la ligne Soft 404.
Partagez votre avis, vos questions, vos recommandations ci-dessous