Activité du site

Pages vues depuis Novembre 2002 : 13 976 055

  • Nb. de Membres : 7 436
  • Nb. d'Articles : 670
  • Nb. de Forums : 47
  • Nb. de Sujets : 9
  • Nb. de Critiques : 17

Top 10  Statistiques

VoilaBot - le crawler de voila
 |  Auteur: NPDS
Rechercher dans 
Depuis quelques temps, de nombreux webmestres se plaignent de la vitesse de crawl (indexation) de Voila.

En effet son robot "VoilaBot", indexe fortement les sites du rayon "France" depuis 2008. En soit ce n'est pas un problème sauf que la vitesse d'indexation, le type de requêtes et la charge générée sont simplement aberrants et de nature à "étouffer" même un gros serveur !

VoilaBot ne respect en général pas les directives de votre fichier robots.txt donc
User-agent: VoilaBot
Disallow: /
ne marche pas.

VoilaBot cherche des URL qui n'existe pas sur votre site et génére donc des erreurs dans son référencement.

Les tranches d'adresses actuelles (que j'ai pu trouver) qui corresponde à natcrawlbloc (prefixe du crawler) : 193.252.149.13 à 16 et 81.52.143.13 à 16 ce qui correspond à

Reste la solution via le fichier .htaccess qui sera efficace au niveau http (mais pas au niveau IP - là il n'y a qu'un Firewall qui pourr agir)
deny from 193.252.149.13
...
deny from 193.252.149.16
deny from 81.52.143.13
...
deny from 81.52.143.16
fonctionne (si vous voulez quand même être indexé par Voila / ne mettez qu'une des deux tranches d'IP dans votre .htaccess).

Cela dure depuis plus d'un an sans que Voila ne fasse aucune modification de son "machin" ... allez savoir pourquoi !!! mais vous voilà (haha) informé.



Posté le:Samedi 21 mars 2009 @ 17:59:20       Page Spéciale pour impression Envoyer cet Article à un ami     Précédent |  Suivant