Dans un site Internet, on met à la racine de ce site un document appelé “robots.txt”. Il permet aux moteurs de recherche comme Google, Yahoo et Bing de leur dire « inutile d'archiver cette page, d'ailleurs je ne le souhaite pas ». C'est une procédure qui existe depuis 16 ans (oh ? déjà ?!?) parfaitement documenté. Cette pratique s'appelle du SEO et se facture à un prix indécent.
Le robots.txt d'un site donne parfois des infos très très très intéressantes.
Exemple pratique avec PriceMinister.com
Qu'apprend-t-on à lire http://www.priceminister.com/robots.txt
# robots.txt # PriceMinister FR robots file for http://www.priceminister.com/ # Contact: Hostmaster PriceMinister (hostmaster@priceminister.com) # 01.03.2011 TLE User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /affiliation/ Disallow: /cover/ Disallow: /cart Disallow: /inventory Disallow: /purchase Disallow: /sponsorship Disallow: /submit Disallow: /user Disallow: /wish Disallow: /info/no/op/ Disallow: /info/vo/op/ Disallow: /info/co/op/ Disallow: /info/rc/op/ Disallow: /V2/productSearch Disallow: /p/ Disallow: /comparateur_fr/V3/ Disallow: /ext/ Disallow: /op/ Disallow: /google/adsense Disallow: /offer/buy/80729165/retard-retarder-ejaculation-soin-beaute.html User-agent: TurnitinBot Disallow: /
« Oups... », comme on dit dans le métier : dire qu'il existe aussi la balise HTML <meta name="robots"
[...]>
pour interdire une seule page. C'est plus discret...
Milles mercis à l'indispensable Olivier “Bluetouff” Laurelli
3 réactions
1 De Alex - 18/04/2011, 13:04
Peut-être un SEO qui voulait être le seul à rafler tout le stock de eXcite Man Retard... ou alors, il avait peur de trop exciter Googlebot...
2 De Simon - 23/04/2011, 09:40
Voilà qui est bien pensé ! :) Ce serait pas mal d'ailleurs un site ou un blog qui recense tous les meilleurs robots.txt ... une idée, tiens !
3 De da scritch net works - 08/11/2011, 14:19
La “sécurité” par la politesse
« Oui, y'a un trou, mais ne regardez pas. S'il vous plaîîîîîît… »...