Dans un site Internet, on met à la racine de ce site un document appelé “robots.txt”. Il permet aux moteurs de recherche comme Google, Yahoo et Bing de leur dire « inutile d'archiver cette page, d'ailleurs je ne le souhaite pas ». C'est une procédure qui existe depuis 16 ans (oh ? déjà ?!?) parfaitement documenté. Cette pratique s'appelle du SEO et se facture à un prix indécent.
Le robots.txt d'un site donne parfois des infos très très très intéressantes.

Exemple pratique avec PriceMinister.com

Qu'apprend-t-on à lire http://www.priceminister.com/robots.txt

# robots.txt

# PriceMinister FR robots file for http://www.priceminister.com/
# Contact: Hostmaster PriceMinister (hostmaster@priceminister.com)
# 01.03.2011 TLE

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /affiliation/
Disallow: /cover/
Disallow: /cart
Disallow: /inventory
Disallow: /purchase
Disallow: /sponsorship
Disallow: /submit
Disallow: /user
Disallow: /wish
Disallow: /info/no/op/
Disallow: /info/vo/op/
Disallow: /info/co/op/
Disallow: /info/rc/op/
Disallow: /V2/productSearch
Disallow: /p/
Disallow: /comparateur_fr/V3/
Disallow: /ext/
Disallow: /op/
Disallow: /google/adsense
Disallow: /offer/buy/80729165/retard-retarder-ejaculation-soin-beaute.html

User-agent: TurnitinBot
Disallow: /

« Oups... », comme on dit dans le métier : dire qu'il existe aussi la balise HTML <meta name="robots"[...]> pour interdire une seule page. C'est plus discret...

Milles mercis à l'indispensable Olivier “Bluetouff” Laurelli