Flux rss

Robots.txt, un fichier important

Publié par bg62, dernière mise à jour le jeudi 17 juillet 2008 à 21:23:36 par sebsauvage

Sur votre site : le fichier robots.txt



Sur votre site , vous essayez, dans la mesure du possible, de faire en sorte que vos pages soient indexées au mieux par les robots (spiders) des moteurs de recherche. Mais il peut également arriver que certaines de vos pages soient confidentielles, (ou en travaux) ou en tout cas que votre objectif ne soit pas de les diffuser largement sur ces moteurs. Un site ou une page en construction, par exemple, ne doivent pas obligatoirement être la cible d'une telle aspiration. Il faut alors empêcher certains spiders de les prendre en compte.

Cela peut se faire à l'aide d'un fichier texte, appelé robots.txt, présent sur votre hébergement, à la racine de votre site. Ce fichier va donner des indications au spider du moteur qui va vouloir explorer votre site, sur ce qu'il peut faire ou ne doit pas faire sur le site. Dès que le spider d'un moteur arrive sur un site (par exemple http://www.monsite.info/), il va rechercher le document présent à l'adresse http://www.monsite.info/robots.txt, avant d'effectuer la moindre "aspiration de document". Si ce fichier existe, il le lit et suivre les indications inscrites. S'il ne le trouve pas, il commence son travail de lecture et d'enregistrement de la page qu'il est venu visiter ainsi que de celles qui peuvent y être liées, considérant que rien ne lui est interdit.

Structure


Il ne doit exister qu'un seul fichier robots.txt sur un site, et il doit se trouver au niveau de la racine du site. Le nom du fichier (robots.txt) doit toujours être créé en minuscules. La structure d'un fichier robots.txt est la suivante :

User-agent: *
Disallow: /cgi-bin/
Disallow: /tempo/
Disallow: /perso/
Disallow: /entravaux/
Disallow: /abonnes/prix.html


Dans cet exemple :
  • User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.
  • Le robot n'ira pas explorer les répertoires /cgi-bin/, /tempo/, /perso/ et /entravaux/ du serveur ni le fichier /abonnes/prix.html.

Le répertoire /temp/, par exemple, correspond à l'adresse http://www.monsite.info/temp/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique. La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.

Ainsi :
Disallow: /perso ne permettra l'indexation ni de http://www.monsite.info/perso/index.html, ni de http://www.monsite.info/perso.html

Disallow: /perso/ n'indexera pas http://www.monsite.info/perso/index.html, mais ne s'appliquera pas à l'adresse http://www.monsite.info/perso.html

D'autre part, le fichier robots.txt ne doit pas contenir de lignes vierges (blanches).
L'étoile (*) n'est acceptée que dans le champ User-agent.
Elle ne peut servir de joker (ou d'opérateur de troncature) comme dans l'exemple : Disallow: /entravaux/*.
Il n'existe pas de champ correspondant à la permission, de type Allow:.
Enfin, le champ de description (User-agent, Disallow) peut être indifféremment saisi en minuscules ou en majuscules.
Les lignes qui commencent par un signe " # ", c'est à dire tout ce qui se trouve à droite de ce signe sur une ligne, est considéré comme étant un commentaire.

Voici quelques commandes très classiques et importantes du fichier robots.txt :


Disallow:/ Permet d'exclure toutes les pages du serveur (aucune aspiration possible).
Disallow: Permet de n'exclure aucune page du serveur (aucune contrainte).
Un fichier robots.txt vide ou inexistant aura une conséquence identique.
User-Agent : googlebot Permet d'identifier un robot particulier (ici, celui de google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permet au spider de google de tout aspirer, mais refuse les autres robots.

Sitemap et robots.txt


Pour aider Google, Yahoo ou autres, et surtout les moteurs ne donnant pas d'interface ayant la possibilité de leur indiquer le fichier sitemap d'un site, l'on peut ajouter l'indication dans le fichier, à l'aide de la syntaxe suivante :
Sitemap: http://www.monsite.info/sitemap.xml
(plus si plusieurs fichiers sitemap ...)

Générateur de fichier robots.txt


Si vous voulez créer un fichier robots.txt facilement, simplement, et être certain qu'il soit valide, vous pouvez aussi utiliser un générateur de robots.txt, comme celui-ci par exemple: Générateur de fichier robots.txt

A noter aussi cette indication toute récente trouvée sur le Net :


Un internaute vient de découvrir que Google prenait en compte une directive nommée "noindex" lorsqu'elle était insérée dans le fichier "robots.txt" d'un site, comme par exemple:

User-agent:Googlebot
Disallow:/perso/
Disallow:/entravaux/
Noindex:/clients/

Alors que la directive "Disallow" indique aux robots de ne pas tenir compte du contenu d'un répertoire (pas d'indexation, pas de suivi des liens), "Noindex" se réduirait à la non-indexation des pages, mais en identifiant les liens qu'elles contiennent. Un équivalent de la balise meta "Robots" qui contiendrait les informations "Noindex, Follow" en quelque sorte. Google aurait indiqué que cette mention serait en test actuellement, qu'elle n'est supportée que par le seul Google mais que rien ne dit qu'elle sera adoptée in fine. A utiliser et à tester avec précaution donc... !


Extrait du site unesourisetmoi : http://referencer.unesourisetmoi.info/articles.php?pg=art214

Résultats pour Robots.txt, un fichier important

Robots.txt Présentation du fichier robots.txt Le fichier robots.txt est un fichier texte contenant des commandes à destination des robots d'indexation des moteurs de recherche afin de leur préciser les pages qui peuvent ou ne peuvent pas être indexées. Ainsi... www.commentcamarche.net/contents/web/robots-txt.php3
Questions Robots.txt sur OfficeLive (Résolu) Bonjour, Je viens de créer un domaine gratuit sur officeLive.com et je souhaiterais pouvoir le faire indexer dans Google, mais pour cela il me faut un fichier Robots.txt, je suis en débutant et j'avoue que je ne connais pas du tout le language... www.commentcamarche.net/forum/affich-4637690-questions-robots-txt-sur-officelive
ROBOTS.txt (Résolu) Bonjour, Pourriez vous me dire où puis-je trouver le fichier robots.txt pour référencer mon site? J'ai créé mon site avec le logiciel Dreamweaver et je me suis enregistrée auprés de google pour gérer mon site. J'ai vu qu'il était... www.commentcamarche.net/forum/affich-8060147-robots-txt

Résultats pour Robots.txt, un fichier important

[Webmaster] Empêcher l'aspiration de mon siteMéthode 1 : Le fichier robots.txt Ce fichier sert à donner des instructions aux robots des moteurs de recherche qui se baladent sur les sites. Vous pouvez leur indiquer les URL à suivre ou ne pas suivre. Vous pouvez même donner des directives... www.commentcamarche.net/faq/sujet-4274-webmaster-empecher-l-aspiration-de-mon-site
[MS-Dos] Ecrire dans un fichier texte en batchPour écrire dans un fichier texte, il suffit d'utiliser une redirection ">" :echo texte_à_ecrire > fichier_de_sortie.txtPour écrire à la fin d'un texte existant (concaténation) :echo "ecriture a la fin du fichier ">> fichier_de_sortie.txt www.commentcamarche.net/faq/sujet-2695-ms-dos-ecrire-dans-un-fichier-texte-en-batch

Résultats pour Robots.txt, un fichier important

Modif. d'un article CCM (Robots.txt) (Résolu)Bonjour ! Concernant l'article robots txt, il serait peut-être judicieux d'indiquer que s'il on souhaite exclure plusieurs pages de l'indexation pour un même robot, il suffit de créer autant de ligne Disallow que voulu à la suite... www.commentcamarche.net/forum/affich-3595538-modif-d-un-article-ccm-robots-txt
[robots] fichier robots.txt (Résolu)Bonjour, qui peut m'expliquer à quoi servent les fichiers robots.txt Faut-il le créer soi même, où faut-il le placer, que doit-il contenir ? Merci d'avance. www.commentcamarche.net/forum/affich-1343987-robots-fichier-robots-txt
[Shell] Nombre de fichiers (Résolu)Bonjour, Voilà mon problème. J'ai dans un repertoire des fichiers, par exemple : fichier23.txt, fichier.24.txt, fichier25.txt, ..., fichier234.txt Je voudrais récupérer le premier nombre (ici 23), le dernier (ici 234) et vérifier que la suite... www.commentcamarche.net/forum/affich-2924691-shell-nombre-de-fichiers

Résultats pour Robots.txt, un fichier important

Fichier TXTFormat TXT Un fichier TXT est un fichier texte, c'est-à-dire un simple fichier contenant du texte au format ASCII. Pour ouvrir ou modifier un tel fichier, il suffit d'utiliser le bloc-notes ou un éditeur de texte traditionnel. www.commentcamarche.net/contents/fichier/txt.php3