Dicas do Cotidiano


Dicas de sites, informática, linux, e muito mais.

Postado por Thomaz em 13 fevereiro , 2010

Robots.txt

Robots.txt

Olá,

Hoje vou falar dos robots.txt.

Mas para que servem os Robots.txt?

Os robots.txt são arquivos de texto com instruções para robôs de buscadores assim como o googlebot.

É ele quem define onde o robô pode ir e o que deve manter fora dos resultados de busca.

Mas ATENÇÃO ele apenas tem essa funcionalidade nos grandes buscadores como yahoo, bing, google, etc. os maus buscadores como pescadores de email não o respeitarão e qualquer pessoa poderá acessar os arquivos independentemente do robots.txt.

Para bloquear os arquivos ao publico use .htacess

Voltando ao assunto…..

Onde eu crio o robots.txt?

No bloco de notas, basta salva-lo como robots pois o .txt é a extensão padrão do bloco de notas.

E como eu crio o Robots.txt?

Você deve seguir as regras abaixo:

Abra o bloco de notas e digite

User-Agent: *

É possível especificar regras para determinados robos, exemplo só para o googlebot e não para o yahoo.

Exemplos Robôs podem ser encontrados em robotstxt.org/db.htm, para a regra valer a todos digite * (asterisco).

Existem dois comandos básicos o Disallow e o Allow.

User-agent: *

Disallow: /arquivos_bloqueados/
Disallow: /arquivos_do_blog/inde.htm

Allow: /musicas/
Allow: /desbloqueada/googlenildo-da-silva.html

No caso acima você está bloqueando a pasta /arquivos_bloqueados/ e liberando o arquivo /desbloqueada/googlenildo-da-silva.html. Uma importante observação é que ele serve tanto para pasta e suas respectivas sub-pastas quanto para arquivos(.htm, .html, .php, etc.)

Podem ser especificados como já dito diferentes regras para diferentes robôs.

User-agent: *
Disallow: /pasta-duplicatas/

User-agent: Googlebot
Disallow: /pasta teste/
Allow: /pasta-teste/e.html

Nesse caso o googlebot só lê a partir do “User-agent: Googlebot” ou seja só a parte em vermelho.

Existem também o uso de caracteres especiais.
Para bloquear acesso para todas as URLs que incluem uma interrogação (?) por exemplo os get.
EX.:

User-agent: *

Disallow: /*?

Especificar arquivos com determinadas extensões usando o cifrão ($). Por exemplo: se você quer bloquear todas as páginas com extensão .php, para que não apareçam nas pesquisas.

User-agent: *

Disallow: /*.php$

Um exemplo de robots.txt:

User-agent: *
Disallow: /imagens/
Disallow: /diretorio/

Neste robots não usei Allow pois ele é padrão ou seja pode ser omitido sem prejuízo, o que quer dizer que tudo que não está no robots como Disallow é Allow.

Dica extra:
Coloque no final do robots.txt o endereço do seu sitemaps.

Sitemap: http://www.seu_site.com.br/sitemap.xml

Isso facilita que os robos achem seu sitemap.

Agora basta coloca-lo na raiz do site, se tudo deu certo basta digitar www.seu-site.com.br/robots.txt  para visualizar o arquivo.

Bom isso é tudo.

Outras informações podem ser achadas em http://www.robotstxt.org

Caso tenha ficado com alguma duvida é só comentar aqui.

Abraços :)

Tags: , , , , , , , , ,
Postado em: Computadores , Internet , SEO

» Deixe um comentário