segunda-feira, 16 de abril de 2007

Alexandre F. Bahia - Crawlers e Spiders

Aranhas na teia
Talvez você não saiba, mas existem robôs especializados em visitar sites e coletar o material visitado. Eles são conhecidos como spiders ou crawlers e tem como missão indexar o conteúdo de sites para servir de resposta para sites de busca. Isto significa que para uma página aparecer em um resultado de busca, um spider a visitou antes. Por isto que algumas páginas demoram um tempo para aparecer nos sites de busca.
Cada spider de um site de busca tem um nome que serve para identificá-lo. O spider do Google por exemplo se chama Googlebot. O Googlebot funciona "lendo" e armazenando o conteúdo da página além de coletar todos os links presentes na página. Estes links servirão para o Google montar o PageRank e também para descobrir novas páginas.
Robots.txt
Outros agentes mais conhecidos são o Yahoo! Slurp, o MSNBot. Eles tem algumas características próprias, mas no geral seguem alguma regras comuns. Uma delas é obedecer as diretrizes do seu site através de um arquivo conhecido como robots.txt. Este é o primeiro arquivo que os spider procuram em seu site e é interpretado linha a linha. Ele fica hospedado na raiz do site. O arquivo é em texto e possui dois comandos principais. O primeiro é o User-agent, que define qual é o agente que será afetado pelo comando posto abaixo dele. Se no lugar do nome do agente, for colocado um asterisco, as regras serão postas para todos os agentes. Se for colocado o nome do agente, apenas aquele agente seguirá as regras. Veja abaixo um exemplo:
# Exemplo do Robots.txt
# Regra para todos os spiders
User-agent: *Disallow: /private/
# Específico para o YahooUser-agent: SlurpDisallow: /secreto/
No exemplo acima você vê duas novidades: A tralha (#) que serve para os seus comentários e o segundo comando do robots.txt: o Disallow. Ele serve para determinar qual diretório ou arquivo deve ser bloqueado. Podem existir diversas páginas que não servem para que uma ferramenta de busca indexe como áreas logadas, arquivos pessoais, ambiente de desenvolvimento ou qualquer outra razão que necessite de bloqueio. Vamos imaginar que você quer bloquear as pastas admin, cgi-bin e o arquivo fotos.html. Para isto você deve fazer o seguinte.
# Bloquear de todos os agentesUser-agent: *Disallow: /admin/Disallow: /cgi-bin/Disallow: /fotos.html
Quando o parâmetro Disallow vier apenas com a barra, ele bloqueará todo o site. Se não vier nenhum parâmetro após o Disallow, ele não bloqueará nada.
Se você preferir, existe uma ferramenta que monta dinamicamente o arquivo de robots.txt para o seu site. Visite:
http://www.marketingdebusca.com.br/robots-txt/
E configure as opções desejadas. Se você quiser simplesmente liberar todo site para acesso, clique em criar robots.txt sem alterar nada.
Existem algumas opções próprias para cada agente com o comando Allow do Googlebot, mas você não precisa se preocupar com ele. Colocando os comandos básicos você já tem o trabalho bem feito. O arquivo de robots.txt não é obrigatório para o site, mas evita que o spider receba um erro 404 ao procurá-lo em seu site.

Nenhum comentário: