O que é um web crawler ou rastreador web?

Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter.

O processo que um Web crawler executa é chamado de Web crawling ou spidering. Muitos sites, em particular os motores de busca, usam crawlers para manter uma base de dados atualizada. Os Web crawlers são principalmente utilizados para criar uma cópia de todas as páginas visitadas para um pós-processamento por um motor de busca que irá indexar as páginas baixadas para prover buscas mais rápidas. Crawlers também podem ser usados para tarefas de manutenção automatizadas em um Web site, como checar os links ou validar o código HTML. Os crawlers também podem ser usados para obter tipos específicos de informações das páginas da Web, como minerar endereços de email (mais comumente para spam).

Um Web crawler é um tipo de robô de Internet ou agente de software. Em geral, ele começa com uma lista de URLs para visitar (também chamado de seeds). À medida que o crawler visita essas URLs, ele identifica todos os links na página e os adiciona na lista de URLs para visitar. Tais URLs são visitadas recursivamente de acordo com um conjunto de regras.

Exemplos de Web crawlers

  • DataparkSearch
  • Wget
  • HTTrack
  • JSpider
  • Methabot
  • Pavuk
  • WebSPHINX
  • YaCy
  • Crawljax
  • Yahoo! Slurp é o nome do crawler do Yahoo!.
  • Msnbot é o nome do crawler do Bing - Microsoft.
  • Googlebot é o nome do crawler do Google.
  • Methabot é um crawler com suporte a scripting escrito em C.
  • arachnode.net é um Web crawler open-source usando a plataforma .NET e escrito em C#
  • Goutte é um Web Scraper para criar um crawler desenvolvido em PHP por Fabien Potencier usando o Symfony.
  • DuckDuckBot é o web crawler do DuckDuckGo.
  • Patent2net é um crawler especializado em encontrar, organizar e disponibilizar patentes depositadas na Espacenet.
  • OpenWebSpider - http://www.openwebspider.org

VOLTAR

  • 4 Utilizadores acharam útil
Esta resposta foi útil?

Artigos Relacionados

Creación de campaña de publicidad en Adwords de Google

Si se invierte en una web, es para hacer que potenciales clientes lleguen a ella. Si no, lo más...

¿Dónde debo anunciar mi web?

Cuanta mayor difusión de de su web, mejor. Tenga en cuenta que, por ejemplo, un anuncio en un...

O que é um domínio Internet?

Domínio é um nome que serve para localizar e identificar conjuntos de computadores na internet....

¿Puedo anunciarme en Internet de forma que mis anuncios sólo aparezcan localmente?

SI. Aunque actualmente la única red que nos permite esto es Adwords de Google. Esta red le...

O que é uma mídia social?

As "ferramentas de mídias sociais" são sistemas projetados para possibilitar a interação social...

Powered by WHMCompleteSolution