Una 'web scraper'es una wb 'spam' que copia todo su contenido de otras webs usando 'web scraping'. el propósito de crear tales webs es recoger los beneficios de la publicidad o para manipular los rankings en los motores de búsqueda mediante la vinculación a otros sitios para mejorar su ranking en los buscadores.
En los últimos años han proliferado las 'webs scraper' a un ritmo elevado para los motores de búsqueda de spam. El contenido abierto es una fuente común de material para las 'webs scraper'.
Un motor de búsqueda no es una 'web scraper' por si misma; webs como Yahoo y Google reúnen contenidos de otras webs y realizan un índice con estos, de modo que se puede usar este índice para buscar por palabras clave. Entonces los motores de búsqueda muestran fragmentos del contenido del sitio original en la respuesta a la búsqueda de un usuario.
Hechos para la publicidad.-
Algunas 'webs scraper' se crean para obtener beneficios de los programas publicitarios. En tales casos se llaman webs hechas para 'Adsense' (Made for AdSense sites o MFA. 'Adsense' es un programa publicitario de Google). Este término despectivo se refiere a las webs que no tienen valor, excepto para atraer a los visitantes a la página web con el único propósito de que pulsen en los anuncios.
Las webs para AdSense se consideran webs que hacen 'spam' a los motores de búsqueda y diluyen los resultados de una búsqueda al suministrar a los internautas con unos resultados pocos satisfactorios. Este contenido 'scraped' se considera redundante por el público al que se mostraría por el motor de búsqueda en circunstancias normales, en que no aparecerían webs MFA en los resultados de la búsqueda.
Legalidad.-
Las 'webs scraper' pueden violar la ley de derechos de autor. Incluso obteniendo el contenido de un sitio de contenido abierto puede ser una violación de derechos de autor, si se hace de una manera que no respeta la licencia. Por ejemplo, la licencia de Documentación Libre GNU (GFDL) y la licencia Creative Commons ShareAlike (CC-BY-SA), requieren que el republicador informa a los lectores de las condiciones de la licencia, y acrédite al autor original.
Dependiendo del objetivo de un 'scraper', difieren los métodos en los que se dirigen las webs. Por ejemplo, las webs con cantidades masivas de contenido, como las líneas aéreas, electrónica de consumo, grandes almacenes, etc., se pueden dirigir de forma rutinaria por la competencia a menudo para estar al tanto de la información de precios. Las actividades sofisticadas de 'scraping' pueden camuflarse usando multiples direcciones IP y los tiempos de las acciones de búsqueda de forma que no se detecte su procedencia de robots y por el contrario parezcan más humanas.
Algunos 'scrapers' incluirán fragmentos y textos de webs con altas calificaciones para las palabras clave a las que se dirigen. De esta manera esperan los primeros puestos en las páginas de resultados de búsqueda (SERPs). Las retroalimentaciones RSS son vulnerables a los 'scrapers'.
Algunas 'webs scraper' consisten en anuncios y párrafos de palabras elegidas al azar de un diccionario. A menudo, un visitante pulsará en un anuncio 'pago-por-pulsación', ya que será el único texto comprensible en la página. Los propietaríos de estas 'webs scraper' obtienen un beneficio económico de estas pulsaciones. Las redes publicitarias indican que trabajan constantemente para eliminar estas webs de sus programas, a pesar de que existe una activa polémica sobre esto ya que estas redes se benefician directamente de la pulsaciones que se producen en estas webs. Desde el punto de vista del publicista, los programas publicitarios no parecen estar haciendo un esfuerzo suficiente para resolver este problema.
Los 'scrapers' tienden a asociarse con 'granjas' de enlaces y se pèrciben a veces como lo mismo, cuando múltiples 'scrapers' enlazan con la misma web objetivo. Una web objetivo victima frecuente puede ser acusada de participar en 'granja' de enlaces, debido al patrón artificial de enlaces entrantes a una web victima, enlazada desde varias 'webs scraper'.
Secuestro de un dominio.-
Algunos 'spammers' que crean 'webs scraper' pueden apropiarse de un nombre de dominio recién caducada. De esta forma, los 'spammers' aprovechan los rankings de búsqueda ya establecidas para el nombre de dominio y así como los enlaces entrantes. Algunos spammers pueden incluso tratar de hacer coincidir el tema de la web caducada, para utilizar sus rankings de búsqueda para determinadas palabras clave. Por ejemplo, una web expirada de un fotógrafo puede ser secuestrada por un 'spammer' que generaría una 'web scraper' sobre consejos de fotografía.