A web scraping (também conhecido como web colheita ou extração de dados da web) é uma técnica de computador para extrair dados de um site por meio de programas de software. Normalmente, esses programas simular a navegação humana na World Wide Web através da implementação de baixo nível Hypertext Transfer Protocol (HTTP), ou incorporação de um navegador real, como o Internet Explorer ou o Mozilla Firefox.
A web scraing está intimamente relacionado com a indexação de sites Internet; uma tal técnica é implementado através do uso dos bots pela maioria dos motores de busca. Por outro lado, a web scraping incide mais sobre a transformação de dados não estruturados disponíveis na Internet, geralmente em formato HTML, em que os metadados podem ser analisados e armazenados localmente em um banco de dados. Colheita Web também é semelhante à da web automação, que consiste na simulação de navegação humana em rede através da utilização de software de computador.
A web scraping pode ser usado para comparar os preços on-line, monitorar dados meteorológicos, detectar mudanças em um site, na investigação científica, mashups web e integração de dados web.