Los datos y la información es algo fundamental para los usuarios. Vivimos en una época en la que todo el contenido puede estar presente en la red y de ahí que sea vulnerable a posibles ataques. Un ejemplo de lugar donde hay una gran concentración de información y que puede sufrir ataques son las páginas web. Hay diversos métodos que pueden utilizar los ciberdelincuentes. En este artículo vamos a hablar de Web Scraping y Web Harvesting. Vamos a explicar cómo extraen datos y qué diferencias hay entre ambos.
Web Scraping y Web Harvesting
Hay que mencionar que tanto Web Scraping como Web Harvesting
son métodos para extraer datos de páginas web. Son similares, incluso
en muchos casos se utilizan uno u otro nombre indistintamente. Sin
embargo cuentan con pequeñas diferencias.
Básicamente podemos decir que Web Harvesting es el conjunto de todas
las opciones que existen para extraer información de una página web. Web
Scraping forma parte de todo ese conjunto, pero utiliza métodos más
específicos.
Podemos decir que Web Harvesting es un método de extraer datos cuando
generalmente existe una API. Puede recopilar informes XML, RSS o JSON.
Por su parte Web Scraping hace referencia principalmente al rastreo
HTML, a través de un servidor estático, y no hay una API disponible.
Otra cosa principal que diferencia Web Scraping frente a Web Harvesting es que toda la extracción de datos o información no es negativa.
Es decir, pensemos por ejemplo en la información que recopila un
buscador como Google. Está diseñado para eso y no para utilizar los
datos de mala manera. En su parte negativa estaría el uso de esos datos
para crear sitios fraudulentos, de imitación, para por ejemplo llevar a
cabo ataques Phishing.
Funcionamiento de Web Scraping y Web Harvesting
Salvando estas diferencias que hemos mencionado, tanto Web Scraping como Web Harvesting tienen un funcionamiento similar.
De hecho, como hemos dicho, en ocasiones se utilizan ambos términos
indistintamente para referirse a lo mismo. En ambos casos de recopila
información de una página web de manera automática. Utilizan para ello
diferentes niveles o métodos para llevar a cabo la tarea.
Utilizan programas informáticos diseñados para extraer información de los sitios.
Extrae datos del código HTML y de la base de datos. Todos estos datos e
información pueden ser utilizados de manera legítima o no, como hemos
mencionado. Existen negocios en la red cuya finalidad es recopilar este
tipo de información, pero también son muchas las causas por las que se
puede optar por Web Scraping o Web Harvesting para acciones maliciosas.
Entre las primeras razones, podemos mencionar a buscadores como
Google, rastreadores para comparar precios de productos, empresas que se
dedican a hacer análisis de mercado, etc. En cuanto a la extracción de
datos para fines maliciosos, podemos mencionar el robo de contenido,
crear páginas fraudulentas.
En definitiva, podemos decir que Web Scraping y Web Harvesting en muchas ocasiones se utilizan de manera indiferente,
pero existen ligeras diferencias de concepto. Eso sí, en ambos casos el
objetivo es extraer datos e información de páginas web.
0 Comentarios