Skip to main content

Qué es scraping y cómo protegerte para evitar aparecer en filtraciones como las de Facebook y LinkedIn

Scraping

Getty Images

18/04/2021 - 07:00

En las últimas semanas han salido a la luz grandes filtraciones de Facebook, LinkedIn y ClubHouse. Pero los datos no han sido obtenidos a través de una brecha de seguridad, sino mediante técnicas de scraping. Te contamos qué es scraping y cómo protegerte.

Cuando nos enteramos de que han aparecido datos personales de un servicio web, una red social o cualquier otra plataforma, lo primero que nos viene a la cabeza es que el portal afectado ha sufrido una brecha de seguridad. No obstante, no siempre es así: en ocasiones, la información ha podido ser obtenida por otras vías sin que se haya comprometido la seguridad del sitio web afectado.

En la actualidad, a no ser que hayas decidido evitar tener presencia en internet, en la red hay infinidad de información sobre ti. Cualquiera puede ver tu nombre y apellidos en Facebook, tu puesto de trabajo en LinkedIn, o conocer tus intereses a través de Twitter. Además, si no pones tus datos privados, tus contactos pueden tener acceso a tu correo electrónico o tu número de teléfono, entre otra información confidencial.

Recopilar los datos personales que se muestran de forma pública manualmente sería una ardua tarea, pero hay formas de automatizar la extracción de esta información. Esta práctica se llama scraping y vamos a explicarte en qué consiste.

Qué es scraping

¿Qué es scraping exactamente? El scraping (raspado en español), es un conjunto de técnicas que se utilizan para extraer información de sitios web y almacenarlas de una forma estructurada. Esta labor no se realiza manualmente, sino que se lleva a cabo de manera automatizada mediante software especialmente creado para tal efecto. 

Aunque en las últimas semanas hemos visto el scraping relacionado con recopilaciones de datos ilegítimas, esta actividad no tiene por qué tener fines maliciosos. Se trata de la técnica que utilizan los motores de búsqueda, como Google o Bing, para indexar la información pública de las páginas web de una forma automatizada. 

A través de esta técnica es posible obtener datos estructurados que se pueden almacenar en una base de datos, una hoja de cálculo u otro formato de almacenamiento. Aparte de por los motores de búsqueda, el scraping también es ampliamente utilizado por los comparadores de precios de diferentes tiendas, las aplicaciones de historiales de precios, los portales que ofrecen resultados deportivos, las iniciativas de archivado web y un largo etcétera.

Lo que sucede es que el scraping puede ir en contra de los términos de uso de los sitios web. El fichero Robots.txt de un portal indica si está permitida la extracción automática de datos, y en caso de que no sea así, no se debería recopilar la información recogida en sus páginas, aunque sea de dominio público. Por ejemplo, en el caso de Facebook, la red social no permite la extracción automática de datos, salvo que se tenga un permiso expreso por escrito.

Aunque puede ser una práctica completamente legítima, el scraping también puede atentar contra la propiedad intelectual, puede relacionarse con la competencia desleal y puede violar el Reglamento General de Protección de Datos o la Ley de Protección de Datos.

El papel del scraping en las últimas filtraciones de Facebook, LinkedIn o ClubHouse

En las últimas semanas hemos conocido tres grandes filtraciones de datos: la de Facebook, la de LinkedIn y la de ClubHouse. No obstante, ninguna de ellas ha sido consecuencia de un hackeo, sino que la información recogida en las bases de datos que manejan los ciberdelincuentes proceden del scraping.

Cuando los criminales hackean un sitio web, pueden acceder a la información confidencial de los usuarios que el portal almacena pero que no se muestra públicamente, como nombres de usuarios, contraseñas, números de cuenta o tarjeta de crédito, correos electrónicos, números de teléfono, etc. 

En cambio, con el scraping no es posible obtener los datos confidenciales como las contraseñas, pero sí se puede recopilar toda la información pública de los usuarios. Esta información también puede ser muy amplia e incluir nombre y apellidos, correo electrónico, número de teléfono, enlaces a los perfiles sociales, fotografías y otros datos personales. 

El caso de Facebook: robo de datos de más de 533 millones de usuarios

Hackeo a Facebook

DepositPhotos

A principios de abril conocimos una de las mayores filtraciones de datos personales de Facebook. En concreto, se vieron afectados más de 533 millones de usuarios, entre ellos 11 millones de españoles, cuya información apareció en una base de datos publicada en un foro de hacking. La información incluía nombre completo, ubicación, dirección de correo electrónico, número de teléfono, identificación de Facebook, fecha de nacimiento y biografías. 

Aunque a priori se dijo que Facebook había sufrido una nueva brecha de seguridad, la compañía lo desmintió, señalando que sus sistemas no habían sido hackeados, sino que los datos recopilados en la filtración se había obtenido a través de scraping.

De acuerdo con la red social de Mark Zuckerberg, los criminales recopilaron los datos antes de septiembre de 2019, momento en el que se parcheó un bug que exponía el número de teléfono de los usuarios, que podía extraerse de los servidores de Facebook. 

"Creemos que los datos en cuestión fueron extraídos de los perfiles de Facebook de las personas por parte de actores malintencionados utilizando nuestro importador de contactos antes de septiembre de 2019", escribe la corporación. "Esta función fue diseñada para ayudar a las personas a encontrar fácilmente a sus amigos utilizando sus listas de contactos".

Puedes saber si has sido víctima de esta gran filtración utilizando Have I Been Pwned?, bien introduciendo tu correo electrónico o bien tu número de teléfono en formato internacional. Facebook decidió no notificar a los usuarios cuyos datos fueron expuestos, aduciendo que no tiene del todo claro quiénes se han visto afectados y también que ya no se puede hacer nada, puesto que los datos se han expuesto públicamente.

LinkedIn: aparecen los datos personales de 500 millones de usuarios

Linkedin

Depositphotos

Pero Facebook no ha sido la única red social que se ha visto afectada por el scraping recientemente. Pocos días después de que conociéramos la filtración, apareció en la Dark Web un usuario que vendía una base de datos de más de 500 millones de usuarios de LinkedIn.

Cybernews, el medio especializado que descubrió la base de datos, comprobó que contenía información real a través de una muestra. Incluía el ID de LinkedIn, nombre completo, correo electrónico, número de teléfono, género, enlace al perfil de LinkedIn, enlaces a otros perfiles de las redes sociales, los títulos profesionales y otros datos relacionados con la carrera profesional. Las contraseñas tampoco estaban incluidas en esta ocasión.

Los expertos de Cybernews no pueden saber si se trata de información actual o si procede de brechas de seguridad anteriores, aunque sospechan que es otro caso de scraping.

ClubHouse: datos personales de más de 1,3 millones de cuentas

El tercer gran afectado por el scraping en este breve lapso de tiempo ha sido ClubHouse. A mediados de abril saltó la noticia de que la red social de moda podía haber sido hackeada, ya que se había detectado en un conocido foro de hackers un fichero que contenía los datos personales de 1,3 millones de cuentas.

En esta ocasión, la base de datos contiene el código de identificación del usuario, el nombre real, la foto de perfil, el nombre de usuario, el nombre de usuario de Twitter y de Instagram, el número de seguidores y personas a las que se sigue, la fecha de creación de la cuenta y el usuario que te invitó a ClubHouse.

Toda esta información es pública y la puede ser cualquier persona que entre en tu perfil de la red social, motivo por el que la compañía se ha apresurado a desmentir que haya sufrido una brecha de seguridad. ClubHouse ha explicado que estos datos se pueden obtener a través de la app o de la API, de manera que la información ha sido recopilada mediante técnicas de scraping.

Cómo protegerte para que no recopilen tus datos

Seguridad informática

Gettyimages

Aunque los sitios web pueden tomar algunas medidas para detener a los scrapers, como añadir entradas en el fichero Robots.txt, bloquear la dirección IP de los bots, añadir un captcha u otros sistema de verificación manual o utilizar los servicios de empresas antiscraping, lo cierto es que resulta muy complicado evitar la extracción de datos mediante técnicas de scraping. 

Entonces, ¿cómo podemos protegernos para que nuestros datos personales no aparezcan en este tipo de bases de datos? La respuesta rápida es no crear perfiles en servicios que muestren información pública, pero está claro que es una opción por la que casi nadie opta hoy en día.

Si no quieres renunciar a tener perfiles en las redes sociales, lo mejor es que introduzcas la menor información personal posible. No facilites tu número de teléfono, ni el correo electrónico que sueles utilizar en tus comunicaciones diarias, e intenta tener un perfil privado que no pueda consultar todo el mundo.

¿Y qué pasa si tus datos personales han aparecido en una filtración? En caso de que tu información de contacto haya caído en malas manos, puedes recibir correos electrónicos maliciosos, así como SMS o llamadas fraudulentas. Ten en cuenta que los criminales venden las bases de datos al mejor postor, y que se suelen utilizar para perpetrar campañas de phishing, distribuir malware o llevar a cabo todo tipo de estafas. 

Además, teniendo tu nombre de usuario, tu correo electrónico y otros datos personales, aunque la contraseña no esté incluida entre la información filtrada, los ciberdelincuentes pueden utilizar las credenciales procedentes de brechas de seguridad paradas para intentar averiguar tu contraseña y entrar en tus cuentas.

Para evitar sorpresas desagradables, sigue prácticas seguras en internet y protégete.