Cómo las empresas de publicidad identifican a un usuario a través del historial de navegación

El usuario medio de Internet puede tener una impresión errónea de su propio anonimato en la World Wide Web. En realidad, al utilizar Internet, una persona deja una gran cantidad de información sobre sí misma. Las plataformas publicitarias rastrean prácticamente todos los sitios que visita un usuario, recopilando información sobre su comportamiento y preferencias, y utilizan esos datos para orientar los anuncios.

♥ ON TOPIC: ¿Qué es la Darknet y cómo llegar a ella?

¿Cómo funciona?

Los anunciantes recogen una especie de “perfil” del usuario mediante el seguimiento de una huella digital, pero, por lo general, no conocen su identidad. Por eso muchas personas confían en permanecer en el anonimato. Sin embargo, investigadores de la Universidad de Stanford creen que se puede identificar a un usuario por su historial de navegación.

Para probar su teoría, los expertos crearon un sitio web en el que todo el mundo podía enviar su historial de navegación. A continuación, los investigadores intentaron correlacionar los historiales de navegación con los perfiles de las redes sociales en Twitter y probaron si era posible identificar a un usuario sólo con los datos disponibles públicamente. Y resultó que sí. Los investigadores pudieron desanonimizar al 72% de los participantes en el experimento.

♥ ON TOPIC: Cómo crear contraseñas complejas correctamente y no olvidarlas: consejos de un hacker.

El método de los científicos se basa en una simple observación. Cada persona tiene una red social distintiva que incluye a sus familiares, compañeros de clase, lugar de trabajo y fragmentos que describen diferentes etapas de la vida. Estas conexiones pueden identificarse a través de enlaces en las redes sociales del usuario, como Facebook y Twitter.

Mediante el análisis de las páginas de Internet visitadas por el usuario, los científicos pudieron identificar fuentes similares en las redes sociales y elaborar una lista de posibles candidatos a los que podría pertenecer el historial de navegación estudiado. De este modo, es posible identificar a una persona por los enlaces que ha visto, incluidos los que nunca se han publicado en los recursos sociales.

Al utilizar este enfoque surgen dos problemas principales. La primera tiene que ver con la cuantificación de la relación de una alimentación concreta con un determinado historial de navegación. El enfoque más sencillo sería analizar los fragmentos de enlaces en el historial de navegación y en el feed, pero este método no es eficaz para los feeds largos que contienen un gran número de enlaces. Los investigadores adoptaron un enfoque alternativo en el que crearon un modelo del comportamiento en línea de un usuario y calcularon la probabilidad de que un determinado feed de red social estuviera relacionado con un determinado historial de navegación.

♥ ON TOPIC: Por qué deberías usar Iniciar sesión con Apple para iniciar sesión en aplicaciones y sitios web.

Según los científicos, el método desarrollado muestra resultados más precisos para los usuarios activos de Twitter. Así, los investigadores pudieron identificar al 90% de los participantes en el experimento que abrieron 100 o más enlaces en Twitter.

Un número importante de empresas dispone de los recursos necesarios para rastrear a los usuarios sin su consentimiento, algunos de los cuales pueden identificar con precisión a las personas.

A lo largo de la última década, ha habido una serie de estudios en los que los expertos han utilizado huellas digitales disponibles públicamente para desanonimizar datos sensibles. En 2002, la Dra. Latanya Sweeney, de la Universidad de Harvard, realizó un estudio que demostraba que el 87% de los estadounidenses podían ser identificados a partir del análisis de su código postal, sexo y fecha de nacimiento. Esta información estaba disponible en una base de datos de votantes que Sweeney compró por sólo 20 dólares.

En 2006, Netflix convocó un concurso abierto para encontrar el mejor algoritmo para predecir la puntuación que un espectador daría a una película basándose en las puntuaciones anteriores de ese y otros espectadores. La empresa ofreció un millón de dólares a quien pudiera mejorar la eficiencia del sistema de recomendaciones de Netflix en un 10%. Los informáticos Arvind Narayanan y Vitaly Shmatikov se dieron cuenta de que la mayoría de los usuarios de Netflix pueden ser identificados mediante el análisis de los datos de las películas seleccionadas y las críticas del portal IMDb (el mayor sitio web del mundo sobre cinematografía).

♥ ON TOPIC: Cómo ver las consultas que has introducido en las búsquedas de Google y si quieres eliminarlas o inhabilitar el seguimiento.

Con el auge de las redes sociales, cada vez más personas comparten información aparentemente inocua que, en realidad, revela una gran cantidad de información personal. Por ejemplo, el investigador de la Universidad de Cambridge Michael Kosinski realizó un estudio en el que se utilizaron los “likes” de Facebook para determinar la orientación sexual, las opiniones políticas y los rasgos de personalidad de los usuarios.

En abril de 2010, un equipo de la Universidad Técnica de Viena, dirigido por el Dr. Gilbreth Wondracek, desarrolló una “herramienta de desanonimización” para identificar a los miembros de varios grupos de la red social Xing y, a partir de esta información, identificar al usuario.

¿Es posible protegerse?

Protegerse de los “ataques de desanonimización” es bastante difícil, al menos hasta que se deja de usar Internet o de participar en la vida pública. Como una de las mejores formas de protegerse, los expertos recomiendan limitar el número de personas que tienen acceso a su historial de navegación anónimo y utilizar extensiones del navegador (como Ghostery) que bloquean los rastreadores de terceros. De este modo, las empresas de publicidad no podrán recopilar datos sobre tu historial de navegación cuando navegas por sitios web.

Los propietarios de sitios web pueden proteger a los visitantes de este tipo de ataques cambiando al uso del protocolo seguro HTTPS. Al utilizar el protocolo HTTP, toda la transmisión de datos está completamente desprotegida y un atacante puede acceder a su historial de navegación interceptando el tráfico de la red.

Véase también: