À la recherche des données perdues

7 janvier 2017 08:09 Mis à jour: 6 janvier 2017 18:12

Cet article est publié en collaboration avec le Blog Binaire.


Elles ont nos données ; « elles », ce sont les grandes entreprises du Web : Google, Facebook, Yahoo!, Amazon… et les moins grandes, toutes aussi agressives dans l’entreprise de captation de données. Nous échangeons des messages avec un ami sur des vacances hypothétiques en Crète, et nous voilà inondés de pubs pour des hôtels, des transports… pour la Crète. Certaines viennent manifestement d’une analyse des emails échangés, mais les autres ? Comment sont-ils au courant ?

Regardons d’abord comment fonctionne le Web. Que se passe-t-il quand je visite n‑importe‑quel‑site.com/unepage.html ? Petit dialogue explicatif :

Mon navigateur : Hum, qui est n-importe-quel-site.com ?

Un service (DNS) de mon fournisseur d’accès à Internet : C’est le serveur Web 203.0.113.42
(par exemple :))

Mon navigateur : Bonjour 203.0.113.42.

Le Serveur Web : Bonjour Vous !

Mon navigateur : Pouvez-vous me donner la page n‑importe‑quel‑site.com/unepage.html ?

Oh, et puis, voici un tas d’autres choses sur ce que je suis, sur mes préférences…

Oh, et puis, voilà ces données incompréhensibles que vous m’avez demandé de retenir la dernière fois que je vous ai rendu visite (un cookie (+)).

Le serveur Web : Voici votre page. Mais, il vous faut d’autres trucs pour la visualiser en entier.

Chargez tous ces scripts et images. Et tant que vous y êtes…

Chargez aussi ces scripts depuis Twitter, Facebook, Google, Oracle…

Mon navigateur : Hum, OK, bien sûr.

Mon navigateur : Hey Twitter, un site m’a dit de vous demander des petits trucs.

Pouvez-vous me donner…

Oh, et puis, voici un tas d’autres choses sur ce que je suis, sur mes préférences…

Oh, et puis, voilà ces données incompréhensibles que vous m’avez demandé de retenir la dernière fois que je vous ai rendu visite (un cookie tiers).
(Idem pour les autres Facebook…)

Mon navigateur : Voilà. J’ai tout. Je n’ai plus qu’à exécuter tous ces scripts qui vont sans doute me faire rencontrer d’autres « amis » du net à qui j’aurai des tas de choses à raconter… Et, bien sûr, si ces scripts me demandent d’aller chercher du nouveau contenu, je le ferai. Je suis serviable…

Comment fonctionne le « Online Advertising », toute une technologie pour optimiser la vente des produits.
Wikipédia, CC BY-SA

Est-ce que cela se passe toujours comme ça ? Non, mais très souvent, et de plus en plus. Prenons l’exemple du blog Binaire hébergé par lemonde.fr. À chaque fois que vous accédez à ce blog, vous effectuez également des demandes de ressources complémentaires (images, scripts, données) à d’autres serveurs qui n’ont rien à voir avec le journal Le Monde.

Au jour de la rédaction de ce billet pour Binaire, il s’agit (par ordre décroissant du nombre de ressources) de : Google, Facebook, Cedexis (fournisseur de services d’optimisation de trafic Web), Twitter, LinkedIn, Outbrain (publicité ciblée), Kameleoon (marketing), Inria (Institut de recherche prestigieux), Chartbeat (mesure d’audience), Automattic (créateur du système de gestion de contenu WordPress), comScore (marketing), AT Internet (mesure d’audience), et Wizbii (une plate-forme de recherche d’emplois).

Certains de ces accès aux ressources externes sont parfaitement légitimes : ainsi, une image issue du site d’Inria a été utilisée comme illustration. Les autres sont là parce qu’ils fournissent des services supplémentaires, pour le lecteur, le gestionnaire du blog ou la plate-forme d’hébergement : partage sur les réseaux sociaux, publicité, mesure d’audience, mise en commun de certaines ressources sur des sites tiers pour plus d’efficacité, etc.

Quand on parle de cookies :). universityofscrantonlibrary, CC BY

Mais quelle qu’en soit la raison, l’ensemble de ces sites tiers peut ainsi savoir, s’ils y font attention, que vous avez consulté cette page, et même faire le lien avec votre identité et les autres sites que vous consultez.

Quand vous naviguez sur le Web, vous procurez des données volontairement, par exemple en remplissant des formulaires. Mais le plus gros des données qui partent de chez vous vient de votre navigateur qui donne aux sites que vous visitez, et à l’ensemble des sites hébergeant des ressources annexes, des informations sur vos préférences, votre identité, votre historique de navigation. Et ce que vous devez savoir : ces données, beaucoup d’entreprises les récupèrent, les stockent, les analysent, les échangent, les vendent.

Bien sûr, une partie de cette information est échangée « pour mieux vous servir ». Par exemple, votre adresse IP est indispensable pour router vos données ; des informations techniques sur votre connexion Internet vous permettent de visualiser des vidéos dans de meilleures conditions, etc. Mais cette adresse IP permet également de vous localiser. Et c’est inévitable, sans cela Internet ne marcherait pas : comment fournir de l’information sans voir sous une forme ou une autre une adresse ? Mais cela permet de vous identifier partiellement aussi, du coup. Au final, toute cette information est utilisée pour déterminer votre profil. Et ce profil va être utilisé pour mieux capturer votre attention, par exemple en vous proposant des contenus dans la langue que vous maîtrisez. Il va surtout permettre de vendre cette attention plus cher en ciblant de la publicité.

Les schémas d’échange d’informations entre entreprises du Web peuvent être complexes et aller au-delà des sites contenant des ressources référencées sur un site que vous visitez. Supposons par exemple que vous demandez un contenu et vous vous retrouvez avec un « cookie » d’une société, appelons-la SSP, qui va gérer les pubs du site que vous visitez. Vous cliquez sur une des pubs proposées et vous êtes en contact avec une nouvelle entreprise. Rien de surprenant, vous l’avez choisie ! Mais pour savoir quelle pub vous présenter, SSP a mis, sur une place de marché, les informations vous concernant, permettant à un client de cette place de marché, appelons-le DSP, de vous identifier et de vous proposer de la publicité correspondant à votre historique de navigation. Vous n’aviez pourtant aucun contact direct avec DSP. Que s’est-il passé ? Les cookies de SSP et de DSP se sont parlés. Vous êtes identifié…

Nous ne voulons pas encourager votre paranoïa. Après tout, il s’agit surtout de publicité plus ou moins anxiogène. Et il est des personnes qui trouvent intéressant de recevoir des publicités ciblées qui correspondent à leurs besoins, ce qui peut faire gagner du temps, ou affirment qu’elles ou ils n’ont rien à cacher. Mais, est-ce que ce sera toujours le cas quand notre santé pourrait avoir décliné sans qu’on veuille le faire savoir, ou que le régime politique se durcirait ? Si vous voulez vraiment vous protéger, quelques précautions :

  • Commencez par mieux comprendre comment l’informatique fonctionne, suivez des MOOC, apprenez à programmer.
  • Utilisez un navigateur Web open source et hautement configurable comme Firefox, Chromium, ou Pale Moon.
  • Activez l’option « do not track » (même si sa définition est tout sauf claire).
  • Utilisez des plug-ins comme AdBlock Plus ou uBlock Origin pour bloquer des publicités tierces sur les sites que vous consultez.
  • Utilisez des plug-ins tels que Ghostery ou DoNotTrackMe pour bloquer les cookies qui vous tracent.
  • Utilisez des plug-ins tels que NoScript pour bloquer sélectivement les scripts…
  • Mettez vos données plutôt sur un Pims (système d’information personnelle) que sur des plateformes comme Apple ou Google.
  • Utilisez si vous le pouvez plutôt GnuSocial que Facebook (pas de chance, tous vos amis sont sur Facebook)…
  • Et pour allez plus loin, vous trouverez plus d’information dans l’excellent livre de Tristan Nitot, aux éditions C&F.

Attention ! Certains sites Web ne fonctionneront plus pour vous. Après tout, nous nous sommes habitués à un Web gratuit et il faut bien que quelqu’un paye pour tout ça : la pub. Mais si seulement les systèmes étaient un peu moins opaques que ceux qui se sont mis en place… La loi et la réglementation devraient mettre un peu d’ordre dans tout cela. Mais quand ?

Un point quand même est réconfortant. Tous ces services Web qui pillent vos données ne reviennent pas si chers : quelques euros par mois par utilisateur pour les plus coûteux d’entre eux. Il faudrait juste passer à d’autres modèles commerciaux que celui des services Web actuels basés sur la publicité ciblée.

Et si vous devenez vraiment parano, disparaissez ! Masquez votre IP, par exemple, avec le navigateur Tor. Partez, peut-être, pour un village perdu où Internet n’arrive pas encore. Mais ce serait dommage car vous vous priveriez alors de tous les services super cool de l’informatique.

The Conversation

Serge Abiteboul, Directeur de recherche à Inria, membre de l’Académie des Sciences, professeur affilié, Ecole Normale Supérieure Paris-Saclay et Pierre Senellart, Professeur des Universités en informatique au Département Informatique de l’École normale supérieure, École Normale Supérieure (ENS) – PSL

La version originale de cet article a été publiée sur The Conversation.

Soutenez Epoch Times à partir de 1€

Comment pouvez-vous nous aider à vous tenir informés ?

Epoch Times est un média libre et indépendant, ne recevant aucune aide publique et n’appartenant à aucun parti politique ou groupe financier. Depuis notre création, nous faisons face à des attaques déloyales pour faire taire nos informations portant notamment sur les questions de droits de l'homme en Chine. C'est pourquoi, nous comptons sur votre soutien pour défendre notre journalisme indépendant et pour continuer, grâce à vous, à faire connaître la vérité.