De la polémique Google sur la vie privée

Il y a des jours comme ça où on se dit, après la lecture d’un billet, et puis d’un autre… qu’après tout, on devrait laisser tomber les combats que l’on juge importants. J’ose cependant croire qu’il s’agissait pour le premier d’un billet totalement irréfléchi, mal inspiré et surtout pas du tout documenté. Un billet, gentiment benêt, et donc excusable. Pour le second, j’ose espérer qu’il s’agit d’un billet autocentré sur le nombril de son auteur, lui aussi non réfléchi et non documenté… soit. Sauf qu’il est tout de même compliqué de ne pas réagir.

 

Au coeur de la pseudo polémique, la collecte et l’exploitation des données personnelles collectées par Google. Tout le Net en parle, la presse y compris, on peut lire un peu de tout et surtout beaucoup de n’importe quoi. Il est toujours délicat de causer de Google. J’admire les personnes qui sont capables d’élaborer une reflexion sur un sujet aussi complexe et se forger leur opinion en une vingtaine de lignes, sans même avoir lu ce que Google dit collecter, ce qu’il en fait, ni souvent d’ailleurs sans connaitre les services proposés par ce qui ressemble de plus en plus à l’étoile noire des données personnelles.

 

Même si l’on fait preuve d’un esprit de synthèse brillant, qu’on pense connaitre Google de A à Z parce qu’on utilise Gmail et Youtube, la question des données personnelles et de la protection de la vie privée méritent une réflexion un tantinet plus poussée.

 

Google est un univers

Il fut une époque où une immense majorité d’utilisateurs d’Internet assimilaient dans leur inconscient l’icône d’Internet Explorer, le navigateur de Microsoft à Internet. Quand vous demandiez à une personne au téléphone de lancer son navigateur, elle vous faisait un long « heeeeiiiiiiiiiinn » et vous finissiez par craquer en lui disant « le E bleu d’Internet », il s’en suivait un « aaaaahhhh » soulagé quasi systématique.

 

Dans l’inconscient de ces internautes (souvent les mêmes, mais toujours une majorité), aujourd’hui Internet = Google. C’est le premier point de contact visuel après le lancement du navigateur. C’est un univers dans lequel des centaines de millions de personne évoluent tous les jours, parfois même sans s’en rendre vraiment compte. Ces internautes :
  • font des recherches sur Internet et de plus en plus souvent avec le navigateur de Google, Chrome;
  • consultent les actualités sur Google News ;
  • lisent leur mail dans Gmail ;
  • regardent des vidéos sur Youtube ;
  • partagent leurs photos de famille sur Picasa ;
  • supertweetpokent de manière géolocalisée sur Google+ ;
  • préparent leurs vacances sur Google Map ;
  • se guident grâce à Google Street View ;
  • téléphonent avec Google Voice, quand ce n’est pas depuis leur téléphone Android ;
  • regardent la TV avec GoogleTV ;
  • écoutent de la musique sur Google Music ;
  • … arrêtons nous ici, la liste des services proposés par Google est interminable.

Un univers qui reste une partie d’Internet

Google n’est pas qu’un moteur de recherche, c’est un univers et c’est un univers, qui contrairement à AOL en son temps a réussi à trouver un juste équilibre pour retenir les utilisateurs, tout en les laissant sur Internet. Ceux qui ont connu AOL comprennent surement de quoi je parle, ce n’est probablement pas le cas pour les plus jeunes, sachez simplement que si aujourd’hui AOL est mort, c’est parce qu’il contraignait ses utilisateurs à accéder à une sorte de gros intranet, ce, exclusivement depuis son navigateur propriétaire, inclus dans son kit de connexion, indispensable pour accéder à cet ersatz d’Internet.

 

Si Google et ses services venaient à « s’éteindre » brutalement, Internet fonctionnerait toujours. En revanche, la majorité des internautes seraient perdus. Ils perdraient des points de repère et devraient se formaliser avec l’utilisation de plein de services, non unifiés sous un logo, une ergonomie, une cohérence.

 

Pour de nombreuses entreprises en revanche, les effets seraient bien plus gênants. Quand Google change son algorithme de positionnement pour afficher ses résultats de recherche, certains e-commerçants très bien positionnés sur une recherche donnée se retrouvent subitement 4 ou 5 pages plus loin sur des produits qui généraient une grosse partie de leur chiffre d’affaires. C’est quelque chose dont je m’étais amusé sur Reflets, de manière un peu méchante. Google a un impact énorme sur le chiffre d’affaires des e-commerçants.

 

Gratuit… en échange de votre vie privée

Google propose des services gratuits pour l’usage couvrant de nombreux besoins des particuliers. Cette gratuité pour le grand public de la quasi intégralité de ses services, leur caractère plus que confortable en terme de volume, d’ergonomie ou de simplicité d’accès sont très appréciés, et à juste titre. Mais la gratuité n’existant, pas, Google a pour modèle économique de financer cette gratuité grâce à sa régie publicitaire Google Ads.

 

Toute la polémique qui agite tant le Net aujourd’hui, porte sur 2 points :

 

  • La premier, médiatiquement le plus anecdotique, concerne une partie de Google Ads, le Google Display Network, les display ads étant l’un des 5 produits d’affichage des publicités de Google. Les 4 autres sont les Search Ads, les Video & YouTube Ads, les TV Ads et le Mobile Ads. La brouille oppose Apple à Google, le premier reprochant au second d’avoir contourné des dispositifs normés du navigateur web d’Apple, Safari, ainsi que ceux d’IOS, son système d’exploitation embarqué que l’on retrouve sur ses téléphones (iPhone) et ses tablets (iPad). Nous ne nous attarderons pas sur ce point, pour éviter de partir dans des considérations trop techniques.
  • Le second concerne le changement de règles de confidentialité des services de Google qui entrait en vigueur hier, le 1er mars. Pour faire très simple au risque de faire simpliste, Google va maintenant s’octroyer le droit de consolider les données qu’il collectait de manière indépendante sur ses divers services. Il ne collecte dans les faits pas plus d’informations qu’avant, mais il les centralise, et donc peut avoir plus de facilités à les croiser.

 

On peut dater assez précisément le début de l’évolution de la politique de confidentialité de Google, il s’agit de l’arrivée de Google+. À l’instar de Facebook, Google+ est un service trop complexe pour que les règles de confidentialité soient simples. Nous allons voir qu’il s’agit d’un service qui en regroupe de nombreux autres, et qui donc par définition, cumule un nombre effarant de données collectées, consolidées par défaut, et rattachées, à un compte… nominatif.

 

Le business des données personnelles

Quand on parle de données personnelles, on aime distinguer :
  • La collecte des données ;
  • Le traitement des données (processing) ;
  • L’utilisation des données (exploitation) ;
  • La durée de conservation des données (rétention).

Les données collectées

Google est plutôt transparent sur les données qu’il collecte pour qui se donne la peine de lire de quoi il en retourne. Il y a quand même une limite par rapport à cette transparence, c’est que pour beaucoup d’utilisateurs, tout ceci demeure du charabia technique, bien peu parlant. Voici par exemple ce que Google collecte sur un utilisateur de son service Google Music. Il s’agit d’un exemple particulièrement intéressant qui donne bien l’étendue du degré de connaissance que Google peut avoir sur ses utilisateurs

google privacy datas collected

Le moins que l’on puisse dire, c’est que ça fait beaucoup. Ça fait beaucoup, mais Google vous le dit, et certains ne prennent pas cette peine, y compris en France. On peut donc reprocher la masse d’informations que Google accumule et il faut comprendre que ceci est grandement une conséquence du nombre de services qu’il propose. Mais il va être compliqué de lui reprocher son manque de transparence sur la question.

 

Autre point de reproche lié à la collecte, et même en amont, il s’agit du point relatif à l’identification aux services. Il s’agit d’une authentification unifiée : un identifiant et un mot de passe vous donnent accès à l’ensemble des services de Google, il est rarement besoin (sauf dans le cas d’une acquisition récente) d’avoir à se créer un compte pour accéder à un nouveau service de Google. Votre identifiant, vous le savez, c’est une adresse email Gmail, bien pratique pour son caractère par nature unique.

 

Le traitement et l’utilisation des données

La nature des services proposés par Google (en ligne), fait que l’entreprise ne distinguera pas, ou dans de rares cas, traitement et exploitation. Le traitement à proprement parlé est automatisé et instantané. C’est de ce traitement dont découle ensuite la démarche commerciale de Google. En clair, c’est de là qu’il tire ses bénéfices. Et là en revanche il faut bien comprendre que Google dispose de bien des manières d’exploiter, directement ou indirectement vos données. Dans le cadre d’une exploitation directe, Google les utilisera pour  « fournir, maintenir, protéger  ou améliorer ses propres services« . Il pourra aussi se servir de ces données pour développer de nouveaux services. Le point relatif à la protection des services est à mon sens très intéressant mais il est bien trop technique pour le traiter dans ce billet, il en mériterait un à lui seul.

 

Il est également à noter que Google propose à ses utilisateurs des outils lui permettant un certain contrôle sur ce qu’il partage comme données, je cite :
  • Review and control certain types of information tied to your Google Account by using Google Dashboard.
  • View and edit your ads preferences, such as which categories might interest you, using the Ads Preferences Manager. You can also opt out of certain Google advertising services here.
  • Use our editor to see and adjust how your Google Profile appears to particular individuals.
  • Control who you share information with.
  • Take information out of many of our services.
Vos activités sur Google font ce que vous attendez d’elles, mais parfois elles en font aussi un peu plus. Vous avez tous eu un jour où l’autre à utiliser reCaptcha, un outil racheté par Google, que tout le monde pense être une simple protection antispam. Et bien vous ne le saviez peut être pas, mais en plus d’être une solution antispam, reCaptcha a été utilisé par Google afin d’améliorer ses performances en matière de reconnaissance de caractères (OCR) dans le cadre de son titanesque projet de numérisation de livres, Google Books, ainsi que les anciens numéros du New-York Times.

 

La rétention de données

C’est le second point de notre bref exposé qui pourrait avoir de quoi sérieusement nous fâcher. Dans cet article d’Arstechnica, on découvrira que selon le site, Google se sent investis d’une mission : « apprendre des bonnes personnes pour combattre les mauvaises personnes« … et ça, il y a vraiment de quoi trouver ça effrayant, surtout dit comme ça, en dehors de tout contexte.

 

La réalité en fait assez duale, ce n’est ni tout blanc, ni tout noir. Cependant la durée de conservation de certaines données est illimitée. La commission européenne a demandé à Google d’anonymiser les données relatives aux recherches, c’est ce que Google fait plus ou moins en supprimant le dernier octet de l’adresse IPau bout de 6 mois. Mais lorsque l’on parle d’anonymisation, on se doute bien que cette mesure est loin d’être suffisante. Le dernier octet effacé sur les IP ayant servi à faire des recherches ne suffiront certainement pas à anonymiser, au sens de garantir l’anonymat de l’internaute. Ces données pouvant être corrélées à d’autres services il sera toujours très simple de les rattacher à un compte Gmail, des historiques de chat, et donc obtenir l’identification de la personne, même si cette dernière a changé entre temps d’IP. On peut donc estimer que Google conserve ces données à vie et qu’il a en outre le loisir de les croiser avec beaucoup d’autres : carnets d’adresse, vidéo regardées sur Youtube, bibliothèque musicale de Google music ou encore déplacements via l’API de google maps avec des produits tels que Latitude. Données non anonymisées… rétention à vie… exploitation commerciale, dont la revente ou le partage à des tiers (avec votre consentement, pour peu que vous preniez la peine de lire ce que Google vous propose quand vous souscrivez à ses services)… vous commencez peut être à mieux comprendre le problème.

 

« Même pas peur j’ai rien à me reprocher »

C’est ici une réflexion qui m’agace au plus haut point, l’argument des personnes qui n’ont aucune compréhension des problématiques de la gestion de données personnelles à caractère nominatif. C’est typiquement le cas de l’auteur de ce billet qui n’a d’ailleurs probablement jamais lu ce que que Google conserve comme données sur lui, et encore moins combien de temps il les garde ou ce qu’il se réserve le droit d’en faire. C’est au bas mot triste pour lui, mais il est surtout parfaitement inconscient de véhiculer l’idée que « après tout ce n’est pas grave puisque je n’ai rien à me reprocher« .

 

Et dans ce domaine, la palme de la bêtise revient à ce billet, techniquement parfaitement faux. Je cite : « Je pense que notre ISP en sait encore plus que google, tout comme nos opérateurs mobiles et là on ne dit rien? Si vous avez un package complet chez SFR (tv, téléphone, internet), toutes vos données passent dans le même tuyau.« . La comparaison avec un fournisseur d’accès à Internet en France est nulle et non avenue. Un fournisseur d’accès est régi par certaines lois, comme le Code des Postes et communications électroniques et surtout l’article 226-15 du code pénal. Pour les comprendre, il faut encore une fois distinguer le métier d’un FAI : acheminer vos communications, et les principes relatifs aux données personnelles que j’ai cité plus haut :
  • La collecte des données ;
  • Le traitement des données (processing) ;
  • L’utilisation des données (exploitation) ;
  • La durée de conservation des données (rétention).
Un FAI a une obligation légale de conservation, pendant une période donnée, de journaux de connexion. Ces derniers ne visent qu’à une seule chose : mettre un nom derrière une adresse IP à un instant T en cas de réquisition judiciaire. Il existe ensuite une exception, il s’agit de l’interception légale, qui permet aux FAI, sur demande expresse des autorités judiciaires, de procéder à des écoutes dites légales, c’est à dire des interceptions des vos communications qui seront soumises à un régime spécial de rétention.

 

L’auteur de ce même billet est également  parfaitement inconscient  en terme de mesure du danger de l’exploitation des données personnelles : Je cite « Je ne surfe pas sur des sites pédophiles ou illicites. Même si je surfe sur des sites porno, ce n’est pas illégal  que je sache, alors google peut toujours m’espionner. » Gageons que l’auteur apprécierait que sa femme recoive des catalogues de sextoys par la Poste parce que ce dernier est passé devant un sex shop. Je dis bien devant… je ne parle même pas de rentrer, nous allons y revenir avec le Deep Packet Inspection.

 

Un chiffre devrait commencer à vous faire réfléchir. Aujourd’hui Facebook serait cité dans un cas de divorce sur trois au Royaume-Uni. Le caractère intrusif et l’aspect un peu « mouchard » des réseaux sociaux est indéniable et il arrive forcément, un jour, où ceci a un impact, direct ou indirect sur votre vie… même au bistrot !

 

Un autre point, bien connu des techniciens, c’est celui de la publicité contextuelle en temps réel lorsque vous utilisez la messagerie Gmail à partir de l’interface de Google. Quand vous écrivez un mail à votre compagne pour lui demander où elle souhaite partir en vacance et que vous voyez apparaitre alors même que vous composez le message, des publicités pour des séjours tout compris en Tunisie, SVP, ne croyez pas un instant qu’il s’agisse la de hasard. Techniquement, Google lit vos emails pour vous renvoyer une publicité contextualisée. Dans cet article traitant également de la vie privée et des pratiques des publicitaires utilisant ces technologies d’inspection en profondeur des paquets (Deep Packet Inspection) à des fins publicitaires, souvent hors de tout controle (à priori pas en France, mais on va y revenir…), je m’étais insurgé contre cette pratique.

 

La CNIL ? … et pourquoi pas le père Noel ?

« Je suis en France tout va bien j’échappe à ces pratiques, la CNIL me protège« … monumentale erreur !

La CNIL cautionne parfaitement cette pratique pourtant par définition assimilable à du viol de correspondance privée, en l’encadrant cependant semble t-il de manière très stricte… voir l’expérimentation Orange Préférences et une représentante de la CNIL en faire la promotion à la radio sans nommer ni Orange ni la technologie en question.

 

Mais si la CNIL a pu encadrer Orange en exigeant certaines garanties sur la collecte, le traitement et l’exploitation des données analysées dans le cadre d’Orange Préférences, il n’en va pas du tout de même pour des entreprises non françaises. Et devinez qui on retrouve au coeur d’une expérimentation de ce type ? … Google ! Le service se nomme Google Screenwise, et comme pour Orange Préférences, il se fait sur Opt-In. Si Google rémunère les utilisateurs qui acceptent de se faire violer un peu plus leur vie privée, Google n’avoue pas publiquement utiliser de l’inspection en profondeur de paquets. Une lecture attentive des termes d’utilisation de ce service nous a permis de mettre en évidence un élément particulièrement inquiétant, par l’intermédiaire de GFK, partenaire de Google sur cette opération qui n’est autre qu’un actionnaire de Qosmos une entreprise française, qui est l’un des leaders mondiaux du Deep Packet Inspection. Avant de vous laisser séduire par Screenwise, de grâce lisez cet article. Et la CNIL, concernant Screenwise… on ne l’a pas entendu.

 

Enfin, il faut savoir qu’il n’est nul besoin de délivrer un service en France, et donc d’être soumis à nos lois restrictives en matière de protection de la vie privée, pour opérer une écoute et une interception de vos données sur Internet. Ce petit schéma devrait vous éclairer sur le nombre important de points sur le réseau qui permettent à des publicitaires, en dehors de tout contrôle, d’espionner votre activité sur Internet pour vous proposer de la publicité contextuelle ou collecter ces données à des fins de revente à des tiers.

 

Ne serait-ce qu’au niveau français, on ne peut pas dire que la CNIL fasse preuve de zèle. Il est naturel de l’entendre de temps en temps s’exprimer contre de « gros acteurs », c’est toujours bon en terme de communication et ça justifie les budgets. Il est en revanche bien plus rare de voir la CNIL monter au créneau pour des affaires pourtant très grave, comme cette énorme fuite de données à l’UMP où MesConseils, une petite entreprise visiblement peu qualifiée pour traiter des données personnelles, a eu l’idée grandiose de stocker sur des machines poubelles, des bases de données sensibles qui contenaient des mots de passe de parlementaires pour accéder à des applications du réseau de l’Assemblée Nationale ou du Sénat. A quoi servaient ces bases de données, comment ont elles pu se retrouvées gérées de manière aussi catastrophique ? … une fois de plus, la CNIL on ne l’a pas entendu.

 

La dernière foi que l’on a entendu la CNIL (et oui c’était encore à cause de nous)  se pencher sur un cas en France, c’est sur celui de TMG, dans le cadre de la procédure de riposte graduée de l’HADOPI. Et encore il y aurait encore énormément à en dire. Le rapport de la CNIL n’a pas été rendu public après que TMG ait été mis en demeure. Puis quelques semaines plus tard, dans une parfaite opacité, celle ci déclare que « maintenant c’est bon il n’y a plus de problème« … sans plus d’explication. L’HADOPI n’a pas été dupe n’a d’ailleurs, jusqu’à aujourd’hui encore, pas rétabli l’interconnexion entre son système et celui de TMG.

 

Conclusion … La CNIL, c’est bien mignon, mais ça ne sert pas à grand chose.Entendre la CNIL émettre des avis sur Google relève surtout du grand spectacle, mais sur le fond c’est relativement inintéressant. D’ailleurs Google lui a gentiment objecté une fin de non recevoir, lui expliquant que revenir en arrière créerait plus de confusion chez les utilisateurs qu’autre chose… ce qui est en pratique parfaitement vrai.

 

Plus sérieusement comment on fait ?

Ne pas être d’accord avec les règles de confidentialité de Google vous laisse en fait 3 alternatives.

  • Ne plus utiliser Google : une solution radicale, mais ne fera pour le coup aucune concession en matière de vie privée
  • Compter sur la CNIL pour qu’elle inflige une amende à Google : nous avons vu un peu plus haut que ce n’est certainement pas une amende qui changera un fait inhérent au pachydermique et incontournable Google. Nous avons également vu qu’il convient d’avoir une confiance toute relative en la CNIL attendu que celle-ci n’est déjà pas ultra réactive en France et que ce n’est surement pas pour des entreprises qui opèrent à l’étranger qu’elle sera techniquement et juridiquement compétente pour vous protéger.
  • Utiliser Google de la manière la plus anonymisée possible : il existe des manières, moyennant quelques sacrifices en terme de confort d’utilisation qui vous permettent de conserver un certain anonymat en utilisant les services de Google. Elles mériteraient elles aussi un billet à elles seules mais voici déjà quelques pistes très simples concernant l’utilisation du service de mail de Google :
  1. Préférer un client mail comme Thunderbird/enigmail, chiffrer ses emails avec OpenPGP.
  2. A la création du compte Gmail aller faire un tour dans les paramètres de son compte pour y désactiver l’archivage des conversations Gtalk (paramètres de votre compte mail sur l’interface de Google, puis onglet « chat »).
  3. Gtalk le chat de Google, qui est également un compte Jabber. Ceci veut dire qu’avec un client compatible comme Pidgin on peut avec ce compte parler de manière chiffrée grâce à l’extension OTR