Culture is future » Innovation et numérique

21.09.2015

Contribution : "Grandeurs et fantasmes du big data" par Paul Vacca (2/3)

Avec l’avènement du big data, la pensée magique a fait un retour en force. Clef d’un monde utopique pour certains, pour d’autres c’est la promesse d’un futur digne de 1984 de George Orwell. Deux camps opposés qui pourtant se rejoignent sur un même dogme : le big data va prendre possession du réel. Or il semble bien que le réel fasse de la résistance. Et si les fantasmes de toute-puissance liés au big data étaient surtout un mirage nourri aux dollars et aux mythes ? Déconstruction en 3 temps.

1. La toute-puissance du big data ou le retour de la pensée magique

2. Réel contre big data : 1 - 0

3. Des dollars et des mythes

2. Réel contre big data : 1 - 0

Pour l’heure, dans ses rêves d’omniscience le big data rencontre un obstacle : le réel. L’exemple de la NSA constitue un véritable cas d’école. Comme on ne le sait que trop désormais, l’Agence du renseignement américain collecte en masse des données via ses écoutes et ses systèmes de surveillance qu’elle sonde (la technique du datamining) avec des outils d’analyse des données (des algorithmes) dans l’espoir de détecter des suites statistiques suspectes (les signatures) à même de signaler des comportements terroristes. Pour quel résultat ? Keith Alexander, le directeur de la NSA, affirma en 2013 que le programme de surveillance de son Agence - après plus de dix ans de récoltes massives de données - avait permis de déjouer des douzaines de complots. Quelques mois plus tard, il évoquait treize événements, avant d’admettre que les menaces déjouées s’élevaient en réalité à une voire deux…

La NSA, l’illusion panoptique

Pour Grégoire Chamayou, chercheur au CNRS, ce bilan catastrophique s’explique parfaitement. Dans un article paru en juin 2015 dans la Revue du Crieur[1], il démonte point par point l’illusion panoptique dans laquelle baigne la NSA. Il rappelle la phrase d’un chercheur américain qui a souligné que « la seule chose prévisible au sujet du datamining terroriste, c’est son échec permanent ». Un échec programmé qui repose sur deux illusions majeures. La première étant la foi aveugle en la récolte de données massive, (« Collect it all ») qui plutôt que « de chercher une aiguille dans une botte de foin consiste à collecter toute la botte de foin ». Et ce, en multipliant d’autant les difficultés d’analyses. La deuxième étant la croyance qu’il existerait une « signature terroriste » - i.e. une succession d’actes qui mènerait à un attentat - que l’on pourrait déceler est fausse. Avec un double désavantage. D’une part, celui de laisser échapper de « vrais » actes terroristes. Car le principe des actes terroristes consiste précisément à déjouer les schémas préétablis en développant des modes opératoires inédits. D’autre part, celui d’en voir partout. Car si le schéma « personne possédant un camion, se rendant sur un lieu sensible et ayant acheté du nitrate d’ammonium » peut permettre d’identifier un potentiel acte terroriste, il convient tout aussi bien à la quasi totalité des agriculteurs du Nebraska qui possèdent un camion et achètent du nitrate d’ammonium (substance qui entre aussi dans la composition de l’engrais). Bref, soit la NSA ne repère pas l’acte terroriste, soit elle en repère trop.

« La prédiction est difficile surtout quand elle concerne l’avenir »

Google a connu le même type d’échec avec son « Google Flu Trends ». Cette application « révolutionnaire » lancée en 2008 permettait de suivre les épidémies de grippe en temps réel simplement grâce aux requêtes des internautes tapant « paracétamol », « grippe », « mal de tête » dans leur barre de recherche… Au départ tout le monde - dont très prestigieux magazine scientifique américain Nature - croit légitimement au miracle : les résultats sont fiables, proches de ceux donnés par le CDC, l’organisme officiel de contrôle des maladies américain. Mais plus rapidement et sans impliquer une armada de chercheurs… Sauf que très vite l’application se grippe. En 2013, les médias annoncent un risque d’épidémie et les requêtes des internautes s’affolent faussant les résultats, surestimant fortement les risques d’épidémie. L’application devient alors le reflet de l’hypocondrie des internautes plus que de la réalité. Victime d’une épidémie de requêtes, elle se dérègle totalement. Google en tire le constat et décide en aout dernier de fermer le service.

Oui, pour le big data aussi « prévoir est difficile surtout lorsqu’il concerne l’avenir » comme le remarquait Groucho Marx. Car pour l’heure le marketing prédictif à partir de nos données semées sur Internet excelle surtout dans la rétrologie, cet art de deviner le passé, en nous proposant par exemple de découvrir l’hôtel que l’on a déjà réservé deux semaines auparavant ou en nous soumettant un livre dont nous avons déjà fait l’acquisition et même lu parfois.

Smart data ou big data: Auguste Dupin contre Scotland Yard

Donc, à mesure que le big data devient toujours plus « big » - via l’hyperconnection, l’Internet des objets, l’open data et les clouds - plutôt que d’aider à révéler le réel à coup de milliards de données et de rêve d’exhaustivité, il semble plutôt l’ensevelir. À la manière d’une botte de foin qui recouvrirait l’aiguille que l’on cherche. Cette idée que l’exhaustivité rendrait maître du réel, le dupliquerait en quelque sorte, incarne une idée comptable de la réalité. Un déni de réalité, un contresens. Comme une carte à l’échelle 1/1 qui se confondrait avec le territoire qui possèderait toutes les garanties de la précision comptable mais se révèlerait inapte à nous guider.

De fait - et c’est l’apport décisif des philosophes de Descartes aux phénoménologistes en passant par Kant -  le réel n’est pas une compilation de données si exhaustive soit-elle, il est une hypothèse. Il n’est pas donné, livré tel quel, il est une construction de notre intelligence. Voilà pourquoi certains préconisent de replacer de l’intelligence et du facteur humain au cœur des clouds et du déluge de données. Et d’opter pour le smart data préférant la pertinence et le discernement dans le recueil des données et l’intelligence dans leur analyse.

La parfaite illustration de la différence de démarche entre smart et big data - et de leur efficacité respective - nous est apportée par la nouvelle d’Edgar Poe, « La Lettre Volée »[2]. Alors que les équipes de Scotland « big data » Yard s’escriment en vain à passer au peigne fin le moindre millimètre carré de l’appartement à la recherche de la lettre compromettante, le détective Auguste « smart data » Dupin s’appuyant sur quelques données pertinentes découvre avant même de se rendre à l’appartement où se trouve précisément la lettre… Mais nous ne révèlerons pas la solution pour ne pas spoiler ceux qui n’auraient pas encore lu ce bijou d’intelligence.


[1] Lire l’excellent long format « Dans la tête de la NSA - une histoire philosophique du renseignement américain » par Grégoire Chamayou dans Le Crieur n°1 - Juin 2015 (La Découverte/Médiapart)

[2] « La Lettre volée » dans Histoires Extraordinaires, Edgar Allan Poe (Livre de Poche)

À propos de Paul Vacca

Paul Vacca est romancier, essayiste et consultant. Il scrute les transformations de la société liées au numérique ainsi que les tendances des marchés culturels et des médias. Il a notamment publié des articles dans TechnikartLe Monde et La Revue des Deux Mondes, intervient pour des conférences à l’Institut Français de la Mode et collabore au think-tank La Villa Numeris. Derniers ouvrages parus : le roman Comment Thomas Leclerc 10 ans 3 mois et 4 jours est devenu Tom l’Éclair et a sauvé le monde (Belfond 2015) et l’essai La Société du hold-up - Le nouveau récit du capitalisme (Fayard 2012).

Sur Twitter : @Paul_Vacca