Archives Mensuelles: juillet 2014

Activating Latent Knowledge Capacity

Last week, we wrapped up another successful Learning Analytics Summer Institute at Harvard. The recordings of most of the talks and panels can be found here. Since we were already in town, Dragan Gasevic and I were invited by edX to give a talk to their staff and member institutions (we are running a course on edX in fall on Data, Analytics, & Learning).

The focus for the talk at edX, slides below, was to try and get at what is wrong with MOOCs and education in general. To answer the challenge of “what is wrong with education” it’s helpful to step back a bit and consider two challenges.

1. We aren’t connecting

Historically, society has created knowledge institutions that mirror what is done with information in a particular era – see McNeely & Wolverton. In this line of reasoning, we can best understand the future of education by understanding what is being done with information today. After about a decade of experience with web 2.0, social media, participative technologies, it’s not unreasonable to state that at least a segment of society today recognizes information as multi-authored, participative, distributed, and networked.

In education, many of us have been advocating for networked learning (or as Stephen Downes and I have been articulating it, connectivism). Academic conferences and even the K-12 space has turned to networks as a way to describe what learning is and how it happens. The one draw back to networked learning is that while we have managed to advance conversation on the fragmentation of learning so that it is not a cohesive whole created solely by the instructor, we have not yet advanced the process of centring or stitching together fragmented parts into cohesive wholes for individuals. Some rudimentary progress includes the use of #hashtags to stitch together distributed conversations but this only provides a one medium aggregation. The best implemented model for pulling together multi-platform conversations that I’ve seen to date is Downes’ gRSShopper. That leaves us at a difficult point educationally. Progress has been made on pulling centralized information elements apart (this is particularly evident in media with newspapers or TV news programs – I get the majority of my news in bits and pieces through a mess of different tools and sites), but we haven’t yet developed the technologies that will allow pulling things back together into coherent, personally owned, wholes.

This is no small challenge. In many ways, this is where computing was in two separate phases: pre-Microsoft Office and pre-Facebook. I remember when I used to work with distinct software tools like Quattro and WordPerfect (before they were owned by one company). Moving data between different software was a pain. MS came along and blessed society with Office – an integrated suite. It pulled together what I used to do in several different tools. Facebook plays a similar integrative role for participative technologies. For people who had been blogging since late 1990′s or early 2000′s, Facebook wasn’t of much value. Between flickr,, blogs, RSS readers, and wikis, we were living the distributed, networked, learning dream. Unfortunately, only a small percentage of society wants to deal with a range of 10 different tools. Ease of use and low-barrier to entry rules the day. Facebook allowed anyone to start sharing images, ideas, and form social networks and to do so in a single tool with similar functionality across different activities. My social network used to consist of the people in my RSS reader. Facebook made connecting easy and they were rewarded as a billion+ people joined. The key lesson here is that integrative technologies, in spite of the current app trend, draw greater numbers of users than single functionality tools.

The importance of integrative toolsets for learners cannot be overlooked. It is unreasonable to expect a learner to care about the same issues that an instructor of a participatory course cares about. While concerns of access, participation, and equity might be important to me, a learner may well enter a course with the primary goal of learning a skill or concept. My values may not be her values.

2. Latent Capacity

Technology cannot be reduced to a single narrative or outcome. While “web 2.0″, as a term, symbolized participation and collaboration, it is really a multi-narrative strand where some people were enabled and others were shut out, some were given a platform and others lost a platform, some connected with their readers/fans and others were exposed as [insert label] to their fans/readers. There are many narratives to describe the tools that today define how people interact. I have been grappling with understanding the prominent or even dominant impact of technology – i.e. what is one aspect of technology that is most pronounced and most misunderstood? Keeping in mind that a single narrative has shortcomings, I’ll argue that activation of latent capacity is the driving element of every successful technology of the past 15 years. Uber uses latent car capacity. Airbnb, latent physical space capacity. Twitter/Facebook, activate multiple latent capacities: sharing, social connections, and images. The Arab Spring, now sadly turned into a rather harsh winter, and Occupy Wall Street activate the latent power capacity of individuals. A system of control and oppression can be challenged when people take up their power, their voice.

In education exists the most substantive latent capacity in society. A classroom consists of 30 (or sometimes 300) people listening to a teacher teach. The knowledge and creative capacity of any class is stunning. Unfortunately, this knowledge is latent as the system has been architected, much like a dictatorship, to give control to one person. In many cases, students have become so accustomed to being “taught” that they are often unable, at first, to share their knowledge capacity. This is an experience that I have had in every MOOC that I’ve taught. The emphasis in MOOCs that I’ve been involved with is always on learners taking control, learners joining a network, or learners becoming creators. In a Pavolovian sense, many learners find this process disorienting and uninviting. We have been taught, after a decade+ of formal schooling, to behave and act a certain way. When someone encourages a departure from those methods, the first response is confusion, distrust or reluctance.

I’ll call my theory of knowledge and learning “100 people in a room”. If we put 100 people in a room, the latent knowledge capacity of that room in enormous. Everyone in this room has different life experiences, hobbies, interests, and knowledge. We could teach each other math, physics, calculus. We could teach poetry, different languages, and political theory. The knowledge is there, but it is disconnected and latent. Much of that knowledge is latent for two reasons: 1) We don’t know what others know, 2) connections aren’t made because we are not able with our current technologies to enable everyone to speak and be heard.

Personal Knowledge Graph

To address these shortcomings, I’ve been arguing for the development of something like a Personal Knowledge Graph (PKG). The main idea is that learners need a way to express and articulate what they know. This can be done through someone explicitly stating “I know this” or it could be mined or inferred. Learners need to own their PKG but it should be shareable with schools, companies, and peers.

Once we know what people know, we have a chance to activate latent knowledge through social and technological approaches. The work that Dragan Gasevic has done with his doctoral students indicates that learners begin to use hashtags as a cognitive agent. In some cases, a hashtag becomes a more important agent than a faculty member. In other instances, recommender systems could connect individuals who have complimentary and/or opposing knowledge graphs. This leads to new pedagogical models and changing roles for universities, notably a transition from spraying the same content to all learners to a more nuanced (knowledge gap filling?) approach.

Education is approaching where the web was in mid-2000′s – a growing range of technologies providing certain opportunities for learning and interaction, but largely fragmented. Education is waiting for it’s latent capacity activating tool, or at minimum, a means of giving each learner the ability to stitch together a coherent interpretation of a knowledge domain. Of course we need feedback loops and systems of recognition. It is not enough that I state I know something. Peers, faculty, and employers should be able to comment on my claims and I should be able to provide evidence. When I do not understand a concept correctly, there should be processes for correction.

If, when, education begins to focus on activating the knowledge of individuals rather than primarily focusing on single point knowledge pontification, new concerns will arise. For example, how can creativity be encouraged when learners receive personalized content addressing knowledge gaps? What happens to formal assessment? What role does expertise play in a room of 100 knowledgeable people? The transitions underway in society, in knowledge, and in universities, are long term and won’t be played out in the next few years. It’s a decades long transition. But it is important to begin challenging legacy assumptions and start considering, however imperfect our ability to see it today, what an education system looks like when we activate latent capacities of all participants.

This was written by gsiemens. Posted on Saturday, July 5, 2014, at 12:53 pm.


The Hives > Look at TheHivesTV on Youtube



Au-delà de l’espionnage technologique

Mise en données du monde, le déluge numérique

Amitiés, pensées, échanges, déplacements : la plupart des activités humaines donnent désormais lieu à une production massive de données numérisées. Leur collecte et leur analyse ouvrent des perspectives parfois enthousiasmantes qui aiguisent l’appétit des entreprises. Mais la mise en données du monde risque aussi de menacer les libertés, comme le montre le tentaculaire programme de surveillance conduit aux Etats-Unis.

par Kenneth Cukier et Viktor Mayer-Schönberger, juillet 2013

Au IIIe siècle avant notre ère, on disait de la bibliothèque d’Alexandrie qu’elle renfermait la totalité du savoir humain. De nos jours, la masse d’informations disponibles est telle que, si on la répartissait entre tous les Terriens, chacun en recevrait une quantité trois cent vingt fois supérieure à la collection d’Alexandrie : en tout, mille deux cents exaoctets (milliards de milliards d’octets). Si on enregistrait le tout sur des CD, ceux-ci formeraient cinq piles capables chacune de relier la Terre à la Lune.

L’hyperinflation des données est un phénomène relativement nouveau. En 2000, un quart seulement des informations consignées dans le monde existaient au format numérique. Papier, film et support analogique se partageaient tout le reste. Du fait de l’explosion des fichiers — leur volume double tous les trois ans —, la situation s’est renversée dans des proportions inouïes. En 2013, le numérique représente plus de 98 % du total. Les Anglo-Saxons ont forgé un terme pour désigner cette masse devenue si gigantesque qu’elle menace d’échapper au contrôle des gouvernants et des citoyens : les big data, ou données de masse.

Devant leur démesure, il est tentant de ne les appréhender qu’en termes de chiffres. Mais ce serait méconnaître le cœur du phénomène : l’immense gisement de données numériques découle de la capacité à paramétrer des aspects du monde et de la vie humaine qui n’avaient encore jamais été quantifiés. On peut qualifier ce processus de « mise en données » (datafication). Par exemple, la localisation d’un lieu ou d’une personne a d’abord été mise en données une première fois par le croisement de la longitude et de la latitude, puis par le procédé satellitaire et numérique du Global Positioning System (GPS). A travers Facebook, même les goûts personnels, les relations amicales et les « j’aime » se changent en données gravées dans la mémoire virtuelle. Il n’est pas jusqu’aux mots qui ne soient eux aussi traités comme des éléments d’information depuis que les ordinateurs explorent des siècles de littérature mondiale numérisée.

Les bases ainsi constituées se prêtent à toutes sortes d’usages étonnants, rendus possibles par une mémoire informatique de moins en moins coûteuse, des processeurs toujours plus puissants, des algorithmes toujours plus sophistiqués, ainsi que par le maniement de principes de base du calcul statistique. Au lieu d’apprendre à un ordinateur à exécuter une action, comme conduire une voiture ou traduire un texte — objectif sur lequel des cohortes d’experts en intelligence artificielle se sont cassé les dents durant des décennies —, la nouvelle approche consiste à le gaver d’une quantité d’informations suffisante pour qu’il déduise la probabilité qu’un feu de circulation soit vert plutôt que rouge à chaque instant, ou dans quel contexte on traduira le mot anglais light par « lumière » plutôt que par « léger ».

Pareil usage suppose trois changements majeurs dans notre approche. Le premier consiste à recueillir et à utiliser le plus grand nombre possible d’informations plutôt que d’opérer un tri sélectif comme le font les statisticiens depuis plus d’un siècle. Le deuxième implique une certaine tolérance à l’égard du désordre : mouliner des données innombrables, mais de qualité inégale, s’avère souvent plus efficace qu’exploiter un petit échantillon impeccablement pertinent. Enfin, le troisième changement implique que, dans de nombreux cas, il faudra renoncer à identifier les causes et se contenter de corrélations. Au lieu de chercher à comprendre précisément pourquoi une machine ne fonctionne plus, les chercheurs peuvent collecter et analyser des quantités massives d’informations relatives à cet événement et à tout ce qui lui est associé afin de repérer des régularités et d’établir dans quelles circonstances la machine risque de retomber en panne. Ils peuvent trouver une réponse au « comment », non au « pourquoi » ; et, bien souvent, cela suffit.

Google et l’algorithme de la grippe

De même qu’Internet a bouleversé les modes de communication entre individus, la manière dont la société traite l’information se trouve radicalement transformée. Au fur et à mesure que nous exploitons ces gisements pour élucider des faits ou prendre des décisions, nous découvrons que, à bien des égards, nos existences relèvent de probabilités davantage que de certitudes.

Ce changement d’approche à l’égard des données numériques — exhaustives et non plus échantillonnées, désordonnées et non plus méthodiques — explique le glissement de la causalité vers la corrélation. On s’intéresse moins aux raisons profondes qui président à la marche du monde qu’aux associations susceptibles de relier entre eux des phénomènes disparates. L’objectif n’est plus de comprendre les choses, mais d’obtenir une efficacité maximale.

Prenons l’exemple de United Parcel Service (UPS), la plus grande compagnie mondiale de livraison. Elle a installé des capteurs sur certaines pièces de ses véhicules pour identifier les problèmes de surchauffe ou de vibration corrélés aux défaillances que ces pièces ont présentées par le passé. En procédant ainsi, elle peut anticiper la panne et remplacer les pièces défectueuses au garage plutôt que sur le bord de la route. Les données n’identifient pas le lien de causalité entre augmentation de la température et dysfonctionnement de la pièce ; elles ne diagnostiquent pas la source du problème. En revanche, elles indiquent à UPS la marche à suivre pour prévenir des incidents coûteux.

La même approche peut s’appliquer aux défaillances de la machinerie humaine. Au Canada, des chercheurs ont ainsi trouvé le moyen de localiser les infections chez les bébés prématurés avant que les symptômes visibles n’apparaissent. En créant un flux de plus de mille données par seconde, combinant seize indicateurs, parmi lesquels le pouls, la tension, la respiration et le niveau d’oxygène dans le sang, ils sont parvenus à établir des corrélations entre des dérèglements mineurs et des maux plus sérieux. Cette technique devrait permettre aux médecins d’intervenir en amont pour sauver des vies. Au fil du temps, l’enregistrement de ces observations pourrait également les aider à mieux comprendre ce qui provoque de telles infections. Cependant, lorsque la vie d’un nourrisson est en jeu, il est plus utile d’anticiper ce qui pourrait se produire que de savoir pourquoi.

L’application médicale illustre bien cette possibilité d’identifier des corrélations, même lorsque les causes qui les sous-tendent demeurent obscures. En 2009, des analystes de Google ont publié dans la revue Nature un article qui a fait sensation dans les milieux médicaux (1). Ses auteurs affirmaient qu’il était possible de repérer les foyers de grippe saisonnière à partir des archives du géant de l’Internet. Celui-ci gère pas moins d’un milliard de requêtes par jour sur le seul territoire américain, et conserve scrupuleusement trace de chacune de ces opérations. Il a sélectionné les cinquante millions de termes les plus fréquemment saisis sur son moteur de recherche entre 2003 et 2008, puis les a croisés avec le fichier de la grippe des centres pour le contrôle et la prévention des maladies (Centers for Disease Control and Prevention, CDC). Objectif : découvrir si la récurrence de certains mots-clés coïncidait avec les apparitions du virus ; en d’autres termes, évaluer la possible corrélation entre la fréquence de certaines recherches sur Google et les pics statistiques enregistrés par les CDC sur une même zone géographique. Ceux-ci recensent notamment les consultations hospitalières des malades de la grippe à travers tout le pays, mais ces chiffres brossent un tableau souvent en décalage d’une semaine ou deux : une éternité dans le contexte d’une pandémie. Google, lui, peut fournir des statistiques en temps réel.

La société ne disposait d’aucun élément pour deviner quels mots-clés pouvaient fournir une indication probante. Elle s’est contentée de soumettre tous ses échantillons à un algorithme conçu pour calculer leur corrélation avec les attaques du virus. Son système a ensuite combiné les termes retenus pour tenter d’obtenir le modèle le plus fiable. Après cinq cents millions d’opérations de calcul, Google est parvenu à identifier quarante-cinq mots-clés — comme « mal de tête » ou « nez qui coule » — dont la réitération recoupait les statistiques des CDC. Plus leur fréquence était grande sur une zone donnée, plus le virus faisait de ravages sur ce même périmètre. La conclusion peut paraître évidente mais, à raison d’un milliard de recherches par jour, il aurait été impossible de l’établir par d’autres moyens.

Les informations traitées par Google étaient pourtant imparfaites. Dans la mesure où elles avaient été saisies et stockées à bien d’autres fins que l’altruisme sanitaire, fautes de frappe et phrases incomplètes pullulaient. Mais la taille colossale de la banque de données a largement compensé sa nature brouillonne. Ce qui en ressort n’est qu’une simple corrélation. Elle ne livre aucun indice sur les raisons qui ont poussé l’internaute à effectuer sa recherche. Etait-ce parce qu’il avait la fièvre lui-même, parce qu’on lui avait éternué au visage dans le métro, ou encore parce que le journal télévisé l’avait rendu anxieux ? Google n’en sait rien, et peu lui chaut. Il semble d’ailleurs qu’en décembre dernier son système ait surestimé le nombre de cas de grippe aux Etats-Unis. Les prévisions ne sont que des probabilités, jamais des certitudes, surtout lorsque la matière qui les alimente — des recherches sur Internet — est de nature aussi mouvante et vulnérable aux influences, en particulier médiatiques. Reste que les données de masse peuvent identifier des phénomènes en cours.

Nombre de spécialistes assurent que leur utilisation remonte à la révolution numérique des années 1980, lorsque la montée en puissance des microprocesseurs et de la mémoire informatique a rendu possibles le stockage et l’analyse de données toujours plus pléthoriques. Ce n’est vrai qu’en partie. Les progrès technologiques et l’irruption d’Internet ont certes contribué à réduire les coûts de la collecte, du stockage, du traitement et du partage des informations. Mais les données de masse constituent surtout la dernière manifestation en date de l’irrépressible désir humain de comprendre et de quantifier le monde. Pour sonder la signification de cette étape nouvelle, il faut jeter un regard de côté — ou plutôt, vers le bas.

Koshimizu Shigeomi est professeur à l’Institut avancé de technologie industrielle de Tokyo. Sa spécialité consiste à étudier la manière dont ses contemporains se tiennent assis. C’est un champ d’études peu fréquenté, et pourtant riche d’enseignements. Lorsqu’un individu pose son postérieur sur un support quelconque, sa posture, ses contours et la distribution de sa masse corporelle constituent autant d’informations quantifiables et analysables. Grâce à des capteurs placés sur un siège d’automobile, Koshimizu et son équipe d’ingénieurs ont mesuré la pression exercée par le fessier du conducteur sur un réseau de trois cent soixante points, chacun indexé sur une échelle de zéro à deux cent cinquante-six. Les données ainsi recueillies permettent de composer un code numérique propre à chaque être humain. Un test a démontré que son système permettait d’identifier une personne avec une précision de 98 %.

Ces travaux sont moins saugrenus qu’il n’y paraît. L’objectif de Koshimizu est de trouver une application industrielle pour sa découverte, par exemple un système antivol pour l’industrie automobile. Une voiture équipée de ces capteurs fessiers pourrait reconnaître son propriétaire et exiger de tout autre conducteur un mot de passe avant de démarrer. La transformation d’une paire de fesses en un bouquet de données numériques représente un service appréciable et une affaire potentiellement lucrative. Elle pourrait d’ailleurs servir à d’autres fins que la protection du droit de propriété sur un véhicule : par exemple éclairer le lien entre la posture de l’automobiliste et la sécurité routière, entre sa gestuelle au volant et le risque qu’il provoque un accident. Les capteurs pourraient aussi déclencher une alerte ou un freinage automatique lorsque le conducteur s’assoupit au volant.

Prévention des incendies à New York

Koshimizu s’est emparé d’un objet qui n’avait encore jamais été traité comme une donnée, ni même perçu comme recelant le moindre intérêt en termes d’information, pour le convertir en un format numériquement quantifié. La mise en données désigne autre chose que la numérisation, laquelle consiste à traduire un contenu analogique — texte, film, photographie — en une séquence de 1 et de 0 lisible par un ordinateur. Elle se réfère à une action bien plus vaste, et aux implications encore insoupçonnées : numériser non plus des documents, mais tous les aspects de la vie. Les lunettes élaborées par Google — équipées d’une caméra, d’un micro et connectées à Internet — changent notre regard en données ; Twitter met en données nos pensées ; LinkedIn fait de même avec nos relations professionnelles.

A partir du moment où une chose subit ce traitement, il est possible de changer son usage et de transformer l’information qu’elle recèle en une nouvelle forme de valeur. IBM, par exemple, a obtenu en 2012 un brevet pour la « sécurisation de bureaux par une technologie informatique de surface » : une formule savamment absconse pour désigner un revêtement de sol équipé de récepteurs, à la manière d’un écran de smartphone que l’on actionnerait avec les pieds. La mise en données du sol ouvre toutes sortes de perspectives. Votre plancher pourrait réagir à votre présence, déclencher l’allumage de la lumière lorsque vous rentrez chez vous, identifier un visiteur à partir de son poids ou de sa manière de bouger. Il pourrait sonner l’alarme lorsque quelqu’un fait une chute et ne se relève pas — une application susceptible d’intéresser les personnes âgées. Les commerçants pourraient suivre le cheminement de leurs clients dans leur boutique. A mesure que toute activité humaine devient enregistrable et exploitable, on en apprend davantage sur le monde. On apprend ce qu’on n’aurait jamais pu apprendre auparavant, faute d’outils commodes et accessibles pour le mesurer.

M. Michael Bloomberg a fait fortune dans l’industrie des données numériques. Il n’est donc pas étonnant que la ville de New York, dont il est le maire, les utilise pour renforcer l’efficacité des services publics et, surtout, pour en diminuer le coût. La stratégie de prévention de la ville contre les incendies fournit un bon exemple de cette démarche.

Les immeubles illégalement sous-divisés en parts locatives présentent plus de risques que les autres de partir en flammes. New York enregistre chaque année vingt-cinq mille plaintes pour des bâtisses surpeuplées, mais ne compte que deux cents inspecteurs pour y répondre. A la mairie, une petite équipe d’analystes s’est penchée sur le problème. Afin d’atténuer le déséquilibre entre besoins et ressources, elle a créé une banque de données recensant les neuf cent mille bâtiments de la ville, complétée par les indicateurs de dix-neuf agences municipales : liste des exemptions fiscales, utilisation irrégulière des équipements, coupures d’eau ou d’électricité, loyers impayés, rotations d’ambulances, taux de délinquance, présence de rongeurs, etc. Les analystes ont ensuite tenté de dresser des correspondances entre cette avalanche d’informations et les statistiques relatives aux incendies survenus en ville au cours des cinq années précédentes. Sans surprise, ils ont établi que le type de bâtiment et sa date de construction jouaient un rôle important dans son exposition aux incendies. Plus inattendue a été la découverte que les immeubles ayant obtenu un permis pour des travaux de ravalement extérieurs présentaient nettement moins de risques d’incendie.

Le croisement de ces données a permis à l’équipe municipale d’élaborer un schéma susceptible de déterminer les critères en fonction desquels une plainte pour surpopulation nécessitait une attention particulière. Aucune des caractéristiques retenues par les analystes ne peut être considérée en soi comme une cause d’incendie ; mises bout à bout, elles sont pourtant étroitement corrélées avec un risque accru de départ de feu. Cette trouvaille a fait la joie des inspecteurs new-yorkais : alors que, par le passé, 13 % seulement de leurs visites donnaient lieu à un ordre d’évacuation, la proportion a grimpé à 70 % après l’adoption de la nouvelle méthode.

Les données de masse peuvent aussi contribuer à plus de transparence dans la vie démocratique. Un vaste mouvement s’est formé autour de la revendication d’ouverture des données publiques (open data), laquelle va au-delà d’une simple défense de la liberté d’information. Il s’agit de faire pression sur les gouvernements pour qu’ils rendent accessibles à tous les montagnes de données qu’ils ont accumulées — du moins celles qui ne relèvent pas du secret d’Etat. Les Etats-Unis se montrent plutôt en pointe dans ce domaine, avec la mise en ligne des archives de l’administration fédérale (expurgées de leurs éléments sensibles) sur le site D’autres pays leur emboîtent le pas.

A mesure que les Etats promeuvent l’utilisation des données de masse, une nécessité se fait jour : la protection des citoyens contre la prédominance de certains acteurs du marché. Des compagnies comme Google, Amazon ou Facebook — auxquelles il faut ajouter le milieu plus discret mais non moins redoutable des « courtiers de données », comme Acxiom ou Experian — amassent jour après jour des quantités colossales d’informations sur n’importe qui et n’importe quoi. Il existe des lois qui interdisent la constitution de monopoles dans l’industrie des biens et des services, tels que les logiciels ou les médias. Cet encadrement porte sur des secteurs relativement faciles à évaluer. Mais comment appliquer la législation antimonopoles à un marché aussi insaisissable et mutant ? Une menace pèse donc sur les libertés individuelles. Et ce d’autant plus que plus les données s’amassent, plus leur utilisation sans le consentement des personnes qu’elles concernent devient probable. Une difficulté que le législateur et la technologie paraissent incapables de résoudre.

Les tentatives pour mettre en place une forme de régulation du marché pourraient conduire à une foire d’empoigne sur la scène internationale. Les gouvernements européens ont commencé à réclamer des comptes à Google, dont la position dominante et le mépris pour la vie privée suscitent une certaine inquiétude, un peu à l’image de la société Microsoft, qui s’était attiré les foudres de la Commission européenne il y a dix ans. Facebook aussi pourrait se retrouver dans le collimateur judiciaire de plusieurs pays, en raison de la quantité astronomique de données qu’il détient sur ses usagers. La question de savoir si les flux d’informations doivent bénéficier des lois encadrant le libre-échange laisse augurer quelques âpres batailles entre diplomates. Si la Chine persiste à censurer l’utilisation des moteurs de recherche sur Internet, on peut imaginer qu’elle soit un jour ou l’autre poursuivie par une juridiction internationale, non seulement pour violation de la liberté d’expression, mais aussi, et peut-être surtout, en raison des entraves qu’elle impose au commerce.

En attendant que les Etats apprennent à considérer les libertés individuelles comme un bien digne d’être protégé, l’industrie des données de masse réactualise en toute quiétude la figure de Big Brother. En juin 2013, les journaux du monde entier ont révélé que M. Edward Snowden avait rendu publiques des informations concernant les activités de surveillance de son employeur : la National Security Agency (NSA), principale agence de renseignement américaine. Outre les télécommunications, étaient concernés les requêtes sur les moteurs de recherche, les messages publiés sur Facebook, les conversations sur Skype, etc. Les autorités américaines ont expliqué que les données, collectées avec l’aval de la justice, ne concernaient que des individus « suspects ». Mais, comme toutes les activités de la NSA demeurent secrètes, nul n’est en mesure de le vérifier.

L’affaire Snowden souligne le pouvoir des Etats dans le domaine des données. Les collecteurs-exploitants de données numériques menacent en effet de générer une nouvelle forme de totalitarisme, pas si éloignée des sombres fantaisies de la science-fiction. Sorti en 2002, le film Minority Report, adapté d’une nouvelle de Philip K. Dick, imagine la dystopie d’un monde futur régi par la religion de la prédiction. Le héros, interprété par Tom Cruise, dirige une unité de police capable d’arrêter l’auteur d’un crime avant même que celui-ci soit commis. Pour savoir où, quand et comment ils doivent intervenir, les policiers recourent à d’étranges créatures dotées d’une clairvoyance supposée infaillible. L’intrigue met au jour les erreurs d’un tel système et, pis encore, sa négation du principe même de libre arbitre.

Identifier des criminels qui ne le sont pas encore : l’idée paraît loufoque. Grâce aux données de masse, elle est désormais prise au sérieux dans les plus hautes sphères du pouvoir. En 2007, le département de la sécurité intérieure — sorte de ministère de l’antiterrorisme créé en 2003 par M. George W. Bush — a lancé un projet de recherche destiné à identifier les « terroristes potentiels », innocents aujourd’hui mais à coup sûr coupables demain. Baptisé « technologie de dépistage des attributs futurs » (Future Attribute Screening Technology, FAST), le programme consiste à analyser tous les éléments relatifs au comportement du sujet, à son langage corporel, à ses particularités physiologiques, etc. Les devins d’aujourd’hui ne lisent plus dans le marc de café, mais dans les logiciels de traitement des données (2). Dans nombre de grandes villes, telles que Los Angeles, Memphis, Richmond ou Santa Cruz, les forces de l’ordre ont adopté des logiciels de « sécurisation prédictive », capables de traiter les informations sur des crimes passés pour établir où et quand les prochains pourraient se produire. Pour l’instant, ces systèmes ne permettent pas d’identifier des suspects. Mais il ne serait pas surprenant qu’ils y parviennent un jour.

Redécouvrir les vertus de l’imprévisibilité

Il arrive cependant que les dirigeants américains se mordent les doigts d’avoir tout misé sur l’infaillibilité des chiffres. Ministre de la défense sous les présidences de John Kennedy et de Lyndon Johnson, Robert McNamara ne jurait que par les statistiques pour mesurer les exploits de ses troupes au Vietnam (lire « Tout savoir sans rien connaître »). Avec son équipe, il scrutait la courbe du nombre d’ennemis éliminés. Transmis aux commandants à titre de réprimande ou d’encouragement, diffusé quotidiennement dans les journaux, le comptage des Vietcongs morts devint la donnée cardinale d’une stratégie et le symbole d’une époque. Aux partisans de la guerre, il donnait l’assurance que la victoire était proche. Aux opposants, il apportait la preuve que la guerre était une infamie. Mais les chiffres étaient souvent erronés et sans rapport avec la réalité du terrain. On ne peut que se réjouir lorsque l’interprétation des données améliore les conditions de vie de nos contemporains, mais elle ne devrait pas conduire à remiser son sens commun…

A l’avenir, c’est par elle que va passer toujours davantage, pour le meilleur ou pour le pire, la gestion des grands problèmes planétaires. Lutter contre le réchauffement climatique, par exemple, impose de réunir toutes les informations disponibles sur les phénomènes de pollution, afin de localiser les zones où intervenir en priorité. En disposant des capteurs tout autour de la planète, y compris dans les smartphones de millions d’usagers, on permet aux climatologues d’échafauder des modèles plus fiables et plus précis.

Mais, dans un monde où les données de masse orientent de plus en plus étroitement les pratiques et les décisions des puissants, quelle place restera-t-il au commun des mortels, aux réfractaires à la tyrannie numérique ou à quiconque marche à contre-courant ? Si le culte des outils technologiques s’impose à chacun, il se peut que, par contrecoup, l’humanité redécouvre les vertus de l’imprévisibilité : l’instinct, la prise de risques, l’accident et même l’erreur. Pourrait alors se faire jour la nécessité de préserver un espace où l’intuition, le bon sens, le défi à la logique, les hasards de la vie et tout ce qui compose la substance humaine tiendront tête aux calculs des ordinateurs.

De la fonction attribuée aux données de masse dépend la survie de la notion de progrès. Elles facilitent l’expérimentation et l’exploration, mais elles se taisent quand apparaît l’étincelle de l’invention. Si Henry Ford avait interrogé des algorithmes informatiques pour évaluer les attentes des consommateurs, ils lui auraient probablement répondu : « Des chevaux plus rapides. »

Kenneth Cukier et Viktor Mayer-Schönberger

Respectivement journaliste et professeur à l’université d’Oxford, auteurs de Big Data : A Revolution That Will Transform How We Live, Work, and Think, Houghton Mifflin Harcourt, Boston, 2013.

The Internet’s Own Boy


Téléchargement, Culture par Olivier Ertzscheid

Le téléchargement illégal est positif et Aurélie Filippetti n’y a rien compris

Damon Albarn au festival Days Off

#edition 2014