Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

🔒
❌ À propos de FreshRSS
Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierSciences communes

#DHIHA8 Humanités numériques : et si nous avions créé une nouvelle discipline ?

D’après Émilien Ruiz, les humanités numériques se trouvent “à la croisée des chemins”. Cette communauté transdisciplinaire a émergé depuis plus de 10 ans, soit suffisamment de temps pour que les pratiques du futur deviennent celles du présent. Ou pas…

Car si les humanités numériques se sont ancrées institutionnellement, les promesses de renouveau scientifique et pédagogique restent encore à l’état de perspectives plus ou moins lointaines : « à ce stade, il me semble pourtant qu’il est possible de parler d’un demi-échec ». Les enseignements du numérique demeurent périphériques. Il y a eu une inflexion réelle dans les pratiques de recherche, les bases de données et les corpus en ligne devenant de plus en plus des outils “normaux” et attendus, mais avec finalement peu d’incidence sur les méthodes et sur les manières d’aborder et de construire l’objet de recherche. Au plus une révolution de l’indexation scientifique, mais certainement pas une révolution scientifique.

Émilien remarque avec justesse que ce bilan en demi-teinte a eu une incidence sur la définition-même des humanités numériques. La dimension quantitative et “computationnelle” a été progressivement reléguée au second plan, au profit d’une approche communicationnelle mettant l’accent sur l’éditorialisation et la diffusion des résultats. Les humanités numériques apparaissent davantage comme une étape supplémentaire dans le cycle de la recherche, sans altérer en profondeur l’existant.

À ce stade, l’on peut légitimement se demander si l’ambition principale des humanités numériques ne devraient pas être de “disparaître”. Réagissant au constat d’Émilien, Paul Bertrand appelle à la « fin nécessaire et heureuse des humanités numériques », appelées à se dissoudre dans les disciplines existantes. Si l’on se limite au versant communicationnel et éditorial des humanités numériques, cette réaction est amplement justifiée. Créer un site ou un carnet de recherche, alimenter une base de données, formater et visualiser un corpus devraient effectivement faire partie de l’outillage ordinaire des disciplines.

Mes recherches en cours m’amènent de plus en plus à faire le constat inverse : toutes les humanités numériques ne sont pas solubles. Ou plutôt, dans ce mouvement volontairement vague et informe, quelque chose a émergé qui change notre rapport aux objets, au savoir. Quelque chose qui ne représente qu’une partie des humanités numériques mais qui resterait même si toutes les pratiques estampillées DH venaient à se normaliser et à rentrer dans le giron de leurs disciplines d’origine. Quelque chose qui réactualise la dimension quantitative marginalisée mais en faisant autre chose que “l’histoire quantitative”.

Cette approche n’a pas vraiment de nom, ou plutôt, les labels existants ne sont pas satisfaisants : il est tantôt question de « computational literature studies » (sauf que cela ne se limite absolument à la littérature), de « lecture distante » (sauf qu’une part essentiel de la recherche actuelle porte sur des objets qui ne sont pas lus mais vus) ou de cultural analytics (expression qui se traduit terriblement mal en français et, sans doute, dans d’autres langues européennes). On pourrait aussi tenter une définition purement SHS, sans jamais faire allusion à l’informatique et parler, par exemple, de poétique historique des formes culturelles.

À défaut de nom, l’approche se caractérise par une intégration croissante de pratiques, de concepts, d’outils et de méthodes, plus ou moins marquées selon les contextes. Aux États-Unis il existe une revue dédiée qui fédère une petite communauté très active, le Journal of Cultural Analytics. En France les initiatives demeurent encore assez isolées.

De la numérisation à l’identification des régularités…

Le point de départ fondamental, c’est la numérisation de masse. Les bibliothèques numériques contiennent aujourd’hui une part substantielle des productions imprimées voire écrites. Je dispose ainsi d’environ un quart des éditions de romans de 1800 à 1900 (soit la totalité de ceux qui ont été numérisés par Gallica). Dans le cadre du projet Numapresse, nous commençons à réunir une bonne partie de la presse quotidienne nationale.

Les romans numérisés de la période 1815-1850 classés automatiquement par genre.

Si nous sommes encore loin de l’idéal d’une numérisation totale (qui ne relève néanmoins plus de l’utopie à moyen terme), il y a aujourd’hui suffisamment de ressources accessibles pour mettre en évidence des phénomènes culturels réguliers qui débordent totalement des narrations historiques courantes. Il existe des récurrences dans les manières d’écrire, dans les arrangements éditoriaux des textes, dans les figures visuelles (d’où d’ailleurs la notion de “stéréotype”).

Par exemple, à partir du début du XIXe siècle, la presse française introduit un objet éditorial, le feuilleton, sorte de supplément interne au journal, où va notamment se nicher le roman-feuilleton. Ce qui est moins connu et qui a été rendu pleinement visible par la numérisation de collections très variées, c’est que la forme feuilleton va s’exporter dans une bonne partie de l’Europe continentale et sans doute au-delà mais pas dans les pays anglo-saxon.

Ces régularités constituent autant un standard documentaire qu’un fait social : à un certain moment, il va de soi que l’on va composer un texte d’une certaine façon, l’illustrer d’une certaine manière, à partir du moment où l’on souhaite aborder tel thématique et s’adresser à tel public.

À partir du moment où il est question de “régularités” et de “récurrences” il devient envisageable d’utiliser des méthodes quantitatives. On peut compter les feuilletons tout comme on peut compter les titres de romans qui mentionnent un genre précis, par exemple “roman de mœurs”, dans leur titre. Et à partir de ces décomptes l’on peut commencer à observer des tendances temporelles et/ou des répartitions géographiques.

Compter à la main de tels objets est une activité plutôt rébarbative même si elle a été pratiquée dans certains domaines (comme les media studies). La numérisation rend possible de déléguer cette activité à des outils automatisés. Dans certains cas, les calculs sont triviaux : compter des occurrences, agréger des publications, dessiner un graphe de tendance… Rapidement, il devient nécessaire d’utiliser des outils plus complexes.

Historiciser par algorithme

Certaines régularités peuvent en effet apparaître évidentes à un œil humain, a fortiori un peu familier du contexte culturel d’origine du document. Je sais reconnaître le feuilleton d’un journal presque instantanément. Créer une définition du feuilleton ou de la note de bas-de-page qui soit compréhensible pour un outil automatisé est une tâche beaucoup plus ardue — on parle aussi d’opérationnalisation. Cela suppose de réfléchir sur un regard qui semble de prime abord spontané : « qu’est-ce que je vois précisément lorsque je distingue un feuilleton ? ».

Il est possible de fournir des règles précises pour repérer les objets (c’est ce que l’on appelle une approche « rule-based ») ou au contraire de laisser l’outil informatique extrapoler les règles à partir de corpus annotés. La seconde approche a été par exemple retenue pour une tentative d’identification automatisée des notes de bas de page dans des corpus anglo-saxon du XVIIIe — une pratique éditoriale notablement différentes des notes actuelles, caractérisées par l’emploi de signes spécifiques en lieu et place des numéros.

Essai de modélisation de la note de bas de page dans Detecting Footnotes in 32 millions of pages ECCO.

J’ai eu recours à la première approche par règle pour extraire automatiquement les romans-feuilleton du Journal des débats. Le texte journalistique était alors suffisamment standardisé pour se contenter d’une définition relativement triviale (un texte, en bas du journal déparé par une marge importante — la grande barre sombre ne survit pas au processus de numérisation/ocr).

Essai de modélisation du feuilleton à partir des “marges” laissées par l’absence du séparateur dans les données de l’OCR.

J’ai d’ailleurs pu constater que cette approche cesse de fonctionner correctement à partir du début du XXe siècle, signe parmi d’autres que l’économie générale des formes journalistiques était en train de changer profondément. Mes travaux actuels visent à aller plus loin que l’identification d’une seule forme journalistique pour reconstituer l’architecture éditoriale générale de la presse quotidienne au XIXe siècle (et, idéalement, au XXe siècle), en anticipant notamment les articulations régulières en forme et sémantique du texte — par exemple, les signatures sont toujours justifiées à droite et les titres sont toujours centrés.

Essai de modélisation éditoriale de la presse quotidienne à partir de la reconnaissance des colonnes et de la justification du texte.

J’ai beaucoup insisté sur la “modélisation éditoriale” car elle constitue un exemple très parlant visuellement, mais les mêmes principes peuvent être appliquées à d’autres formes culturelles. C’est évidemment le cas depuis déjà quelques temps pour les textes, notamment à la suite des recherches pionnières de Ted Underwood sur l’usage critique et « détourné » des classifications supervisées pour interroger la construction historique de la généricité. Il est de nouveau question de partir d’une définition plus ou moins naïve de certaines catégories textuelles pour repérer les phases de formation d’un genre et l’évolution de sa composition lexicale.

Les probabilités d’attribution d’une classification anachronique des romans politiques permettent d’interroger la formation lexicale du genre (Underwood, The Life Cycle of Genres)

L’interrogation critique des modèles de classification permet de sortir d’une approche d’indexation pure pour soulever des questionnements scientifiques : où ces formes se sont-elles développées ? comment se généralisent-elles et à quels moment ? dans quel contexte éditorial ?

Le développement de la page de cinéma dans le Petit Parisien (classification automatisée de tous les exemplaires parus de 1900 à 1940)

Cette “lecture distante” peut également porter sur des régularités plus élémentaires : figures de styles, tournures, articulation récurrents de concepts. Certaines recherches plus expérimentales utilisent ainsi de nouvelles techniques de linguistique computationelle, les Word Embeddings, pour cartographier des usages poétiques sous-jacents de vastes corpus.

Degré d’anthropomorphisme de certains terme dans la poésie anglaise du XVIIIe siècle (Ryan Heuser). La “Personified Abstraction Zone” renvoie aux figures allégoriques.

Le potentiel de la classification est peut-être encore plus important pour les formes visuelles. Contrairement aux textes les images ne sont pas préalablement indexées dans les bibliothèques patrimoniales. Sauf à disposer d’un paratexte explicite elles restent généralement introuvables, et même dans ces cas-là, il est difficile d’identifier précisément des régularités visuelles, qui ne relèvent pas forcément du sujet figuré mais aussi du mode de figuration. Les nouvelles techniques de classification automatisée rendent tout simplement possible une poétique historique de l’image à grande échelle.

Les illustrations de la page de cinéma du Matin de 1927-1940 (3e panel de l’application). Tous les portraits en médaillon composent un cluster rose en bas à gauche, ce qui rend possible d’historiciser la forme.

Les méthodes informatisées s’intègrent d’autant plus naturellement dans ce projet que les régularités se déploient fréquemment sur une échelle temporelle ample. L’histoire éditoriale de la forme feuilleton commence vers la toute-fin du XVIIIe siècle et s’achève vers les années 1970 et 1980 en France (les occurrences les plus tardives que j’ai pu identifier se trouvent dans des périodiques régionaux des années 1970). Aux États-Unis la plupart des chercheurs en cultural analytics ont empiriquement acquis une expertise chronologique ample — souvent de 1800 voire 1700 à aujourd’hui.

Part des personnages féminins dans 93000 ouvrages de fictions anglais parus de 1800 à 2007 (Ted Underwood, The Gender Balance of Fiction). Ce type de recherche n’est pas contraint par les délimitations chronologiques usuelles.

Où suis-je ?

En bref, depuis quelques années, une bonne partie de mon travail de recherche consiste à “opérationnaliser” des objets éditoriaux et des concepts . Et je serais bien en peine de dire précisément à quelle discipline correspond cette activité. Ce n’est pas de l’histoire, de la littérature, de la sociologie, de l’histoire de l’art, de la linguistique ou de l’informatique mais quelque chose qui croise ces disciplines et un peu plus encore.

L’enjeu fondamental des nouvelles méthodes de lecture distante ou de cultural analytics va au-delà de l’intégration de l’outil numérique dans des pratiques de recherches préexistantes qui ne sont pas appelées à changer en profondeur. Il s’agit bel et bien de proposer une redéfinition des frontières scientifiques, principalement au sein des sciences humaines et sociales, via, notamment, l’articulation paradoxale et constante entre observation minutieuse des réalités poétiques, éditoriales et documentaires et, d’autre part, l’ambition d’historicisation à grande échelle de formes culturelles.

Les transformations les plus marquantes, de mon point-de-vue, concerne les pratiques quotidiennes de la recherche. La programmation implique inévitable une textualisation et une explicitation des regards de recherche et des méthodes de travail. Il ne suffit pas de repérer instantanément que le feuilleton est en bas de page ou que les signatures sont systématiquement alignées à droite, il faut l’exprimer clairement en pourcentage de page ou en pourcentage de colonnes.

L’ampleur des corpus analysé et le recours à la programmation implique également de repenser l’organisation de la journée. Au-delà d’une certaine taille l’automatisation n’est pas instantanée : elle peut prendre plusieurs heures voire plusieurs jours. Je constate ainsi que je suis de plus en plus amené à anticiper les tâches à accomplir pour qu’elles tournent en mon absence (notamment pendant la nuit).

Disons-le clairement ces pratiques de recherche sont encore marginales, même au sein des humanités numériques. Je suis de plus en plus convaincus qu’elles sont appelées à se généraliser. Certes, les outils sont encore mal adaptés, les compétences manquent à l’appel, les corpus plus ou moins disponibles et dans un état plus ou moins hétérogènes, mais il y a un facteur plus important : c’est très tentant. Lorsqu’on s’intéresse aux collections patrimoniales et aux archives au sens large l’on est inévitablement confronté à tout ce savoir latent que je viens de décrire. L’on se familiarise avec les règles éditoriales, les marqueurs lexicaux de la généricité (que nous avons inévitablement assimilés lorsque nous procédons par lecture flottante) ou les stéréotypes visuels que l’on se résigne à cantonner dans un vague arrière-plan culturel sans pouvoir imaginer de décrire systématiquement une telle masse documentaire en dehors de quelques échantillons ponctuels.

L’exception Text & Data Mining sans décret d’application…

L’information vient d’être relayée sur Twitter (et n’a apparemment pas encore fait l’objet de publication par ailleurs) : le conseil d’État a rejeté le décret encadrant l’exception au droit d’auteur pour la fouille de texte et de données (Text & Data Mining) à des fins scientifiques.

Ce rejet n’est pas définitif : la loi prévoit de toute manière un décret (“Un décret fixe les conditions dans lesquelles l’exploration des textes et des données est mise en œuvre”). En attendant, cela limite considérablement l’application concrète de l’exception.

Que peut-on faire en attendant ?

Le principe de base demeure : il n’est pas illégal, au regard du code de la propriété intellectuelle, de constituer des “copies ou reproductions numériques réalisées à partir d’une source licite, en vue de l’exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale.”

Par exemple, j’ai extrait automatiquement plusieurs centaines articles de presse pour un projet de recherche sur le débat européen autour de la Liberté de panorama (notamment à partir de la base de données Europresse, à laquelle mon université est abonnée). J’étais alors potentiellement dans l’illégalité si je n’en faisais pas un usage strictement privé (par exemple en communiquant les copies à des collaborateurs). Aujourd’hui ce ne serait a priori plus le cas.

Par contre, en l’absence de décret d’application, les propriétaires des contenus ne sont tenus en rien de fournir ces corpus aux chercheurs ; ils ont même toute latitude de bloquer les extractions automatiques (en invoquant la nécessité de “protéger” le site des requêtes excessives). En somme, l’exception lève le risque juridique lié à l’utilisation de copies licites pour la fouille de donnée ; elle ne permet pas de récupérer ces copies (qui requièrent des arrangements contractuels au cas par cas).

Que prévoyait le décret ?

Le décret d’application visait à corriger cette déficience. La dernière version en date (republiée pour l’occasion sur Sciences Communes) correspond à un texte de compromis. La préservation de la “sécurité” des infrastructures face à des requêtes multiples ne peut servir d’argument pour entraver excessivement l’extraction : les détenteurs des droits (généralement des éditeurs) peuvent “appliquer des mesures destinées à assurer la sécurité, la stabilité et l’intégrité des réseaux et bases de données, dès lors qu’elles n’excèdent pas ce qui est nécessaire pour atteindre ces objectifs”.

Les établissements de recherche sont de plus habilités à conserver “sans limitation de durée les copies techniques produites dans le cadre de l’exploration de textes et de données”. L’objectif est d’éviter de mener d’effectuer des extractions multiples (alors que des corpus peuvent avoir déjà été constitués).

Qu’est-ce qui va suivre ?

Pour l’instant, l’argumentaire du Conseil d’État n’a pas encore été publié. Il sera intéressant de voir quelles dispositions du décret ont motivé le rejet (et, par contraste, quelles dispositions sont appelées à être reprises dans un futur décret).

Il semblerait également qu’une voie intermédiaire entre arrangement contractuel et cadre général soit également envisagée, sous la forme de “protocoles d’accords” intégrés dans les contrats entre les institutions de recherche et les éditeurs. Tout ceci risque de complexifier grandement la mise en œuvre de l’exception (rien ne garantit que les protocoles soient rendus publics, ni qu’ils soient systématiquement identique d’un contrat à l’autre…).

À plus long terme, une exception similaire est très sérieusement envisagée au niveau européen. Le principe d’un droit de fouille de textes et de données semble faire l’objet d’un relatif consensus : le débat porte davantage sur son extension au-delà du monde de la recherche (pour tous les usages non-commerciaux, voire pour des usages commerciaux). Le rapport Comodini, qui correspond déjà à un texte de compromis entre les différentes options retenues par le parlement européen, propose ainsi d’étendre le périmètre de l’exception à “l’innovation” (Amendement n°3) et non uniquement à la “recherche scientifique”.

De Trump à Léophane : d’une débâcle journalistique à une victoire désinformationnelle ?

[Analyse écrite à quatre mains]

Le 1er février, Le Monde lançait en fanfare un outil de vérification de l’information, Decodex. Dix jours plus tard, une adresse IP du journal s’est retrouvée bloquée pendant neuf mois sur Wikipédia pour… avoir introduit de fausses informations sur l’encyclopédie libre. Le journaliste scientifique du Monde, Pierre Barthélémy, a en effet créé (et laissé en place pendant plusieurs semaines) un article presque entièrement faux, consacré à un philosophe grec méconnu, Léophane. Le but de Pierre Barthélémy : faire “une expérience pour un article sur la vérifiabilité des infos sur Internet à l’heure des fake news”.

Quel lien entre la controverse autour de Decodex et les agissements de P. Barthélémy ? Certes ces deux événements ne sont pas directement liées. Mais les deux s’inscrivent dans un contexte particulier : le sentiment d’évoluer dans une « ère post-vérité » où l’exactitude des informations est sans importance et où toutes les sources se valent quelles que soient leurs approches de qualité des informations. Le point de départ de Decodex — aider les lecteurs du Monde à “se repérer face à une vague toujours plus forte de fausses informations” — et la prétendue exploration de P. Barthélémy semblent ainsi complémentaires. Nous ne commenterons pas ici la démarche de Decodex.

Nous avons demandé un droit de réponse au Monde spécifiquement après la publication d’un article par P. Barthélémy où il détaille son approche. Notre positionnement est multiple : scientifiques, éditorialistes et contributeurs à Wikipédia, nous identifions de graves problèmes dans la démarche de P. Barthélémy. Ces manquements sont aussi bien en amont qu’en aval de la publication de son article. La gravité des faits commis par P. Barthélémy et le manque apparent d’évaluation de l’impact de ses agissements s’ajoutent à l’outrage qui est le nôtre et celui de collègues, constaté à travers diverses discussions ces derniers jours.

Quels problèmes cette démarche pose-t-elle ?

On lit dans son article que P. Barthélémy place clairement sa démarche sous des auspices politiques : “L’idée m’est venue à l’automne dernier, lors de la campagne présidentielle américaine, marquée du sceau de la « post-vérité » et des « fake news ».” En décembre 2016, le journaliste crée donc une entrée sur Léophane. Il s’agit d’un obscur philosophe grec ayant véritablement existé. Pourtant, la page sur Léophane contient un mélange d’informations vraies et inventées. Barthélémy imagine que le personnage élabore une “méthode thérapeutique fondée sur les couleurs” et décède de l’épidémie de peste d’Athènes. Il s’appuie par contre sur une des meilleures estimations de sa chronologie (naissance en -470 et décès en 430 av. J-C) et relaie en détail sa contribution la mieux documentée à l’histoire naturelle (la détermination du sexe de l’enfant par la position des testicules).

Même pour un connaisseur, ce mélange faux-vrai est difficile à dénouer. Les sources antiques et les études modernes sur Léophane sont très limitées. De l’aveu d’un spécialiste, Lorenzo Perilli, “il est ignoré dans tous les ouvrages de référence que j’ai pu consulter”. Seule la consultation des sources apportées par Barthélémy aurait permis de “falsifier” ses contributions. Or, elles ne sont pas en libre accès : contributeurs bénévoles, les wikipédiens n’ont généralement pas accès aux revues ou aux publications sous paywall, diffusées à des tarifs prohibitifs.

En outre et de manière à rendre son canular encore plus ressemblant à la vérité, P. Barthélémy introduit des références à Léophane sur des articles Wikipédia mieux exposés (Hippocrate, Théophraste). Ces liens sont censés servir de preuves de la véracité du Léophane tel que narré par P. Barthélémy.

On est ainsi face à la création délibérée de fausses informations et le vandalisme de diverses ressources sur l’encyclopédie en ligne. Si l’on y regarde de plus près, une telle démarche est irrespectueuse quant au travail entièrement bénévole des modérateurs, administrateurs et contributeurs de Wikipédia. Ceux-là ont ainsi raison de se sentir dénigrés et pris pour des “rats de laboratoire”. La démarche de P. Barthélémy est d’autant plus incompréhensible qu’elle émane d’un compte utilisateur “jetable” (Pomlk2) et de plusieurs adresses IP : toutes les éditions sont donc faites anonymement, même s’il est très facile d’identifier à quelle institution appartient l’adresse. Si un tel anonymat peut être évoqué pour mimer une prétendue démarche de “fausseur”, on ne comprend pas pourquoi l’équipe de modération Wikipédia n’est pas informée. Par conséquent, l’une des adresses IP utilisées par P. Barthélémy, appartenant aux adresses du Monde, est bloquée pour neuf mois pour vandalisme. Bel exploit.

Mais si ces éléments sont, somme toute, secondaires, arrêtons nous aux véritables problèmes :

7/ @PasseurSciences : pour un canular réussi (et il en a existé), il faut : un objectif, un objet d’études, une méthode. Rien de tout ça ici

— Alexandre Moatti (@A_Moatti) 13 février 2017

Quel est le lien avec les “fake news” et l’élection américaine ? Quelle méthodologie sous-tendant cette “expérience” ? Et quid de l’éthique ? Souvenez-vous, aussi bien les scientifiques que les journalistes en ont une : alors, on s’attendrait à ce que P. Barthélémy fasse preuve d’un excès de précautions et d’une rigueur exemplaire. Malheureusement, il n’en est rien.

Une “expérience” sans méthode

Puisque P. Barthélémy parle d’“expérience” et tente de se placer dans la position de celui qui crée du savoir précédemment inexistant, sa démarche peut être assimilée à celle d’un chercheur. Regardons-y avec les yeux de chercheur donc. Ce dernier a une approche (appelée hypothético-déductive) ordonnée et cadrée consistant à formuler des hypothèses sur le comportement d’un système et de développer des expériences permettant de valider l’une de ces hypothèses. Une hypothèse n’est pas une idée volatile qui nous passe par la tête et face à laquelle on reste dans un étonnement béat. Une hypothèse provient d’un comportement du système inhabituel. Mais pour savoir ce qui est inhabituel, on doit avoir une excellente connaissance préalable dudit système. Ce n’est qu’en ayant une démarche méthodologique, rigoureuse et qui s’inscrit dans un contexte de recherches que l’on peut véritablement tirer des conclusions sur l’impact de nos trouvailles.

Or, l’approche de P. Barthélémy n’a aucune de ces caractéristiques fondamentales. Elle émane d’une idée dans l’air du temps, en réaction à une conjoncture. Il n’y a ni hypothèse formulée (ou alors P. Barthélémy ne le dit pas clairement), ni connaissance poussée de l’écosystème Wikipédia. Les contributeurs et contributrices de Wikipédia, soit vous, nous, ne sont pas des capricieux qui s’arc-boutent dès que quelqu’un leur dit un mot de travers. Au contraire, il s’agit de personnes de richesses culturelles et de curiosité qui font de leur mieux et bénévolement pour cultiver le jardin qu’est l’encyclopédie libre Wikipédia. Promenez-vous sur les pages de discussions, vous verrez que ces bénévoles sont les premiers à débattre de la fiabilité, des processus pour assurer cette dernière et de pinailler parfois à l’usure pour que chaque phrase soit correcte et sourcée. Ainsi, chaque modification peut être suivie publiquement.

C’est faire fi de cet écosystème ouvert que de s’engager dans le vandalisme que P. Barthélémy a commis. Si P. Barthélémy connaissait un peu mieux la communauté et le fonctionnement de Wikipédia, il y aurait probablement réfléchi à deux fois avant de retweeter les invectives contre Wikipédia d’un ex-contributeur, banni pour plusieurs infractions, et s’exprimant en soutien aux agissements de P. Barthélémy. C’est également mal connaître les indicateurs dudit système, soit les possibilités de pouvoir conclure quoi que ce soit de cette “expérience” :

  1. Il est impossible de connaître la portée de ce canular.

P. Barthélémy indique que « plusieurs dizaines de personnes sont venues lire l’histoire de Léophane ». Il n’invoque aucune source à l’appui de cette estimation. D’après l’outil de Wikipédia traquant les vues,, il y aurait 172 consultations entre la création de l’article le 30 décembre 2016 et la révélation du canular.

Le nombre de lecteurs réels est bien inférieur. Très soucieuse du respect de la vie privée des utilisateurs, la Wikimédia Foundation ne donne aucune estimation du nombre de visiteurs uniques. Chaque contribution sur l’article (24 au total avant la suppression) correspond potentiellement à plusieurs pages vues (une pour la modification, une pour la sauvegarde,…). Le nombre de consultations se trouve ainsi étroitement corrélé au nombre de contributions tel que consigné dans l’historique :

Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)
Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)

Les 172 consultations incluent également des lecteurs non humains. Depuis 2015, le site distingue les robots sous réserve qu’ils se présentent comme tel (en l’indiquant dans leur “carte d’identité”, appelée user agent). Mais rien n’empêche un robot de falsifier son identité. Le nombre de lecteurs réels, qui ne se sont pas limités à survoler la page, est ainsi très faible et Pierre Barthélémy ne sait rien sur eux. Il n’a ainsi aucune donnée sur le profil socio-démographique des visiteurs de la page, sur les manières d’arriver là, ce qu’ils ont retenu de l’article,… Par contraste, les études scientifiques sur la réception des contenus médiatiques ou scientifiques font fréquemment appel à des échantillons contrôlés et parviennent ainsi à analyser précisément les modes de lectures (au-delà du “mince ils se sont trompés”).

Enfin, pour qu’un canular soit efficace, il faut qu’il ait été repris. Quelles métriques, quelles preuves avons-nous que ce soit le cas ? (On vous aide : aucune.)

  1. P. Barthélémy ne dispose d’aucun élément comparatif.

Usuellement on compare un comportement (diffusion de fake) à un autre (diffusion de non-fake). Les études scientifiques de la fiabilité de Wikipédia font ainsi fréquemment appel à des évaluations croisées avec des encyclopédies généralistes (comme Britannica) ou spécialisées et parviennent ainsi à établir relativement la qualité de Wikipédia selon plusieurs critères (part des erreurs factuelles, actualisation, complétude,…)

Dans l’approche de P. Barthélémy, il n’y a rien de tel. Il n’y a rien non plus quant au véhicule de cette diffusion (il parle seulement de Wikipédia et non pas de Wikipédia par rapport à d’autres sources). Toute personne qui a un jour tenté de définir l’impact et la causalité de deux actions connaît la difficulté quasi-insurmontable de la tâche. Ajouter le manque total de métriques prédéfinies pour rendre compte de cet aspect et voilà que cette observation mène (de nouveau) nulle part.

  1. Aucune représentativité de l’observation.

Si l’on admet que son “expérience” serait menée à terme sans être découverte, en quoi un seul cas permet d’extrapoler sur des dérives générales ? Au mieux, on aurait eu affaire à un mauvais article, au pire les conclusions de l’“expérience” seraient une autre forme de fake news en indiquant que toutes les observations se valent quelle que soit leur qualité. Et ne parlons même pas de la dérive potentielle d’une situation où un tel fait unique serait présenté comme résultant d’une démarche scientifique : cela s’appelle un argument d’autorité et son utilisation en sciences n’est pas appréciée.

Les facteurs influençant le comportement d’un système ne peuvent en aucun cas être considérés comme la figure de Dieu dans l’Ancien Testament : ça vous [tue/guérit/informe/rayer la mention inutile] en fonction du degré de foi que vous y attachez. La science et la foi sont deux choses distinctes, en science on ne choisit pas à la carte quelle donnée/quel fait prendre en compte. Mais dans le cadre d’un désert informationnel en matière de science, on ne peut pas combler ce vide d’actes de foi ou de désinformation. Parler de science, c’est parler également de sa technicité inhérente. Oui, c’est parfois chiant. Et oui, c’est également requis.

En conclusion donc, cette “expérience” a montré que n’importe qui, même un journaliste scientifique, peut aller sur un site web à édition ouverte et y introduire de fausses informations. Totalement novateur.

“Science sans conscience n’est que ruine de l’âme”

On pourrait vous sortir plein d’adages plus ou moins pontifiants. Ils pointeraient toujours vers le même problème : la démarche entreprise par P. Barthélémy semble faite sans aucune éthique. Voici les manquement éthiques que nous avons constatés, nous fondant aussi bien sur notre formation scientifique que sur les échanges avec des collègues. Des échanges que P. Barthélémy aurait des difficultés à ignorer, mais qui ont cependant été totalement occultés de son article :

  1. Manipulation à plusieurs niveaux.

Il y a un abus de confiance de la communauté des contributeurs Wikipédia. P. Barthélémy s’est longuement entretenu avec deux des administrateurs de Wikipédia en français et, malgré l’assurance de ses bonnes intentions, les actes en disent autrement. Ainsi, initialement P. Barthélémy parlait d’“une expérience […] sur la vérifiabilité des infos sur Internet à l’heure des fake news” ; lors de son échange avec Jules, admin Wikipédia : “[l]e but (« avoué ») de l’expérience était de mettre en lumière les limites de l’encyclopédie”. Finalement, avec la publication de l’article de P. Barthélémy, on lit un appel de “mise en quarantaine” a priori des contributions.

Cette transformation pose de nombreux problèmes : il s’agit de création avouée et élaborée de fausses informations et de vandalisme de pages pré-existantes mais aussi de non-prise en compte de l’historique de ce genre de débats. Cette mise en quarantaine a déjà fait débat et ce de nombreuses fois… depuis 2007 : sa mise en œuvre sur la Wikipédia Germanophone débouche sur des délais d’attentes considérables (deux semaines pour approuver une contribution) et a probablement contribué au déclin significatif de la participation depuis son activation en 2008. Un sondage proposant la mise en place d’un système similaire sur la Wikipédia francophone avait été très largement rejeté en 2009 (78% d’opposition), notamment sur la base de ces résultats empiriques. Par ailleurs, les réponses au tweet de P. Barthélémy sur la question sont sans exception en opposition.

Quelle était la finalité réelle de cette manipulation entreprise par P. Barthélémy ?

  1. Instrumentalisation et mépris des acteurs.

Non seulement il n’est pas clair quelle finalité P. Barthélémy poursuit, mais ses agissements ont été perçus comme une “déception” par Jules et des admins contactés qui ont le sentiment de participer malgré eux à une tentative de décrédibilisation de l’encyclopédie :

[avant publication de l’article de P. Barthélémy]

“J’ai eu le journaliste au téléphone (une heure et quinze minutes), il a souligné à de (très) nombreuses reprises que son intention n’était pas de dégrader Wikipédia, ni de faire un article racoleur du type : « Comment j’ai piraté Wikipédia » […] Il a précisé qu’il avait déjà lu la littérature sur la fiabilité de Wikipédia, mais qu’il voulait savoir ce qu’il en était en 2017, et lorsque je lui ai fait remarquer qu’il aurait pu chercher un cas réel et préexistant de canular ou de manipulation de l’information, il a eu un temps de silence et a indiqué qu’il n’y avait pas pensé. J’ai également souligné que pour nous, Wikipédiens, c’était dans tous les cas un vandalisme – que l’auteur soit journaliste et fasse une expérience ou bien que ce soit un collégien désœuvré n’y change rien.” — Jules 11 février 2017 à 21:12 (CET)

[après publication de l’article de P. Barthélémy]

“Même si, comme Enrevseluj, j’ai trouvé le journaliste assez ouvert au téléphone, je suis déçu par l’article : même si l’on pouvait s’y attendre, cela n’apporte vraiment rien de nouveau. N’importe quel contributeur est au courant qu’il est possible de créer ce type de canular, et il aurait suffit (sic) à M. Barthélémy d’interroger un Wikipédien pour avoir des exemples réels et préexistants de manipulation (ou de fake news, pour reprendre ce terme en vogue).” — Jules 12 février 2017 à 18:56 (CET)

(source)

Il n’y a qu’à remonter les tweets outragés de nombreux professionnels de la recherche pour se rendre également compte de l’image qu’une revendication de la part de P. Barthélémy donne de la pratique de la science : il suffit d’avoir une idée dans l’air du temps et d’aller vandaliser quelques pages web pour être chercheur donc ? Dans un pays où les chercheurs sont dévalorisés, leurs moyens financiers inexistants et où la médiation et la communication scientifiques sont en voie de disparition, avons-nous vraiment besoin d’une telle démarche de la part du “Passeur de Sciences” du Monde ?

  1. Absence totale de coopération et de débat.

Toute l’expérience est balisée de A à Z et (paradoxalement) P. Barthélémy exclut Wikipédia du débat en refusant, de manière parfois quelque peu condescendante, le débat sur Twitter, cependant demandé par plusieurs personnes. On pourrait par exemple voir un geste d’ouverture si P. Barthélémy proposait de faire le débat sur Wikipédia, soit là où le mal a été fait. Hélas, rien de tel. Ainsi, ce qui est inclus dans l’article est entièrement à la discrétion de P. Barthélémy qui ne permet qu’un débat se déroule ailleurs que sur son blog.

On est très loin de la démarche scientifique où tout élément d’une étude peut et devra être examiné par les pairs. On est dans un univers parallèle où P. Barthélémy pose les questions, les modifie, donne des réponses ou pas, et instrumentalise ce soi-disant débat pour appeler au changement de gouvernance de l’information chez Wikipédia en français. Enfin, se soumettre à cet impérieux caprice de débat sur le blog et seulement là relèverait, comme le souligne également l’historien Alexandre Moatti, “à cautionner la démarche”.

Mais dans ce foutoir de confusions, le risque le plus sérieux n’est même pas évoqué. En effet, on peut craindre une contamination générale de la “connaissance libre” dont Wikipédia n’est qu’une partie. Citons par exemple Wikidata et toute l’architecture du web sémantique, la contribution de laquelle fait d’ailleurs l’objet de problématiques de recherche primées. Le rôle des communautés a changé depuis quelques années et elles s’imposent de plus en plus comme des outils scientifiques de référence : certaines initiatives telles Wikidata s’éloignent ainsi de la vulgarisation pour développer des pratiques et structures beaucoup plus spécialisées.

Juge et partie

Divers aspects de l’article de P. Barthélémy, intitulé “Pourquoi et comment j’ai créé un canular sur Wikipédia”, posent problème en plus de ceux précédemment mentionnés. Le champ sémantique et les mots dont l’auteur se sert pour expliciter ses agissements créent ainsi une manière de penser et voir les acteurs de ce vandalisme sous une lumière quelque peu choquante et à coup sûr inquiétante. Si nous nous y arrêtons, c’est parce que “nommer, c’est faire exister” et parce que nous estimons qu’un journaliste, de surcroît le fondateur de la rubrique Sciences et Environnement au Monde, a une visibilité qui appelle à une grande responsabilité. Avec ce canular élaboré, P. Barthélémy a commis plusieurs impairs ; espérons que ce soient les derniers.

Barthélémy se pose ainsi dès le départ en victime d’un système qu’il respecte :

L’entrée Léophane n’existait pas sur Wikipédia et le personnage pouvait faire un candidat valable selon les critères de la célèbre encyclopédie en ligne. J’ai donc décidé de créer cette entrée en écrivant le peu que l’on connaissait sur ce savant et en inventant le reste. J’ai donc laissé libre cours à ma fantaisie, tout en lui conférant les apparences du plausible, à coups de références.

[…]

L’expérience proprement dite a commencé à la fin de décembre lorsque j’ai publié l’entrée, ce qui s’apparente à du « vandalisme sournois » selon les critères de Wikipédia.

Alors, qu’en est-il ? L’encyclopédie a des règles mais quand on les enfreint, ce n’est pas normal de se faire traiter de vandale ? C’est bien pratique comme positionnement. Cette dualité des propos et du positionnement de P. Barthélémy est caractéristique de toute sa démarche dans ce cas. Il ne se définit jamais comme journaliste, jamais comme scientifique. En se positionnant au-dehors du système qu’il souhaite “tester”, il souhaite également échapper à ses règles. Puisqu’on n’y est pas, on n’a pas de règles à respecter et donc on ne déroge à aucune règle. Logique, non ?

Dans son article en réaction, Autheuil relève bien cette dualité :

“Là où le bât blesse, à mes yeux, c’est que Pierre Barthélémy est à la fois celui qui a conçu et réalisé le test, ainsi que celui qui le relate et le porte à la connaissance du public. Les deux rôles doivent rester strictement séparés. Les journalistes ne doivent jamais construire eux mêmes les faits qui vont servir de base à leur travail d’analyse et de mise en perspective purement journalistique. Je comprend que la tentation soit grande, pour les journalistes, de se saisir de cet important problème des “fake news”. Mais ils doivent y résister, car sans le vouloir, en jouant sur les deux tableaux, ils affaiblissent la crédibilité des journalistes, ce qui renforce ceux qui cherchent à manipuler l’information.”

Barthélémy est journaliste. Qui plus est, journaliste scientifique. On en attend donc une démarche raisonnée et raisonnable et non pas une entreprise de torture des faits jusqu’à ce qu’ils avouent ce que l’on veut. En effet, en enfermant le débat et en occultant toutes les critiques faites depuis que le pot-aux-roses a été découvert, revient à travestir le vandalisme en démarche scientifique. Cela ressemble fort à la gestation d’un alternatif fact et contribue ainsi à créer ce que le journaliste du Monde prétend dénoncer.

Et si l’on transposait cette même démarche ?

“Vous êtes journaliste au Monde. Avez-vous tenté de faire des erreurs volontaires dans un sujet obscur destiné au journal papier ? sur le journal en ligne ? Avez-vous même tenté de faire un faux sur votre blog et voir s’il serait détecté ?

Je doute que ce soit bien vu. Il s’en trouvera pour dire que ça montre les failles d’un journal qui se veut sérieux, ou que vous transformez après coup le contenu erroné en fausse expérience, ou qu’à tout le moins ils ne pourront pas se fier au contenu à l’avenir faute de savoir si c’est une nouvelle expérience. Ne parlons même pas du risque d’un mauvais buzz où les gens n’entendent parler que de l’erreur mais pas de l’explication qui suit.”

L’éthique et les titres que l’on se donne veulent dire quelque chose. Alors plutôt que de répondre avec condescendance à ceux qui critiquent qu’ils ne savent rien du métier de journaliste, P. Barthélémy ferait bien de prendre exemple sur ses propres conseils à l’attention de Wikipédia : reconnaître ses erreurs, ses limites et s’améliorer.

Et maintenant alors ?

Notre motivation de prendre position en long et en large vient du fait que nous ne considérons pas cette manipulation élaborée comme un épiphénomène. Les contradictions et nombreux problèmes de la démarche, évoqués plus haut, découlent directement de la formulation actuelle du débat. Cela a déjà été pointé mais le discours sur les fake news repose sur une vision naïve de la fiabilité (qui se réduit à l’approbation d’informations « vraies » et au rejet d’informations « fausses »).

Une telle vision binaire et le recours à du vandalisme sournois par quelqu’un qui se définit comme “Passeur de Sciences”, c’est oublier également que les termes de « fake news » ou « post-truth » mélangent des pratiques relativement distinctes qui se juxtaposent plus qu’elles ne se confondent : propagande d’États, de groupes idéologiques ou d’entreprises, canulars, erreurs factuelles, etc. La polarisation de la société ne devrait pas être renforcée par de faux semblants et des apprentis sorciers.

Si certains propos peuvent paraître trop forts ou trop acides, alors imaginez quelle est notre consternation face à ce qu’il s’est passé. Pour reprendre les lois de Newton, à chaque force s’oppose une force d’intensité au moins équivalente. Il n’y a donc aucune animosité personnelle à y lire, mais l’expression d’un désarroi profond face à un journaliste à qui nous faisions confiance d’aborder, avec intégrité et intelligence, un sujet presque-oublié en France : la médiation scientifique.

Si l’on voulait, on pourrait suggérer de très nombreux sujets d’exploration autour de Wikipédia, aucun desquels n’implique la création de fausses informations :

  • Quelle participation et quelle qualité des contributions entre Wikipédia en français et en allemand ? Dans le cas allemand, la “quarantaine a priori” est utilisée.
  • Y a-t-il une résurgence des tentatives de vandalisme et de création de faux articles entre 2015 et 2016 ?
  • Wikipédia est-elle plus ou moins sensible que d’autres ressources d’informations aux discours de propagandes ou aux erreurs virales ?

On vous recommande cette vidéo hilarante et très à propos, par le journaliste John Oliver de la chaîne américaine HBO à propos de Trump et ses alternatif facts, élevés au rang de politiques publiques réelles en réponse à des problèmes exagérés ou carrément imaginaires.

Et puisque notre démarche est de co-construire la connaissance en respectant la véracité des informations et le sérieux de la démarche, nous invitons Pierre Barthélémy et toute personne le souhaitant à nous aider à compléter la page recensant les diverses critiques et études scientifiques traitant de Wikipédia, ses processus et ses communautés. Comme vous l’imaginez sans doute, il y a mille et une façons dignes, respectueuses et productives de renverser le cours du flux de fausses informations qui tente de nous submerger. Soyons-en les acteurs et non pas les pourfendeurs.

Les nouveaux modes d’éditorialisation du libre accès : l’étude critique de 2016 est là !

Je diffuse aujourd’hui mon principal projet de ces derniers mois, qui marque également l’aboutissement d’une réflexion engagée depuis plusieurs années sur Sciences communes : une étude critique sur les nouveaux modes d’éditorialisation des revues scientifiques en accès ouvert réalisée pour BSN — et très opportunément, cela tombe en pleine Open Access Week

couverture_rapport
Cliquez sur l’image pour accéder au rapport (hébergé sur scoms en attendant HAL)

L’étude n’est que la version « synthétique » d’une quarantaine de pages d’un ouvrage qui paraîtra dans quelques mois. On peut retrouver également certains éléments propres à l’ouvrage (non repris dans l’étude) dans la présentation que j’en ai tirée pour la BSN et que j’ai ressorti la semaine dernière pour le séminaire PragmaTIC :

Support de présentation de l’étude pour BSN

Le libre accès connaît aujourd’hui un tournant majeur. Il entre dans la loi : la Loi pour une République numérique prévoit un droit de republication des versions auteur ainsi qu’une exception au droit d’auteur pour faire de l’extraction automatisée de textes et de données (text & data mining, encore connu sous le sigle TDM). Au-delà de cette officialisation, le libre accès, sous toutes ses formes (archives ouvertes, revues, bases de données) est devenu un phénomène massif et incontournable, toutes disciplines, communautés et pays confondus.

De quel libre accès parle-t-on ?

La mise à disposition gratuite, voire sous licence libre, dissimule des choix éditoriaux, économiques et même politiques, radicalement distincts. Une partie du mouvement du libre accès est ainsi tentée par une mutation a minima : le journal flipping, soit une reconversion (to flip) des budgets consacrés aux abonnements en achats de « droits à publier » en libre accès, sans rien changer aux montants.

Cette reconversion maintient en l’état l’oligopole des géants de l’édition scientifique (bien présenté dans le dernier Datagueule), voire en étend la portée. Car un acteur comme Elsevier n’attend pas la généralisation du libre accès pour amorcer sa reconversion. Les acquisitions successives de Mendeley ou de l’archive ouverte SSRN (en attendant, peut-être, celles de ResearchGate ou Academia) témoignent de l’avènement de formes de contrôle et de captation inédites de l’activité scientifique : les interactions des chercheurs autour de leur publication alimentant un vaste recueil de métriques, revendues entre autres aux institutions universitaires. Nous assistons à l’émergence d’un nouveau modèle économique de l’édition scientifique assez largement inspiré de celui des grandes industries du web comme Facebook ou Google.

Une autre édition est possible

D’autres modèles existent : de par son ampleur-même, la conversion au libre accès autorise une réforme plus globale des conditions de diffusion de l’écrit scientifique. Les évolutions sont déjà engagées. C’est ce que rend visible la « cartographie » des pratiques et des initiatives émergentes qui se décline sur les quatre parties du rapport : outils d’édition, formes d’écritures, dispositifs d’évaluations et modèles économiques connaissent des transformations parfois radicales — et parfois convergentes. L’article n’est plus seulement ce un objet fixe et immuable une fois le processus de publication achevé mais connaît une multitude d’incarnation ultérieures (par exemple en se métamorphosant en données grâce aux techniques de text & data mining). L’évaluation ne s’arrête pas davantage au seuil de la revue : en s’ouvrant (open peer review), elle prend la forme d’une réception continue.

capture-decran-2016-10-27-a-16-18-45
Analyse de correspondance réalisée à partir des données d’une étude sur les pratiques d’écriture de 20 000 chercheurs : l’utilisation d’outils libre est étroitement liée à la pratique en libre accès (orange) tandis que des pratiques émergentes mettent davantage l’accent sur la réplication (bleu).

En 2016, la question n’est plus tant de susciter ou de développer des innovations, mais de les intégrer et de les combiner dans des infrastructures cohérentes. L’architecture du web permet de faire cohabiter et « dialoguer » des modèles très différents par le biais de standards communs. Pour soutenir cette « bibliodiversité », il est nécessaire de la donner à lire, de faciliter la circulation d’une forme à l’autre et d’une plateforme à l’autre. J’ai ainsi proposé une petite projection (connus par les initiés de BSN sous le nom de code de « slide 63 ») du rôle déterminant que pourraient désormais jouer les archives ouvertes au-delà du simple recueil de l’article en recensant la pluralité de ces incarnations : évaluations, réplications, extraction de données…

Projection d'une archive ouverte augmentée
Projection d’une archive ouverte augmentée (à partir d’un article déjà déposé dans HAL)

L’élaboration des infrastructures ne soulève pas des enjeux que « techniques ». Finalement un acteur comme Elsevier pourrait très bien jouer ce rôle (et commence à le faire). La différenciation s’opère sur un autre plan : celui, « politique », de la gouvernance. L’enjeu double est aussi bien d’empêcher le détournement de l’open access au profit de nouvelles enclosures que de développer des processus de prise décision plus efficaces et mieux adaptés à un contexte fortement évolutif. Le futur de l’édition scientifique passe ainsi peut-être par l’avènement de grandes plateformes auto-gérées. Celles-ci s’inscriraient la lignée de communs numériques comme Wikipédia ou OpenStreetMap, mais avec des modèles forcément différents, qui restent encore à inventer.

Bien qu’il m’ait été officiellement confié en janvier dernier, le rapport a été « préparé » depuis trois ans sur Sciences Communes. Le présent carnet a été créé en 2013 dans la perspective d’étudier et de référencer les « les nouvelles pratiques de réutilisation des publications et des données scientifiques ». Le rapport va aujourd’hui beaucoup plus loin que ce que j’imaginais alors : j’étais alors plutôt focalisé sur les questions de licences, tout en ayant en tête la perspective d’un écosystème élargi, né de la mobilité inédite des textes et données de la recherche (mon rapport particulier à l’open access, découvert alors que j’étais un simple contributeur sur Wikipédia dans l’incapacité d’accéder aux grandes bases d’articles sous paywall, n’y est pas étranger). Les dimensions de la « cartographie » du rapport sont en partie apparues dans le fil de ce carnet : la possibilité d’une captation de l’open access par des industries académiques 2.0, la nécessité d’une réponse politique, la longue « préhistoire » du libre accès…

Il y a une autre forme de continuité. Dans le rapport comme dans Sciences communes, les opportunités ouvertes par les nouvelles méthodes et formes d’écriture scientifique ne sont pas juste signalées mais mises en pratiques et exploitées. J’ai ainsi repris des données déposées sur Figshare ou Zenodo et j’ai développé des programmes d’extractions automatisés d’articles scientifiques (notamment pour situer le débat académique sur le terme d’open peer review) — tout comme, j’ai pu, par le passé, publier ici des « expériences » (1, 2, 3) qui démontraient, par l’exemple, l’opportunité de penser la publication scientifique comme une production croisée de textes, de données, de codes et de visualisations.

Réseau de similarité entre termes dans les blogs référencés dans l'Open Access Directory
Essai de text mining sur les blogs référencés dans l’Open Access Directory. Le réseau de similarité entre les termes met en évidence l’importance croissante des thématiques éditoriales (données, évaluation…) dans le mouvement sur libre accès

Et puis, ce travail est une forme de production collaborative par procuration. Si j’en suis techniquement le rédacteur, je ne peux pas laisser de côté toutes les influences, déterminantes, qu’il laisse percevoir : celles de mes « encadrants » (Serge Bauin, Emmanuelle Corne, Jacques Lafait et Pierre Mounier), celle de ma collaboratrice sur Sciences Communes Rayna Stamboliyska (qui a directement contribué à l’écriture de ce présent billet), celle de mes collègues de SavoirsCom1 (Lionel Maurel, Thelonious Moon, Mélanie Dulong de Rosnay — également contributrice sur Sciences Communes) et de tant d’autres, théoriciens ou acteurs du libre accès (Marin Dacos, Daniel Bourrion, Guillaume Cabanac, Marie Farge…)

Les données ouvertes et la recherche : quel état des lieux ?

Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl 🙂 ).

Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.

Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…

Que disent les chercheurs ?

Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.

Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.

La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».

Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.

La majorité des interrogés (n = 1 915) connaissent l'existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.
La majorité des interrogés (n = 1 915) connaissent l’existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.

Parmi les interrogés, une proportion importante a déjà fait des démarches d'ouverture de données.
Parmi les interrogés, une proportion importante a déjà fait des démarches d’ouverture de données.

Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu'une autre équipe de recherche a mises à disposition.
Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu’une autre équipe de recherche a mises à disposition.

Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu "pas du tout important" est pratiquement de 0 %.
Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu “pas du tout important” est pratiquement de 0 %.

Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu'une citation d'article, si ce n'est plus (10 % des interrogés).
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu’une citation d’article, si ce n’est plus (10 % des interrogés).

De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.

Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :

  • Une majorité des chercheurs (y compris des jeunes chercheurs) ont besoin d’accompagnement légal pour naviguer les complexités contractuelles de leurs financements. Ce besoin est exprimé aussi bien par les chercheurs ayant déjà publié des données en open data que par ceux qui ne l’ont jamais fait auparavant.

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le "niveau d'ouverture" desdites données.
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le “niveau d’ouverture” desdites données.

Le paysage des financements est très embrouillés : une majorité ne sait pas qui financera les démarches d'ouverture de données.
Le paysage des financements est très embrouillé : une majorité ne sait pas qui financera les démarches d’ouverture de données.

La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :

  • Le rôle des bibliothécaires a énormément évolué : ceux-ci se retrouvent au croisement des connaissances sur les données, le code et les cadres légaux ;
  • La perception de la publication scientifique a aussi énormément changé : un article n’est plus l’objet unique, statique, composé de texte gravé dans le marbre. Comme on l’a déjà dit par ailleurs sur ce blog, l’article scientifique est devenu la pub pour votre recherche ; ainsi, la routine éditoriale implique aujourd’hui la publication conjointe de l’article, des données produites dans le cadre de l’étude, du code utilisé pour les analyser et, dans certains cas, de fichiers multimédias annexes. La publication scientifique est donc une version de la connaissance du sujet pouvant évoluer.
  • Le volume a une importance (ou, plus prosaïquement, size matters) : si vous vous intéressez un peu au monde des données, vous ne serez pas étonné-e que l’attention (médiatique, financière) se porte le plus souvent sur le big data (les mégadonnées dont la volumétrie dépasse les terabytes). Cependant, les small data restent fermées : seulement 22 % des chercheurs indiquant produire des mégabytes partagent leurs données. Mais c’est aussi là que se cachent la diversité et les informations importantes mais trop souvent négligées, à savoir les résultats négatifs, les figures rejetées de l’article final, etc.

Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :

  1. Les métadonnées : il s’agit de ce que l’on appelle communément des données sur les données (date de création du fichier, son format, etc.). Dans la mesure où une publication devient une version d’enregistrement de la connaissance, une quantité invraisemblable de métadonnées vient avec cet objet : on a aussi bien celles générées par l’utilisateur que celles générées par le traitement automatique. Il y a par ailleurs de nombreux éléments du processus de recherche qui ne figurent pas (encore) au firmament des objets à ouvrir : les protocoles expérimentaux utilisés, les réglages des appareils, etc. La quantité de métadonnées accompagnant la publication de données et résultats scientifiques ne fera donc que croître et on se retrouve rapidement dépassé-e par les volumes à appréhender et gérer.
  2. La « curation » : autrement dit, le fait de choisir ce qui est pertinent pour un sujet donné. Faire de la veille implique de faire ces choix-là et passe par diverses étapes qui enlèvent ce qui est peu pertinent et qualifient les sources retenues pour une exploitation future. Mais si on a des outils plutôt corrects pour suivre les publications de nos pairs, comment gérer l’invraisemblable quantité de métadonnées dont je parlais juste ci-dessus ? Les auteurs soulignent ainsi le besoin de toujours créer des outils pour structurer les métadonnées et les travailler pour faciliter leur curation et (ré)utilisation ultérieures.
  3. La revue par les pairs : j’allais parler de Retraction Watch (même si les auteurs ne le font pas), de la publication de résultats négatifs ou neutres et de diverses autres initiatives telles que Software Carpentry, Run my Code, etc. mais je vais laisser pour une prochaine fois.

« L’économie politique de la recherche »

Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :

Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.

Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :

  1. Les données ouvertes (mouvement open data) sont une plateforme commune où les chercheurs, les institutions de recherche et les bailleurs de fonds peuvent échanger autour des difficultés pratiques de l’ouverture et la réutilisation des données issues de la recherche.
  2. Les données ouvertes contribuent à une discussion plus large autour de la transparence et de la légitimité des financements ainsi que à celle du retour sur investissement, piliers des politiques publiques de la recherche et préoccupations des bailleurs de fonds.
  3. Le mouvement open data s’aligne sur des défis plus globaux tels que les acteurs désormais incontournables de la recherche issus de centres scientifiques hors de la zone euro-américaine.
  4. Les données ouvertes sont un exemple de l’introduction de la recherche scientifique dans des logiques de marché. Assez pragmatiquement, ce point aborde la conception des données comme des objets politiques, sociaux et financiers. « L’idée même des données scientifiques comme artéfacts pouvant être vendus, échangés et réutilisés pour créer de nouvelles formes de valeur est indissolublement liée à la logique de marché où les données sont des objets d’échange ». De même, l’idée de libre circulation de données scientifiques pose des défis quant à la conception de compétition et propriété non seulement au sein de la communauté scientifique, mais aussi dans les interactions de celle-ci avec d’autres acteurs.

Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :

[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.

Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !

❌