Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

🔒
❌ À propos de FreshRSS
Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierSciences communes

ChatGPT : comment ça marche ?

Tout-le-monde en parle : chatGPT révolutionne l’enseignement, la programmation, la propagande, le marketing, la politique… Et pourtant, qui est chatGPT ?

Tout d’abord deux modèles différents, souvent confondus.

GPT c’est Generative Pre-trained Transformer 3, un modèle géant de prédiction de texte entraîné par OpenAI sur 500 milliards de mots. GPT-3 est non seulement capable d’écrire correctement dans plusieurs langues mais c’est aussi un modèle encyclopédique qui intègre un grand nombre de références au monde réel (personnes, événements, connaissances scientifiques) qu’il restitue plus ou moins bien. GPT-3 existe déjà depuis environ deux ans mais n’a jamais été ouvert au grand public. Et cela pour des raisons de coût mais aussi, surtout de risques : GPT-3 n’a pas vraiment d’inhibition et peut générer n’importe quoi tant que le texte est superficiellement cohérent.

ChatGPT est aussi basé sur InstructGPT, un modèle conversationnel “d’apprentissage renforcé par retours humains” (Reinforcement Learning from Human Feedback ou RLHF). Il s’agit d’une version “redressée” de GPT-3 créée à partir de l’annotation de textes générés. Le modèle incorpore toute une série de récompenses (“rewards”) et de pénalités qui jouent plusieurs fonctions : renforcer la cohérence du texte généré, éviter les contre-vérités flagrantes, mais aussi modérer par anticipation de potentielles dérives toxiques. Parmi tout l’univers des réponses linguistiquement correctes que GPT-3 pourrait générer, chatGPT opte pour celles qui sont le plus correctes dans le contexte d’un chat : c’est ce qu’on appelle l’alignement (“AI alignment”). Sur la base de ce même principe, chatGPT refuse aussi parfois carrément de répondre.

Schéma du "modèle conversationnel" (RHLF) de chatGPT

L’articulation des deux modèles n’est pas très claire. Ils semblent avoir été déjà fusionnés dans la nouvelle version de GPT-3 utilisé par chatGPT, GPT 3.5 (aussi appelé text-davinci-003). Mais chatGPT utilise en plus un (ou plusieurs ?) modèles conversationnels plus légers en amont et en aval. S’y ajoute enfin des filtres de modération indépendants qui empêchent par exemple de poser des questions inconvenantes.

Néanmoins la distinction entre modèle textuel et modèle conversationnel est fondamentale pour comprendre comment fonctionne chatGPT :

  • Le modèle linguistique n’est pas actualisé et ne se nourrit pas des suggestions des utilisateurs. L’entraînement des modèles GPT est très coûteux et ne sera renouvelé qu’une fois par an environ (donc pour maintenant, on attend GPT-4). C’est la raison pour laquelle chatGPT ne ferait pas de références au monde actuel après 20211
  • Le modèle conversationnel continue de s’affiner en fonction du retour des utilisateurs : toutes les 3-4 semaines en moyenne, OpenAI améliore l’alignement du modèle avec les intentions des utilisateurs ou de la plateforme. Si le modèle textuel ne change pas, le modèle conversationnel opte pour des générations de meilleures qualités et, inversement, pénalise davantage les générations malvenues. La dernière version en date du 30 janvier, améliore ainsi la “factualité” de chatGPT ou, plus prosaïquement, pénalise davantage les “hallucinations” (c’est le terme consacré pour désigner les générations purement imaginaires). Le modèle conversationnel semble aussi disposer de sa propre “mémoire” ce qui lui permet de tenir des conversations plus longues que le modèle linguistique.

Au-delà des deux modèles, chatGPT est un amoncellement de strates, de morceaux de codes et de concepts qui marque l’aboutissement de 70 ans de recherches en linguistique, en informatique. Au fond, le meilleur moyen de comprendre chatGPT c’est encore d’en retracer l’histoire. Essayons de dénouer un peu tout ça.

1. Le principe fondateur : la statistique sémantique

En janvier 1954, l’ordinateur IBM de l’université Georgetown tourne à plein régime. Chercheurs, journalistes et responsables politiques assistent à la première démonstration publique d’un traducteur automatique : en quelques instants, le programme parvient à traduire parfaite quelques phrases de russe en anglais. En réalité, la démonstration est truquée. Le programme ne connaît qu’un vocabulaire réduit de 250 mots en russe et en anglais et, surtout, seulement quelques règles de grammaire. Les phrases ont été commodément choisies en amont pour être correctement restituées.

L’une des fiches créés pour l’expérience de traduction automatique de Georgetown en 1954. La phrase en russe représente l’input initial.

Malgré ce truc, l’expérience suscite de grandes espérances. Les premiers ordinateurs sont tout auréolés du déchiffrement d’Enigma. Et si au fond, les langues n’étaient que des codes comme les autres ? L’allemand ou le russe n’est-il que de l’anglais crypté ?

Les spécialistes de l’informatique sont sceptiques. En 1947 le mathématicien Warren Weaver écrit au père fondateur de la cybernétique, Norbert Wiener. Il envisage de créer un programme de traduction automatique universel pour assurer la “paix dans le monde” (éventuellement avec le soutien financier l’UNESCO). Cet échanges est publié en 1949 par Weaver dans un court “Mémorandum“. Malgré sa nature un peu décousue, ce texte pose les bases d’une théorie fondamentale qui est directement à l’origine de chatGPT : la statistique sémantique.

Norbert Wiener constate que les solutions “naïves” de traduction par ordinateur ne sont pas généralisables. Les mots ont trop de sens différents : “Je redoute franchement que les frontières entre les mots de différentes langues sont trop vagues et les connotations émotionnelles sont trop étendues pour réaliser un quelconque projet de “mécanisation” de la langue”. Weaver émet alors l’hypothèse que l’ordinateur ne devrait pas seulement traiter les mots d’une manière isolées. Il faudrait tenir compte du contexte ou même déjà du “micro-contexte”, celui des voisins immédiats du mot dans la phrase :

Si nous lisons un mot dans un livre en isolation à travers un masque opaque (…) il est impossible de déterminer sa signification (…) Si maintenant, nous élargissons le masque opaque, de telle manière que nous ne voyons pas seulement le mot, mais aussi un nombre N de mots de chaque côté, si N est suffisamment large, nous pouvons sans ambiguïté trouver la signification du mot

Warren Weaver, “Mémorandum“, p. 8

Ce N correspond à ce qu’on appellerait aujourd’hui une “fenêtre contextuelle” (context window). Au début des années 2010, les premiers modèles courants de texte par réseaux de neurone utilisaient une fenêtre contextuelle d’une dizaine de mots. Dans GPT 3.5 cette fenêtre a été élargie à environ 3000 mots (ou 4000 “tokens”).

La fenêtre contextuelle repose sur l’hypothèse d’une statistique sémantique ou sémantique distributionnelle : le sens procède de la position relative des mots les uns avec les autres. Nous en faisons tous l’expérience en lisant dans une langue étrangère ou un texte un peu ancien. Souvent, il n’est pas nécessaire de consulter un dictionnaire pour saisir une définition approximative d’un mot ou d’un usage inusité. Il y a suffisamment d’indices dans le texte lui-même pour comprendre qu’il s’agit par exemple d’un lieu, d’un instrument ou d’une action.

2. Un espace de significations : les “embeddings”.

En 1949, la sémantique distributionnelle n’est pas une hypothèse totalement originale. On l’a trouve sous d’autres noms ou d’autres approches chez la plupart des grands théoriciens linguistiques de la période, dont Roman Jakobson. Seulement pour Weaver ce n’est pas une observation générale du comportement linguistique, mais un problème à résoudre computationnellement.

Weaver, comme tous les chercheurs qui se pencheront sur le sujet jusqu’aux années 2010, est immédiatement confronté à un écueil majeur : même en se limitant au vocabulaire le plus basique (par exemple quelques milliers de mots), il existe des milliards et des milliards de combinaisons possibles. Indépendamment des limitations techniques des ordinateurs de 1949, recenser toutes ces possibilités est un travail absolument inconcevable.

À partir des années 1980, plusieurs projet de recherche théorique et appliquée ont tenté de simplifier ces réseaux de co-occurrences massifs à partir de l’analyse matricielle. Les corpus sont transformés en tableaux géants associant un mot à un document (ou un mot à un mot). Puis plusieurs algorithmes peuvent être utilisés pour simplifier ce corpus en réduisent l’ensemble des occurrences possibles à un nombre prédéfini de dimensions (c’est la “décomposition matricielle”). La compression d’image est un assez bon analogue pour comprendre ce processus. Une image publiée un format “jpeg” est beaucoup moins volumineuse, simplement parce qu’elle ne conserve pas les pixels d’origine mais une série de paramètres et de poids permettant de recomposer l’image (c’est le coding de Huffman).

Cette approche est qualifiée d’analyse sémantique latente (ou indexation sémantique latente pour son versant plus appliqué). Elle est dite “latente” en raison de sa capacité à rapprocher des termes utilisés similairement même lorsqu’ils n’apparaissent jamais ensemble dans le même texte. C’est typiquement le cas des synonymes : “maison” et “habitation” vont rarement figurer dans la même phrase mais ont les mêmes voisins et, si elle est concluante, l’analyse sémantique latente devrait rapprocher les deux termes.

Aujourd’hui ces dimensions simplifiées sont qualifiés d'”embeddings” ou plongement de mots. Pour simplifier, on peut considérer les embeddings comme des coordonnées dans un espace sémantique partagé : plus les mots sont “proches” dans cet espace et plus il vont avoir le même sens et le même principe peut s’appliquer aussi aux documents. Dans ce cadre, l’analyse du texte devient aussi une analyse spatiale : la similarité se mesure avec des rapports géométriques (en particulier, la similarité “cosine”). Ce tournant spatial affecte l’ensemble des corpus traités par l’intelligence artificielle. Texte, image, son, vidéo : tout est un embedding aujourd’hui. La génération d’une image par du texte est fondamentalement une opération de conversion des embeddings du texte en embeddings visuels.

ChatGPT procède encore de cette manière. Chaque “mot” généré est le résultat d’une exploration spatiale qui tient à la fois compte des voisins immédiats du mot (qui vont notamment déterminer sa syntaxe), du sens général de la conversation (la fenêtre contextuelle de 3000 mots) et de tout le vaste imaginaire des mots possibles dans cette langue.

Projection d’analyse sémantique en deux dimensions dans “Indexing by Latent Semantic Analysis” (1990, p. 397)

L’analyse sémantique latente est cependant toujours contrainte par la taille du corpus. S’il est possible de construire un tableau de cooccurrence pour un ensemble de quelques milliers de textes, cela devient rapidement impraticable à grande échelle. Pour l’ensemble de Wikipédia anglais (qui jusqu’à récemment était le corpus de référence pour l’IA appliquée au texte), cela représenterait un tableau extrêmement clairsemé de 5 millions de documents d’un côté et de plusieurs centaines de milliers de mots de l’autre (même si on se limite uniquement aux termes un peu fréquents), soit environ 500 milliards de données. Même aujourd’hui seul un superordinateur serait capable de traiter un corpus de taille…

3. Le modèle : un réseau de neurone

Dans son Mémorandum visionnaire publié en 1949, Warren Weaver mentionne incidemment la meilleure solution technique pour encoder les milliards de relations contextuelles d’un mot vers un autre : un réseau de neurone. Malgré son ascension fulgurante ces dernières années, le réseau de neurone est aussi une technologie ancienne, théorisée par McCulloch et Pitts dès 1943. Weaver s’intéresse alors particulièrement à leurs capacité d’actualisations : les réseaux de neurones peuvent réévaluer les données initiales à la lumière de nouvelles observations grâce à une boucle de rétroaction (feedback loop). Sur cette base, il pourrait être possible de traduire des textes dotés d’une forte logique interne — ce qui exclut, pour Weaver, la traduction littéraire.

Les réseaux de neurones de 1943 (McCulloch & Pitts, p. 105)— déjà envisagés par Warren Weaver et Norbert Wiener pour solutionner leurs problèmes de traduction automatique.

Weaver ne soupçonne pas que les réseaux de neurones sont des algorithmes de “compression” extrêmement efficaces. Ils parviennent aujourd’hui à réduire des milliards de milliards de relations possibles en un nombre limité de paramètres et de poids. Le modèle de génération d’image Stable Diffusion est un exemple parfait : un corpus initial de 170 millions d’image est transformé en un modèle de seulement 2 gigaoctets, soit une dizaine d’octets par image. Évidemment, les réseaux de neurones ne peuvent pas recréer les productions originales en dehors de quelques cas particuliers, mais ils conservent une mémoire des représentations abstraites et des styles, ce qui permet ensuite de générer un nombre indéfini d’images nouvelles.

Du fonctionnement théorique à l’application pratique il y a un pas énorme. Les réseaux de neurones sont très coûteux en opérations computationnelles, en grande partie à cause de leur capacité d’actualisation. La recherche dans ce domaine reste quasiment “congelée” jusqu’aux années 1990, quand les infrastructures techniques deviennent suffisamment performante pour tester empiriquement des architectures jusqu’ici essentiellement théoriques.

En 2013, une équipe de chercheurs de Google sous la direction de Tomas Mikolov publie une méthode révolutionnaire qui va se répandre comme une traînée de poudre : word2vec. word2vec s’appuie sur un réseau de neurone simple à une seule couche (c’est du shallow learning par opposition au deep learning plus communément utilisé aujourd’hui). Concrètement il n’est pas nécessaire de stocker en amont un tableau gigantesque de cooccurrence. word2vec définit les coordonnées sémantiques des mots au fil de l’eau, en “lisant” le corpus au fur et en prenant 10-15 termes à la fois (c’est la taille de sa “fenêtre contextuelle”). Dans l’un de ses exemples de démonstration, word2vec utilisait ainsi un corpus de 100 millions de mots extrait de Wikipédia. L’entraînement de ce corpus peut être fait sur un simple ordinateur personnel.

Cette innovation technique entraîne toute une série d’innovations conceptuelles. Mikolov s’est formé en République Tchèque et s’inscrit dans la tradition de l’analyse linguistique structurelle de Roman Jakobson. Il perçoit immédiatement tout le potentiel de la statistique sémantique appliquée à de très larges corpus. Il est possible non seulement de recouvrer des synonymes mais aussi d’identifier des relations de genre (du féminin au masculin), d’abstraction, de fonction ou de situation géographique, simplement en se baladant dans l’espace sémantique créé par word2vec. L’un des exemples cité dans l’article originel de Mikolov porte ainsi l’identification des capitales sur la base du nom du pays :

Identification des capitales à partir du nom d’un pays. La relation pays => capitale, correspond à une distance précise dans l’espace sémantique des “word embeddings”.

word2vec ne fait qu’appliquer les principes élémentaires de la statistique sémantique. En 2014, les linguistes Omer Lévy et Yoav Goldberg constatent que le réseau de neurone “léger” n’est qu’un outil d’optimisation. Toute les opérations effectuées à partir des embeddings pourraient être réalisées avec des tableaux géants de cooccurrences (ce que fait d’ailleurs un autre programme créé par Stanford, Glove).

Le recours au réseau de neurone représente néanmoins une simplification massive. Rapidement, il apparaît que les word embeddings peuvent être transférés entre les langues. Le réseau des relations sémantiques n’est pas notablement différent entre les langues d’une même famille linguistique et il suffit d’un petit nombre d’alignements prédéfinis (par exemple sur la base d’un dictionnaire) pour les recouvrer. À partir de 2015, une version améliorée de word2vec, fasttext, publie des embeddings dans près de trois cents langues, dont 44 langues “alignées”.

Ce principe de transfert linguistique est fondamental pour chatGPT. La génération de texte en français se nourrit non seulement des corpus francophones mais aussi du transfert de l’espace sémantique e toutes les autres langues, ce qui permet de faire allusion à un grand nombre de faits et d’informations qui ne seraient pas forcément présents dans le corpus initial.

4. Lire le texte attentivement : les “transformers”

Word2vec a immédiatement trouvé son utilité en analyse de corpus — mais beaucoup moins pour la génération de texte. Ce n’est pas très surprenant. Dans sa phase d’apprentissage, word2vec traite tous les mots de sa fenêtre contextuelle en vrac (c’est qu’on appelle un sac de mot ou “bag of words”) : l’ordre n’a aucune importance. Par conséquent, si le modèle fonctionne très bien pour recouvrer le sens d’un mot en particulier, il n’est pas vraiment censé compléter ou générer une phrase, faute d’une compréhension générale de la syntaxe.

D’autres réseaux de neurones se prêtaient mieux à la génération de texte. Les réseaux “séquentiels” (comme les LSTM) conservent une mémoire agrégée de tous les mots immédiatement antérieurs. Seulement, plus la phrase antérieure (ou la fenêtre contextuelle) est longue et plus cette mémoire va se dégrader : c’est le problème de la disparition du gradient. Ces réseaux de neurones ressemblent un peu à une personne peu attentive qui attrape au passage des bribes d’une conversation. Tant que la discussion n’est pas très complexe, il est possible de la reconstituer approximativement. Au-delà d’un certain seuil de complexité, on ne comprend plus rien.

Les modèles “transformers” apparaissent en 2017 sur la base d’un principe relativement simple : “tout ce dont vous avez besoin, c’est de l’attention” (“All you need is attention“). Au lieu de se limiter à une lecture flottante de ce précède et d’en retirer une vague notion générale du sujet du texte, les modèles transformers modélisent les interactions entre les mots précédents. Ils ont une compréhension intuitive de la syntaxe et de la composition de la phrase qui fait défaut dans tous les modèles qui l’ont précédé. Évidemment, cette modélisation est complexe : les réseaux de neurones légers utilisés par word2vec laissent place à de l’apprentissage profond (“deep learning”).

Visualisation du mécanisme d’attention des transformers dans BertViz : chaque mot est pris dans un réseau de relation avec d’autres mots.

Ce mécanisme d’attention change complètement les règles de l’interaction avec l’IA ainsi que sa géographie sémantique sous-jacente. Le modèle est naturellement conçu pour réagir à un texte pré-existant ou le compléter — ce que l’on appelle un prompt. Au lieu de créer un jeu de coordonnées sémantique (ou “embedding”) pour chaque mot, il y a maintenant des coordonnées pour chaque occurrence précise du mot. Par conséquent, il devient possible d’étudier précisément l’emploi de certaines formules syntaxiques, ce qui aurait été impossible avec word2vec. En 2020, Lauren Fonteyn a pu analyser l’évolution de l’usage de l’expression anglaise “to be about” en projetant un grand nombre de verbatims dans le même espace sémantique.

Les différentes acceptions de “to be about” en anglais : les clusters identifiés par BERT correspondent presque parfaitement à l’interprétation linguistique (Fonteyn, 2020)

5. Toute la culture dans un espace : les grands modèles linguistiques

En raison de leur sophistication, les modèles transformers ne peuvent pas être créés avec un équipement informatique classique. À partir de 2018, Google commence à mettre à disposition toute une série de modèles “pré-entraînés” sous le nom de BERT (du nom du protagoniste de la série de marionnettes des années 1990 Sesame Street).

BERT ouvre une nouvelle ère : celle des “grands modèles de langue” (Large Language Model). Les premières versions, Bert Base et Bert Large reposent sur un large corpus : une bonne partie de Wikipédia (2,5 milliards de mots) et une collection composite de livres appelé Books2 (800 millions de mots). L’espace sémantique ainsi modélisé est documenté par 110 millions de paramètres (pour Bert Base) et 340 millions de paramètres (pour Bert Large). La phase d’entraînement représente un coût matériel d’environ 7000$ (correspondant aux coûts d’acquisition et d’usure des infrastructures en GPU).

Ces investissements étaient inédits en 2018. Ils vont être très rapidement dépassés : la création de BERT ouvre une compétition massive. Corpus, paramètres, architecture : tout grossit à vitesse grand v. Si toutes les grandes plateformes occupent le terrain (Google, Facebook et Microsoft), c’est finalement un nouveau venu qui emporte la mise : OpenAI. Cette petite structure non-commerciale accomplit un grand saut dans l’inconnu en 2019 : son propre modèle transformer, GPT2 est entraîné sur un corpus immense, WebText. Il s’agit d’une sélection de l’archive du web Common Crawl : n’ont été retenus que les liens partagés (et likés) sur Reddit. Le coût réel de GPT-2 est inconnu mais dépasse probablement le million de dollars.

Par rapport à l’ensemble des modèles transformers, GPT-2 n’est pas très original. Seulement, le passage à l’échelle change tout. Non seulement, GPT-2 écrit des textes beaucoup plus crédibles, mais il s’agit aussi d’un modèle encyclopédique. Il contient un large répertoire de “faits” scientifiques ou historiques dans lequel il puise avec plus ou moins d’adresse. GPT-2 n’a pas seulement créé un espace sémantique mais aussi un vaste espace culturel latent.

À la différence des modèles exclusivement linguistiques qui l’ont précédé GPT-2 peut prétendre formuler des “faits” ou des informations. Sa mémoire encyclopédique, principalement basée sur Wikipédia et quelques autres sources académiques, contient un grand nombre de référence au monde réel. Seulement, il n’y a pas de garantie qu’elles soient parfaitement restitué.

L’épistémologie de GPT est probabiliste : plus un énoncé est présent dans le corpus d’entraînement et plus il a de chance d’être correctement restitué. C’est ainsi que chatGPT affirmera généralement que Napoléon a perdu à Waterloo tant cette information a pu être ressassée dans le corpus d’origine. Seulement dès qu’un énoncé est rarement présent où dès que le prompt d’origine prend une direction imprévue, le modèle peut facilement se perdre dans une série d’hallucinations.

Un exemple de l’épistémologie probabiliste de chatGPT : sur une question standard de culture générale, la réponse est presque toujours exacte. Sur un sujet de niche que je maîtrise relativement bien (l’histoire de la presse au 19e siècle), chatGPT brode des faits vraisemblables à première vue mais qui n’ont jamais existé.

GPT-3 marque encore un nouvel élargissement des capacités encyclopédiques de GPT-2. Le nombre de paramètre du modèle est multiplié par 100 et passe de 1,5 milliards à 175 milliards. Cela n’a pas vraiment d’incidence sur l’intelligence du modèle contrairement à ce qu’on peut lire un peu partout, mais sur sa mémoire collective : il parvient à faire des allusions ou des références à des informations “rares” mentionnées uniquement quelques fois dans le vaste de corpus de près de 500 milliards de mots.

6. L’inconscient des bots : l’IA en quête d’alignement.

De GPT-3 à chatGPT, l’évolution est d’un autre ordre : vers le déploiement d’un modèle conversationnel capable de contrôler et “aligner” les générations du modèle linguistique et encyclopédique.

C’est une préoccupation ancienne. Déjà en 1960, Norbert Wiener s’inquiétait du futur de la coopération entre humains et agents intelligents : si nous en venons à déléguer des tâches critiques à des “agents mécaniques”, nous devons “nous assurer que les objectifs de la machine sont bien les nôtres et pas juste une représentation attrayante (colourful imitation) de nos intentions”3. Pour reprendre la terminologie de Wiener, tous les textes générés par GPT-3 sont des “représentations attrayantes”. Le modèle flotte librement dans l’espace des significations sémantiques, sans aucune boussole morale.

Si l’ouverture de chatGPT a été un tel choc, c’est aussi parce que le grand public a été soigneusement mis à l’écart du long processus de perfectionnement des générateurs de texte. Plusieurs accidents industriels ont convaincu les grandes plateformes de limiter l’accès autant que possible à des usages professionnels ou scientifiques. En mars 2016, “Tay“, un chatbot de Microsoft s’est rapidement mis à produire des messages racistes et sexistes après quelques heures d’activité sur Twitter. Twitch vient tout juste de suspendre une émission entièrement générée dans le style de Seinfeld, “Nothing Forever” suite à la génération accidentelle d’un texte potentiellement transphobe (l’interprétation est discutée…). De fait, l’agent conversationnel de référence des années 2010 n’est pas Tay ou une version dérivée de Bert : c’est Siri, le robot d’Apple étroitement contrôlé par un système de règles rigides et qui pourrait avoir été déjà développé dans les années 1960.

Depuis 2019, un nouveau champ de recherche a rapidement émergé sur le “renforcement humain” de l’apprentissage automatisé (Reinforcement Learning from Human Feedback). Par opposition aux problèmes éthiques finalement assez théoriques soulevés par Wiener, la question devient très pratique. Les grands modèles de langue génèrent du texte crédible mais qui n’est pas forcément vrai, fiable ou éthique.

Évidemment aucun générateur de texte n’est parvenu à surmonter ces difficultés. Seulement, en raison de la qualité du texte et de sa capacité de conviction, le risque de dérives est considérablement plus élevé. Produire un texte de qualité représente un certain coût. J’en ai vraiment pris conscience en contribuant activement à Wikipédia : environ 80-90% des canulars et des vandalismes se détectent en quelques secondes, simplement à partir de la forme du texte, qui n’adhère pas au norme implicite de la rédaction encyclopédique. Avec GPT-3, créer un faux article convaincant de Wikipédia prend aussi quelques secondes.

De plus les modèles de langue sont particulièrement bon pour identifier des représentations sociales latentes, pas forcément explicitement avouées. Déjà en 2016, une étude montraient que les word embeddings recréaient spontanément des représentations sexistes (un programmeur est exclusivement masculin), simplement parce que l’espace sémantique simplifie et radicalise des conceptions sociales communément partagées.

Nous l’avons déjà évoqué au début de l’article : le renforcement humain repose sur une classification a posteriori de générations de texte. Heureusement, il n’est pas nécessaire de classer des centaines de millions de textes pour obtenir des résultats valables. Certains comportements “désirables” du modèle sont déjà présents à l’état latent, aussi parce que le corpus d’entraînement a été sélectionné sur cette base. Dans Common crawl la grande majorité des textes sont de nature encyclopédique ou scientifique et on trouvera peu de contenus ouvertement conspirationnistes. D’après une synthèse de HuggingFace obtient des résultats relativement probants à partir de 50 000 exemples annotés.

Cela représente quand même beaucoup de travail. Mon hypothèse personnelle est que chatGPT a été conçu comme un moyen très efficace de collecter du “digital labor”. Le modèle conversationnel a été d’abord “entraîné” par des annotateurs de pays en voie de développement, en particulier au Kenya. Aujourd’hui environ dix millions d’utilisateurs uniques génèrent des dizaines de millions de textes par jours et envoient peut-être des dizaines de milliers de signalements. Ce n’est évidemment pas gratuit. Pour faire tourner chatGPT à cette échelle, OpenAI dépense probablement des millions d’euros par mois. Seulement, au-delà de la publicité énorme, OpenAI a réussi à collecter un corpus considérable d’annotations qui sera sans doute difficile à répliquer : quand les chatbots de ses concurrents (Google, Baidu, etc.) seront disponibles gratuitement, l’effet de nouveauté se sera un peu émoussé…

7. Reprise et coda

Dès lors récapitulons. Que se passe-t-il lorsque chatGPT génère un nouveau mot ?

Le modèle tient d’abord compte de toute la conversation antérieure, dans la limite fixée par la fenêtre contextuelle du modèle GPT 3.5 (environ 3000 mots). Il peut à la fois faire référence à des éléments déjà mentionnés mais aussi s’inscrire dans la continuité thématique ou stylistique de la discussion. Tous les mots n’ont cependant pas le même poids et grâce au mécanisme d’attention intégré dans les modèles transformers, chatGPT va accorder beaucoup plus d’importance aux mots immédiatement antérieurs (qui conditionnent la syntaxe de la phrase) ou à des passages plus anciens qui ont une incidence directe sur la formulation du mot (ce qui permet par exemple de faire revenir le nom d’un protagoniste lors de l’écriture d’une histoire). La barrière de la langue n’est pas un problème pour chatGPT. On peut passer indistinctement du français à l’anglais puis à l’italien : ces différentes langues sont “alignées” et puisent dans un répertoire sémantique commun.

Tout ceci pose le contexte initial et un certain univers de possibilités. Cependant, chatGPT reste relativement libre de puiser dans une mémoire sociale et collective bien plus vaste. chatGPT arpente cette mémoire comme un espace — en vérité, la fameuse métaphore rhétorique des lieux de mémoires n’a jamais été aussi appropriée. Comme un rhéteur de la Renaissance, chatGPT se perd dans un palais de mots. Il va généralement prendre les chemins les plus courants mais il peut aussi lui arriver de s’égarer. En vérité, la direction prise est imprévisible : chagGPT n’est pas déterministe. Il y a toujours une part de hasard ou d’inspiration dans ses pérégrinations.

À la différence des modèles GPT et GPT 3.5, l’imaginaire de chatGPT n’est pas totalement débridé. Il doit passer d’abord le seuil de son inconscient : ce système de “feeback” récompense ou pénalise les générations de mots qui ne s’accordent pas aux attendus de la conversation, soit parce que ces mots seraient inconvenants, soit parce qu’ils seraient inexacts. Je pense que ce dispositif fonctionne également comme une mémoire étendue et permet ponctuellement à chatGPT de se “souvenir” de mots ou de situations qui excèdent sa mémoire contextuelle normale limitée à 3000 mots.

Bien évidemment, il reste encore beaucoup de zones d’ombre. Un peu plus de deux mois après le lancement de chatGPT, OpenAI n’a toujours rien publié. On doit se contenter de recoller les morceaux à partir des questions-réponse sur le site, ou de descriptions assez génériques de GPT-3.5 ou d’InstructGPT. Cela pourrait rapidement changer. La concurrence va s’intensifier. Dans quelques semaines, Google devrait ouvrir l’accès à son propre chatbot, Bard.

Les évolutions les plus intéressantes vont peut-être venir d’ailleurs.

chatGPT a montré d’emblée le potentiel des grands modèles de langue dans plein de domaines mais on est encore loin d’un usage véritablement professionnel. Je m’attends à une déferlante rapide de chatGPT spécialisés, entraînés sur une tâche relativement précise, à l’image des modèles créés en France par LightOn : l’implication en amont des utilisateurs à venir de ces modèles sera probablement déterminante pour garantir un bon “alignement” avec l’univers social et professionnel auquel il sera destiné.

Et, les grands générateurs de texte vont peut-être prochainement connaître sa révolution open source. Pour l’instant, chatGPT (et GPT-3) est un peu naturellement protégé par sa taille : il n’est pas possible de recréer ni même de faire tourner un modèle de cet ampleur dans un contexte non-commercial. Cela ne durera peut-être pas. Les générateurs d’images ont déjà connu des optimisations massives : en 2021, il me fallait plus d’une heure pour créer une image relativement floue sur Google Colabs. Aujourd’hui, Stable Diffusion génère de véritables photographies imaginaires en moins de vingt seconde sur mon ordinateur personnel. La même équipe de recherche à l’origine de Stable Diffusion envisage aujourd’hui de créer une version libre de chatGPT beaucoup plus économe (environ 24 go de mémoire vive : c’est au-delà des capacités de la plupart des ordinateurs personnels mais on n’en est quand même plus très loin)

  1. Enfin, je pense que des documents de l’année 2022 sont présents dans GPT-3.5, comme le modèle n’a été publié qu’en novembre 2022, mais cela reste parcellaire et il est plus commode pour OpenAI de communiquer sur une coupure nette après 2021
  2. GPT est un modèle dit “génératif” au sens où il n’est pas initialement entraîné sur une tâche précise. Même si l’architecture diffère, la conception générale du modèle n’est pas très différente de BERT
  3. Norbert Wiener, Some Moral and Technical Consequences of Automation, p. 88

L’écrivain est un robot: générer des pastiches littéraires avec GPT-2

En 1909, l’écrivain allemand Karl Lasswitz imagine une bibliothèque universelle reposant sur « une machine combinatoire » capable de générer toutes les combinaisons possibles de 40 lignes de 50 caractères. Cette collection contient non seulement toutes les œuvres qui ont existé mais aussi toutes celles qui ont été perdu ou qui restent encore à venir. Seulement, la bibliothèque reste un horizon rêvé et inaccessible. Non seulement il est impossible de s’y retrouver. Elle contient forcément son propre catalogue mais il est tout aussi irrécupérable. Et, de toute manière, la bibliothèque est irréalisable : elle contient plus de livres qu’il n’existe d’atomes dans l’univers.

L’histoire a été fréquemment reprise (et la bibliothèque universelle devient la bibliothèque de Babel dans une version fameuse de Borges). L’informatique moderne semble la concrétiser. Plusieurs projets numériques en donnent une idée approximative. Il existe ainsi une library of babel contenant 3200 pièces disposant chacune de 20 étagères réparties sur 4 murs, comprenant à leur tour chacune 5 rangées de 32 livres de 410 pages. L’ensemble est considérablement plus vaste que les bibliothèques physiques usuelles mais reste microscopique au regard de la bibliothèque universelle envisagée par Lasswitz. Et surtout, il est toujours impossible de s’y retrouver. Les explorations occasionnelles de débouchent que sur du charabia. Quelque part se trouve, peut-être, une traduction de Shakespeare en étrusque, les traités perdus d’Épicure ou le catalogue de la bibliothèque : à moins de disposer d’un temps infini nous n’en sauront jamais rien.

Des nouvelles méthodes de génération de texte permettent d’envisager une bibliothèque universelle plus lisible et structurée — tout en gardant une vocation “universelle”. Les techniques couramment utilisées depuis les années 1950 ont longtemps présenté l’inconvénient d’être trop limitatives et directives : les créations sont des combinaisons de règles pré-définies qui ne requièrent d’ailleurs pas forcément une machine informatique1. L’auteur est un programmeur au sens strict : s’il n’écrit pas directement le texte il détermine complètement ses conditions de possibilité et l’horizon des textes possibles.

Depuis quelques années, ces approches sont concurrencées par de nouveaux modèles “neuronaux” et inductifs : au lieu d’être pré-déterminée par une série de règles transparentes, la génération de texte est mise en œuvre par des réseaux de neurones capables de reconstituer des abstractions complexes comme la forme d’un visage, le contour d’une fleur ou… le style d’un écrivain.

Une nouvelle machine à créer : GPT-2

En février 2019, un nouvel outil GPT-2 parvient à créer des nouvelles journalistiques crédibles en série suscitant au passage de nombreuses inquiétudes : serait-il bientôt possible d’inonder les réseaux sociaux de millions de Fake News ? Un an plus tard, ces angoisses sont plutôt retombées. La principale réalisation concrète de GPT-2 est à ce jour un show humoristique suivi en direct par plusieurs dizaines de milliers de personnes : les robots de Reddit qui miment de manière troublante les codes des forums en ligne avec des résultats souvent cocasses. Les dérives, bien concrètes, de ces nouveaux outils sont d’une autre nature : leur coût énergétique et écologique. Le successeur de GPT-2, GPT-3, officialisé il y a quelque jours a nécessité une infrastructure monstrueuse : des milliers de processeurs GPU mobilisés jour et nuit pour une facture totale de 12 millions de dollars.

GPT-2 repose sur un paradigme radicalement distinct des algorithmes de génération de texte couramment utilisé depuis les années 1950. Au lieu de dépendre d’une série de règles transparentes le modèle est “entraîné” sur un corpus préexistant et s’imprègne de son style et de ses routines.

Ce basculement de l’utilisation de technologies déductives (explicitement programmées) à des technologies inductives (non explicitement programmées, et qui infèrent elles-mêmes les règles nécessaires à partir du jeu de données utilisées pour l’entraînement) est lourd de conséquences sur la production de textes générés par informatique. D’un point de vue littéraire, le texte procède alors avant tout de façon rigide d’une matière artistique, soit de l’ensemble de données utilisées (que l’on qualifiera d’hypotextes, afin de faciliter la lecture)2

L’auteur du modèle détermine en quelque sorte la “couleur” ou le “parfum” du modèle mais ne peut pas prévoir le résultat final — avec des conséquences éthiques bien concrètes puisque rien n’empêche le robot de proférer des attaques racistes ou sexistes. La création d’un écrivain-robot devient principalement de la curation de corpus augmentée de quelques méta-paramètres déterminant, par exemple, l’originalité du texte (sa “température”).

J’ai commencé à générer des textes « à la manière de » en réentraînant une version française de GPT-2 sur plusieurs corpus littéraires et philosophiques (un modèle français créé par William Jacques en octobre 2019 présente l’intérêt d’avoir été déjà entraîné sur un corpus de romans en français du XIXe et du XXe siècle.). J’ai été inspiré par les expériences de mon collègue Julien Schuh qui a commencé il y a quelques mois à créer un robot-balzac à partir du corpus de la Comédie Humaine.

Mes essais ont été réalisé à partir d’un carnet Google Colab en Python que vous pouvez réutiliser par ici. Originellement j’ai opté pour Colab pour une raison purement technique : disposer d’une infrastructure technique suffisamment performante pour créer des modèles de deep learning (avec un GPU). Il s’agit en réalité d’un moyen efficace de démocratiser ces outils expérimentaux. Vous pouvez à votre tour créer de nouveaux modèles à partir de corpus d’écrivains ou de genres en copiant le carnet dans votre espace Google Drive.

Les résultats sont très troublants, même si perfectibles. Pour des raisons de performance je n’ai utilisé que le modèle le plus basique qui donne un résultat nettement moins “cohérent” que les modèles avancés utilisés sur Reddit. Néanmoins, l’identité stylistique de chaque corpus est bien présente et laisse à penser que la génération de texte n’est pas simplement qu’un gadget amusant mais pourrait devenir un outil d’analyse littéraire ou linguistique.

Dans une approche typique des humanités numériques, cet article vise à présenter plusieurs concepts fondamentaux de la génération textuelle par deep learning (l’entraînement, la température, le taux d’apprentissage, les modèles hybrides) dans une perspective d’analyse propre à l’étude littéraire et à l’histoire culturelle.

Un modèle typique ressemble à ceci :

Il faut pas se laisser intimider par la forme : ce n’est qu’une liste de paramètres. Le corpus d’entraînement se trouve dans dataset. Ici en l’occurrence il s’agit d’un corpus de roman de science-fiction français des années 1950-1960. Il est possible de réutiliser un modèle préexistant (ici un modèle entraîné sur la Recherche de Proust). Enfin plusieurs variables déterminent la qualité du modèle (le nombre d’étape et le learning rate ou taux d’apprentissage).

Un recueil de poèmes possibles

J’ai effectué mes premiers tests sur les poèmes de Stéphane de Mallarmé (sur une suggestion d’Alexandre Gefen). C’était effectivement l’un des corpus qui se prête le mieux à la génération de texte littéraire. Sous réserve de lui soumettre des vers GPT-2 restitue parfaitement un semblant de rythmique et de couleur poétique :

En ce jour d’avril inattendu
Je goûte au plaisir du temps suspendu

De naître à quelque lieu de mai
Au cours de la tribu s’enroulant

Sens, son courage n’endort bientôt
La pourpre de l’œil inscrit
Qu’échappe au pli qu’une allée s’y mêle
Surgit après les épaves

Surgi le glaive inscrit
Surgi le repousset assourdi
Tous, vils et frémi
Pour la même allocution

Qui le maintient, ô l’air effarouché
Toutes dans un mouvement
Ne puisse à l’abandon surpriant
S’ensurre de la désuétude

GPT-2 est plus troublant sur des textes profonds et complexes, dans la mesure où ceux-ci requièrent un effort d’interprétation de la part lecteur. Les absurdités de la génération textuelles sont alors interprétées comme autant indices à déchiffrer d’un sens profond qui nous échappe. Les mots occasionnellement inventés par le modèle (qui génère le texte au niveau du caractère) sont tacitement admis comme des termes rares voire des inventions poétiques.

Cette tolérance permet de générer des textes plus inventifs et originaux. Les modèles de génération de texte par apprentissage profond incluent en effet un paramètre d’originalité, la “température”. Plus la température est élevée et plus le modèle sera audacieux ; plus elle est “froide” et plus les résultats seront routiniers. Un poème de Mallarmé “chaud” sera ainsi assez éloigné du français parlé. En témoigne cette fascinante “Métaphore 13” (le titre est aussi du modèle) qui pourrait tout aussi bien être un happening d’avant-garde ou un brouillon inachevé :

Métaphore 13

Omis vain ! voici un soupir—unique souci de pluie brûlaison
Ne remet à rien l’offus
Me glaive du pied
S’exagère en doute
Lys unsuccessfully étrangers(((ici avec une température de 1,2 ; la plupart des essais de génération de texte se font généralement sur une température allant de 0.7 à 1 ; je regrette d’ailleurs que les concepteurs des modèles n’aient pas poussé l’analogie jusqu’à utiliser une échelle de température similaire aux degrés Celsius))

Évidemment, la production du modèle peut se décliner à grande échelle mais tout de même pas à l’infini : avec les moyens dont nous disposons, notre double robotique de Mallarmé a besoin d’une dizaine de secondes pour concevoir son poème. Il est possible de compiler un recueil complet de plus d’une centaine de pièces en quelques minutes (vous pouvez le consulter par ici).

Évidemment il n’est pas question de créer une bibliothèque universelle complète dans ces conditions, mais une petite bibliothèque portative des poèmes imaginaires de Stéphane Mallarmé est entièrement à portée et il serait au moins possible de s’y retrouver avec des œuvres numérotées, dotées de titre et subdivisés en sections ou en volumes plus ou moins inventifs (selon le degré de température adopté).

Vers une littérature uchronique

Dans l’exemple précédent, nous avons fourni au modèle un texte de départ qui n’a pas beaucoup d’importance : les deux vers visent juste à instiller la forme « poème » et à suggérer que tous les textes à venir devraient être des vers à leur tour. Il est cependant possible de faire un usage plus inventif de cette suggestion préalable et provoquer la composition de création hybrides et laisser le modèle élaborer à partir d’une idée initiale. En pratique ce processus fonctionne bien mieux sur les modèles plus avancés développés par GPT-2. Les robots de Reddit parviennent ainsi à créer des posts relativement cohérent à partir d’un simple titre en faisant régulièrement référence à des éléments narratifs clé. Avec nos moyens plus limités et en l’absence d’un modèle parfaitement adapté à la langue française, nous n’aurons pas de telles ambitions. Nos essais de créations hybrides naissent plutôt du “choc” de la rencontre entre un texte manuel, qui ne se conforme pas nécessairement au style d’origine de l’auteur, et un texte automatique.

Après Mallarmé nous avons entraîné un nouveau modèle sur la Recherche de Marcel Proust. Avec le passage du vers à la prose, le texte généré passe plus difficilement inaperçu. Il y a dans le contrat de lecture de la narration romanesque une attente de cohérence qui n’est plus forcément respecté.

Les suggestions préalables permettent de créer des passages « uchroniques » en faisant allusion à des événements dont l’auteur ne pouvait avoir connaissance. C’est ainsi que nous avons pu créer un extrait du “journal de confinement” de Proust :

Fiévreux et confiné je voyais l’épidémie de coronavirus gagner la vie précieuse de cet événement et de celle dont la mer semblait toujours nue.

La frivolité de l’homme de douze ans, bien qu’on soit, l’édification des choses, du corps de soi, de l’aiguillon, la mémoire de la mienne, l’amour, la tendresse, la rêverie, la souffrance, s’est souvent accrochées à un mensonge. Quand je voulus dire que je n’étais pas même un mensonge, il m’arrivait, bien vu, qu’on me faisait dire de l’édifier, de l’éprouver, de l’inviter, de me faire le désir.

D’autres exemples élaboraient plus explicitement sur la notion d’épidémie mais n’étaient pas aussi joliment tournés. La valeur du texte généré est toujours une affaire d’interprétation : nous pourrions imaginer un Proust de 12 ans confiné aux abords d’une mer inhabitée questionnant la réalité du monde qu’il a vécu jusqu’à présent. Ce texte a au moins le mérite de l’originalité : il sonne comme du Proust sans être une simple compilation d’extraits.

L’utilisation du paramètre d’originalité, la “température” rend également possible la génération de textes uchroniques non seulement par leur sujet mais aussi par le langage adopté. Une température élevée rend en effet plus probable l’apparition de néologismes inexpliqués. Nous pouvons ainsi créer un Proust de science-fiction faisant allusion à des objets et des espaces inconnus au détriment de la lisibilité :

Je vivais depuis plusieurs années sur la planète Mars et je me demandais à voir les vals; je me donnais la carte d’argent pour vouloir porter sur moi un poisson de voyage. Aussi je n’en gardai plus ce morceau. De mon état de méfération faisait une saine. Sa maison, au milieu de cela, était un des plus simples éléments d’un grand plaisir mais, le pire des milliers, je montai en voiture et m’habillais avant le dîner; la ville, où la promenade des gambins sur l’intérieur est assez nouveau, me semblait que ma maison était là

Un recueil de vies imaginaires

La génération textuelle ne permet pas seulement de créer des œuvres littéraires. Elle peut produire plus largement des “réalités” alternatives en mimant le registre factuel de productions scientifiques, historiques ou encyclopédiques.

Nous avons ainsi entrepris de générer des vies imaginaires de philosophe antique à partir de la traduction française des biographies collectées par Diogène Laërce au 3e siècle ap. J-C. Ce texte est assez formulaïque : la plupart des vies se découpent en sections récurrentes et attendues (origine de la personne, formation, doxographie, anecdotest, liste des œuvres, liste des homonymes et épigraphes dédiées par Diogène à la personne) et ont été compilées à partir d’un grand nombre de sources. GPT-2 est capable de reconnaître ces standards textuels sous-jacent et de les exploiter pour produire des textes plus structurés et cohérents :

HERCYLLUS.

Hercyllus, fils d’Héphaïstos, de Crotone, selon ce que dit Philodème dans le troisième livre de son ouvrage Sur la royauté ; ce fut un homme très mauvais, apte sur la terrain, peintre à géométrie ou ambassadeur, selon ce que dit Hermippe dans sa Vie de Pythagore. Il y établit cependant l’ordre d’une école en l’honneur de Xanthos d’Edition, auquel Ariston le mathématicien apporta un géométralogie vers la Montée d’Athènes. Elle s’appuie surtout sur un certain Philippe de Mégare que d’autres disciples de Démocrite s’approchaient, selon ce que dit Apollodore dans sa Chronique.

Il y eut aussi trois disciples, d’Alexandre d’Abdère, de Polyzène, d’Assos, un disciple de Démocrite, évoqué par Denys, de Crotone ; de Thèbes et de Gadara, de Milet, d’Alexandre à Philodème et de Cléanthe, évo

À défaut d’être réelle, la vie imaginaire semble solidement référencée, même si les sources sont à leur tour en grande partie imaginaire : s’il y a bien une Chronique d’Apollodore, Philodème (de Gadara ?) n’a pas plus composé un Sur la Royauté qu’Hermippe n’aurait écrit une Vie de Pythagore.

Vers des croisements hybrides

S’il permet d’avoir systématiquement des pastiches, l’entraînement du modèle sur des corpus précis et délimité est cependant aussi limitatif : il n’est pas possible de s’éloigner du registre du texte originel. Un modèle Proust ne produira jamais véritablement de la science-fiction. Les notions de voyage interplanétaire lui sont totalement étrangères et malgré des tests répétés il ne s’approprie jamais les notions de “planètes” ou de “fusée”.

Heureusement, l’apprentissage automatisé n’est pas limité à des styles uniformes : un modèle entraîné sur un certain style peut être ultérieurement sur un autre style et produire produire par ce biais des hybrides plus ou moins monstrueux. Nous avons ainsi remobilisé notre modèle Proust sur un nouveau corpus : des extraits aléatoires d’un grand corpus de 1700 romans de science fiction francophones publiés entre 1950 et 2000 (pour l’essentiel dans la collection Fleuve Noir Anticipation).

Afin de mettre en œuvre une telle hybridation nous avons fait varié un autre paramètre : le “taux d’apprentissage” (learning rate). Avec un taux d’apprentissage élevé le modèle va s’adapter autant que possible au nouveau corpus. Inversement, avec un taux d’apprentissage faible, le modèle devient conservateur : il garde en mémoire le style déjà acquis et ne le modifie qu’à la marge. Concrètement, notre modèle va rester fondamentalement Proustien tout en s’initiant aux motifs littéraires caractéristique de la science fiction française du second XXe siècle — un peu à la manière d’un écrivain classique qui se prêterait le temps d’une parution aux formalismes des écritures de genre.

Notre Proust de SF s’aventure ainsi d’une planète à l’autre depuis la porte de sa chambre :

Longtemps, sur la planète Mars, je me suis couché de bonne heure. À une certaine place, sur mon château, j’étais loin de l’autre planète. Et enfin, dans la nuit, la dixième planète, il fallait passer l’endroit de la planète Mars.
Soudain, une voix plus lue, encore plus haute, m’arrêta.
Le jeune homme n’avait pas évité la vieille dame.
Il devina qu’elle avait mis la planète à la porte de ma chambre.
Il avait passé la planète à l’endroit de la planète Mars.

Le réapprentissage n’est pas seulement une affaire de vocabulaire. Le style de la Recherche laisse place à des phrases plus courtes et plus hachées, tout en préservant un registre de langue assez élevé. Sans surprise les modèles hybrides font moins illusion que les modèles classiques : la collision des styles nuit à la lisibilité et laisse plutôt une impression de poème en prose ou de stream of consciousness.

De nouveau, le sens et la valeur du texte généré viennent des interprétations et des essais de rationalisation qu’ils parviennent à susciter. Dans un autre exemple bien méta, une machine « enflammée » génère un roman entier et attise visiblement la crainte des habitants du lieu :

En un rien de temps, le robot rédigea un long roman qui longeait les yeux de l’impressionniste – une image de la machine enflammée, qui donnait un élan dans ses yeux – et, une fois que l’homme vînt à la place, il se laissa retomber à leur tour le plus précieux : un épais coup de pied en éventuelle. Il s’arrêta.
Ces yeux étaient les nombreux phénomènes des machines, dépouillés de l’inspiration ou de la lumière, qui, comme des chasseurs, éclairaient les yeux. Ils se roulèrent de lui-même dans la voiture. Il avait dans une pièce de la salle. Ses habitants avaient quitté la salle et devinaient la machine.

Il serait tentant de réécrire ces textes pour les intégrer dans une narration plus logique et linéaire. La génération automatique de GPT-2 se prête paradoxalement davantage à la poésie pure qu’à la narration structurée — un peu comme si la machine avait, contre toute attente, plus de cœur que de raison.

Pour l’heure je vois mal un modèle générer un roman crédible dans un futur proche. Si certains textes arrivent à exprimer des idées à peu près cohérentes sur quelques paragraphes, la longue durée d’une fiction de 100 à 200 pages semble hors de portée. Un nouveau usage plus réaliste mais, peu anticipé, pourrait se développer dans les années à venir : le détournement des modèles comme “machines à inspiration” capable de produire des concepts, des expressions et des effets de sens inattendus et intrigants.

  1. Sur cette première vague de création générée, voir l’excellente synthèse de Funkouser parue en 2007 Prehistoric Digital Poetry: An Archaeology of Forms, 1959–1995
  2. Tom Lebrun, Pour une typologies des œuvres littéraires générées par intelligence artificielle

#DHIHA8 Humanités numériques : et si nous avions créé une nouvelle discipline ?

D’après Émilien Ruiz, les humanités numériques se trouvent “à la croisée des chemins”. Cette communauté transdisciplinaire a émergé depuis plus de 10 ans, soit suffisamment de temps pour que les pratiques du futur deviennent celles du présent. Ou pas…

Car si les humanités numériques se sont ancrées institutionnellement, les promesses de renouveau scientifique et pédagogique restent encore à l’état de perspectives plus ou moins lointaines : « à ce stade, il me semble pourtant qu’il est possible de parler d’un demi-échec ». Les enseignements du numérique demeurent périphériques. Il y a eu une inflexion réelle dans les pratiques de recherche, les bases de données et les corpus en ligne devenant de plus en plus des outils “normaux” et attendus, mais avec finalement peu d’incidence sur les méthodes et sur les manières d’aborder et de construire l’objet de recherche. Au plus une révolution de l’indexation scientifique, mais certainement pas une révolution scientifique.

Émilien remarque avec justesse que ce bilan en demi-teinte a eu une incidence sur la définition-même des humanités numériques. La dimension quantitative et “computationnelle” a été progressivement reléguée au second plan, au profit d’une approche communicationnelle mettant l’accent sur l’éditorialisation et la diffusion des résultats. Les humanités numériques apparaissent davantage comme une étape supplémentaire dans le cycle de la recherche, sans altérer en profondeur l’existant.

À ce stade, l’on peut légitimement se demander si l’ambition principale des humanités numériques ne devraient pas être de “disparaître”. Réagissant au constat d’Émilien, Paul Bertrand appelle à la « fin nécessaire et heureuse des humanités numériques », appelées à se dissoudre dans les disciplines existantes. Si l’on se limite au versant communicationnel et éditorial des humanités numériques, cette réaction est amplement justifiée. Créer un site ou un carnet de recherche, alimenter une base de données, formater et visualiser un corpus devraient effectivement faire partie de l’outillage ordinaire des disciplines.

Mes recherches en cours m’amènent de plus en plus à faire le constat inverse : toutes les humanités numériques ne sont pas solubles. Ou plutôt, dans ce mouvement volontairement vague et informe, quelque chose a émergé qui change notre rapport aux objets, au savoir. Quelque chose qui ne représente qu’une partie des humanités numériques mais qui resterait même si toutes les pratiques estampillées DH venaient à se normaliser et à rentrer dans le giron de leurs disciplines d’origine. Quelque chose qui réactualise la dimension quantitative marginalisée mais en faisant autre chose que “l’histoire quantitative”.

Cette approche n’a pas vraiment de nom, ou plutôt, les labels existants ne sont pas satisfaisants : il est tantôt question de « computational literature studies » (sauf que cela ne se limite absolument à la littérature), de « lecture distante » (sauf qu’une part essentiel de la recherche actuelle porte sur des objets qui ne sont pas lus mais vus) ou de cultural analytics (expression qui se traduit terriblement mal en français et, sans doute, dans d’autres langues européennes). On pourrait aussi tenter une définition purement SHS, sans jamais faire allusion à l’informatique et parler, par exemple, de poétique historique des formes culturelles.

À défaut de nom, l’approche se caractérise par une intégration croissante de pratiques, de concepts, d’outils et de méthodes, plus ou moins marquées selon les contextes. Aux États-Unis il existe une revue dédiée qui fédère une petite communauté très active, le Journal of Cultural Analytics. En France les initiatives demeurent encore assez isolées.

De la numérisation à l’identification des régularités…

Le point de départ fondamental, c’est la numérisation de masse. Les bibliothèques numériques contiennent aujourd’hui une part substantielle des productions imprimées voire écrites. Je dispose ainsi d’environ un quart des éditions de romans de 1800 à 1900 (soit la totalité de ceux qui ont été numérisés par Gallica). Dans le cadre du projet Numapresse, nous commençons à réunir une bonne partie de la presse quotidienne nationale.

Les romans numérisés de la période 1815-1850 classés automatiquement par genre.

Si nous sommes encore loin de l’idéal d’une numérisation totale (qui ne relève néanmoins plus de l’utopie à moyen terme), il y a aujourd’hui suffisamment de ressources accessibles pour mettre en évidence des phénomènes culturels réguliers qui débordent totalement des narrations historiques courantes. Il existe des récurrences dans les manières d’écrire, dans les arrangements éditoriaux des textes, dans les figures visuelles (d’où d’ailleurs la notion de “stéréotype”).

Par exemple, à partir du début du XIXe siècle, la presse française introduit un objet éditorial, le feuilleton, sorte de supplément interne au journal, où va notamment se nicher le roman-feuilleton. Ce qui est moins connu et qui a été rendu pleinement visible par la numérisation de collections très variées, c’est que la forme feuilleton va s’exporter dans une bonne partie de l’Europe continentale et sans doute au-delà mais pas dans les pays anglo-saxon.

Ces régularités constituent autant un standard documentaire qu’un fait social : à un certain moment, il va de soi que l’on va composer un texte d’une certaine façon, l’illustrer d’une certaine manière, à partir du moment où l’on souhaite aborder tel thématique et s’adresser à tel public.

À partir du moment où il est question de “régularités” et de “récurrences” il devient envisageable d’utiliser des méthodes quantitatives. On peut compter les feuilletons tout comme on peut compter les titres de romans qui mentionnent un genre précis, par exemple “roman de mœurs”, dans leur titre. Et à partir de ces décomptes l’on peut commencer à observer des tendances temporelles et/ou des répartitions géographiques.

Compter à la main de tels objets est une activité plutôt rébarbative même si elle a été pratiquée dans certains domaines (comme les media studies). La numérisation rend possible de déléguer cette activité à des outils automatisés. Dans certains cas, les calculs sont triviaux : compter des occurrences, agréger des publications, dessiner un graphe de tendance… Rapidement, il devient nécessaire d’utiliser des outils plus complexes.

Historiciser par algorithme

Certaines régularités peuvent en effet apparaître évidentes à un œil humain, a fortiori un peu familier du contexte culturel d’origine du document. Je sais reconnaître le feuilleton d’un journal presque instantanément. Créer une définition du feuilleton ou de la note de bas-de-page qui soit compréhensible pour un outil automatisé est une tâche beaucoup plus ardue — on parle aussi d’opérationnalisation. Cela suppose de réfléchir sur un regard qui semble de prime abord spontané : « qu’est-ce que je vois précisément lorsque je distingue un feuilleton ? ».

Il est possible de fournir des règles précises pour repérer les objets (c’est ce que l’on appelle une approche « rule-based ») ou au contraire de laisser l’outil informatique extrapoler les règles à partir de corpus annotés. La seconde approche a été par exemple retenue pour une tentative d’identification automatisée des notes de bas de page dans des corpus anglo-saxon du XVIIIe — une pratique éditoriale notablement différentes des notes actuelles, caractérisées par l’emploi de signes spécifiques en lieu et place des numéros.

Essai de modélisation de la note de bas de page dans Detecting Footnotes in 32 millions of pages ECCO.

J’ai eu recours à la première approche par règle pour extraire automatiquement les romans-feuilleton du Journal des débats. Le texte journalistique était alors suffisamment standardisé pour se contenter d’une définition relativement triviale (un texte, en bas du journal déparé par une marge importante — la grande barre sombre ne survit pas au processus de numérisation/ocr).

Essai de modélisation du feuilleton à partir des “marges” laissées par l’absence du séparateur dans les données de l’OCR.

J’ai d’ailleurs pu constater que cette approche cesse de fonctionner correctement à partir du début du XXe siècle, signe parmi d’autres que l’économie générale des formes journalistiques était en train de changer profondément. Mes travaux actuels visent à aller plus loin que l’identification d’une seule forme journalistique pour reconstituer l’architecture éditoriale générale de la presse quotidienne au XIXe siècle (et, idéalement, au XXe siècle), en anticipant notamment les articulations régulières en forme et sémantique du texte — par exemple, les signatures sont toujours justifiées à droite et les titres sont toujours centrés.

Essai de modélisation éditoriale de la presse quotidienne à partir de la reconnaissance des colonnes et de la justification du texte.

J’ai beaucoup insisté sur la “modélisation éditoriale” car elle constitue un exemple très parlant visuellement, mais les mêmes principes peuvent être appliquées à d’autres formes culturelles. C’est évidemment le cas depuis déjà quelques temps pour les textes, notamment à la suite des recherches pionnières de Ted Underwood sur l’usage critique et « détourné » des classifications supervisées pour interroger la construction historique de la généricité. Il est de nouveau question de partir d’une définition plus ou moins naïve de certaines catégories textuelles pour repérer les phases de formation d’un genre et l’évolution de sa composition lexicale.

Les probabilités d’attribution d’une classification anachronique des romans politiques permettent d’interroger la formation lexicale du genre (Underwood, The Life Cycle of Genres)

L’interrogation critique des modèles de classification permet de sortir d’une approche d’indexation pure pour soulever des questionnements scientifiques : où ces formes se sont-elles développées ? comment se généralisent-elles et à quels moment ? dans quel contexte éditorial ?

Le développement de la page de cinéma dans le Petit Parisien (classification automatisée de tous les exemplaires parus de 1900 à 1940)

Cette “lecture distante” peut également porter sur des régularités plus élémentaires : figures de styles, tournures, articulation récurrents de concepts. Certaines recherches plus expérimentales utilisent ainsi de nouvelles techniques de linguistique computationelle, les Word Embeddings, pour cartographier des usages poétiques sous-jacents de vastes corpus.

Degré d’anthropomorphisme de certains terme dans la poésie anglaise du XVIIIe siècle (Ryan Heuser). La “Personified Abstraction Zone” renvoie aux figures allégoriques.

Le potentiel de la classification est peut-être encore plus important pour les formes visuelles. Contrairement aux textes les images ne sont pas préalablement indexées dans les bibliothèques patrimoniales. Sauf à disposer d’un paratexte explicite elles restent généralement introuvables, et même dans ces cas-là, il est difficile d’identifier précisément des régularités visuelles, qui ne relèvent pas forcément du sujet figuré mais aussi du mode de figuration. Les nouvelles techniques de classification automatisée rendent tout simplement possible une poétique historique de l’image à grande échelle.

Les illustrations de la page de cinéma du Matin de 1927-1940 (3e panel de l’application). Tous les portraits en médaillon composent un cluster rose en bas à gauche, ce qui rend possible d’historiciser la forme.

Les méthodes informatisées s’intègrent d’autant plus naturellement dans ce projet que les régularités se déploient fréquemment sur une échelle temporelle ample. L’histoire éditoriale de la forme feuilleton commence vers la toute-fin du XVIIIe siècle et s’achève vers les années 1970 et 1980 en France (les occurrences les plus tardives que j’ai pu identifier se trouvent dans des périodiques régionaux des années 1970). Aux États-Unis la plupart des chercheurs en cultural analytics ont empiriquement acquis une expertise chronologique ample — souvent de 1800 voire 1700 à aujourd’hui.

Part des personnages féminins dans 93000 ouvrages de fictions anglais parus de 1800 à 2007 (Ted Underwood, The Gender Balance of Fiction). Ce type de recherche n’est pas contraint par les délimitations chronologiques usuelles.

Où suis-je ?

En bref, depuis quelques années, une bonne partie de mon travail de recherche consiste à “opérationnaliser” des objets éditoriaux et des concepts . Et je serais bien en peine de dire précisément à quelle discipline correspond cette activité. Ce n’est pas de l’histoire, de la littérature, de la sociologie, de l’histoire de l’art, de la linguistique ou de l’informatique mais quelque chose qui croise ces disciplines et un peu plus encore.

L’enjeu fondamental des nouvelles méthodes de lecture distante ou de cultural analytics va au-delà de l’intégration de l’outil numérique dans des pratiques de recherches préexistantes qui ne sont pas appelées à changer en profondeur. Il s’agit bel et bien de proposer une redéfinition des frontières scientifiques, principalement au sein des sciences humaines et sociales, via, notamment, l’articulation paradoxale et constante entre observation minutieuse des réalités poétiques, éditoriales et documentaires et, d’autre part, l’ambition d’historicisation à grande échelle de formes culturelles.

Les transformations les plus marquantes, de mon point-de-vue, concerne les pratiques quotidiennes de la recherche. La programmation implique inévitable une textualisation et une explicitation des regards de recherche et des méthodes de travail. Il ne suffit pas de repérer instantanément que le feuilleton est en bas de page ou que les signatures sont systématiquement alignées à droite, il faut l’exprimer clairement en pourcentage de page ou en pourcentage de colonnes.

L’ampleur des corpus analysé et le recours à la programmation implique également de repenser l’organisation de la journée. Au-delà d’une certaine taille l’automatisation n’est pas instantanée : elle peut prendre plusieurs heures voire plusieurs jours. Je constate ainsi que je suis de plus en plus amené à anticiper les tâches à accomplir pour qu’elles tournent en mon absence (notamment pendant la nuit).

Disons-le clairement ces pratiques de recherche sont encore marginales, même au sein des humanités numériques. Je suis de plus en plus convaincus qu’elles sont appelées à se généraliser. Certes, les outils sont encore mal adaptés, les compétences manquent à l’appel, les corpus plus ou moins disponibles et dans un état plus ou moins hétérogènes, mais il y a un facteur plus important : c’est très tentant. Lorsqu’on s’intéresse aux collections patrimoniales et aux archives au sens large l’on est inévitablement confronté à tout ce savoir latent que je viens de décrire. L’on se familiarise avec les règles éditoriales, les marqueurs lexicaux de la généricité (que nous avons inévitablement assimilés lorsque nous procédons par lecture flottante) ou les stéréotypes visuels que l’on se résigne à cantonner dans un vague arrière-plan culturel sans pouvoir imaginer de décrire systématiquement une telle masse documentaire en dehors de quelques échantillons ponctuels.

Classer l’écrit : explorer les données du Catalogue de la BNF.

En juillet 2017, la Bibliothèque Nationale de France a ouvert les données de son catalogue, créant une opportunité inédite de faire de l’analyse quantitative de longue durée en histoire culturelle.

Une information essentielle est devenue soudainement accessible : la cote, soit l’identifiant où un texte est rangé physiquement dans les lieux de conservations de la BNF. Cette cote est « signifiante ». Les romans ont été rangés en Y2, les textes de droit en F et les études d’anatomie en TA. Concrètement il devient envisageable de décompter les romans publiés chaque année depuis le XVIIe siècle et, à partir de là, de quantifier des transformations sociales de grande ampleur dans le champ littéraire, comme le fait que les romancières ont soudainement « disparu » à partir de la Monarchie de juillet.

Depuis j’ai pu récupérer la totalité du catalogue pendant tout le XIXe siècle, de 1800 à 1900. La base de données documente 3 419 594 « objets » correspondants à 568 550 identifiants du catalogue. Ce différentiel reflète l’existence de séries périodiques dispersées en un grand nombre de publications (jusqu’à 27000 pour l’Almanach de l’Indre) mais aussi, dans une moindre mesure, la conservation de plusieurs exemplaires d’une même œuvre : la première édition des Travailleurs de la Mer de Victor Hugo, elle-même découpée en trois volumes, est ainsi présente à cinq reprises à Tolbiac, et une fois à l’Arsenal, soit dix-huit exemplaires au total.

De plus les “objets” référencés correspondent à des productions éditoriales très différentes : imprimés, manuscrits, illustrés, partitions, etc. Dans le cadre de cette première exploration je me suis volontairement cantonné aux textes imprimés et édités.

Le catalogue permet d’emblée de se faire une idée générale des transformations de l’édition pendant le XIXe siècle. La série de graphes ci-dessous projette les catégories qui ont représenté à un moment donné au moins 3% de la totalité des livres publiés

Quasiment chaque graphe appellerait un commentaire. Dans l’ensemble, à quelques exceptions près (comme les thèses de Médecine), presque tous les champs sont concernés par une massification de l’édition après 1850, particulièrement sensible dans le cas de la presse ou de la production romanesque.

Malaises dans la classification

Le cas de l’Histoire de la France par règnes / régime (LB) est plus intrigant. Cette catégorie se distingue par des pics très soudains correspondants systématiquement aux changements de régimes majeurs en France : la Restauration, la Monarchie de Juillet, très notablement la Révolution de 1848, et finalement la fin du Second Empire. Est-ce que ces révolutions successives entraînent soudainement un intérêt massif pour l’histoire des régimes passés ?

Ce serait une hypothèse intrigante mais en réalité le phénomène est attribuable aux limites de la classification. La catégorie LB contient la plupart des textes qui correspondraient plutôt aujourd’hui à l’actualité politique : pamphlets, programme de tel ou tel courant, réaction “à chaud” de telle ou telle personnalité politique. Ces textes sont particulièrement intéressants et introduisent des concepts toujours fondamentaux aujourd’hui : “socialisme”, “communisme”, “extrême-droite”, etc. Mais ce n’est pas vraiment de l’histoire ou, à la rigueur, une histoire en train de se faire.

Pour avoir une idée des textes vraiment “historiques” il faut se pencher sur la catégorie LA, Histoire de France par époque (pas présente dans la série de graphe plus haut faute d’une production suffisamment importante sur le plan quantitatif). La production semble ici relativement insensible au bruit et à la fureur de la vie politique.

Ce n’est pas la seule étrangeté du Catalogue. Ce projet de classification documentaire a été en effet entrepris il y a plus de 300 ans : la première version a été émise par le bibliothécaire Nicolas Clément à la fin du XVIIe siècle (d’où le nom de Cotation Clément).

L’arbre de la connaissance de la BNF s’apparente à un étrange feuilleté temporel où les choix et les prédilections d’époques, de sociétés et de mentalités radicalement différentes doivent cohabiter dans la même structure. À l’époque de Clément la théologie était considérée non seulement comme une science mais comme la première des sciences. Les premières catégories sont naturellement affectées à ce domaine : “A” pour l’écriture sainte, “B” pour la liturgie, “C” pour les Pères de l’église, etc.

Cet ordre fondamental n’a pas varié. Les altérations les plus significatives sont intervenu au XIXe siècle dans deux domaines circonscrits : l’Histoire et la médecine. Dans les deux cas, des classifications très détaillées sont introduites, qui reflètent de nouveau un certain ordre des savoirs qui n’a plus vraiment cours aujourd’hui.

Par contraste, toute la littérature en prose reste subsumée dans l’unique catégorie “roman” ou Y2, introduite en 1730 comme supplément de la “poésie” . Aucune distinction n’est opérée entre les formes courtes et longues de la fiction. Paradoxalement, alors que les créations romanesques sont aujourd’hui très largement mises en avant par les bibliothèques, elles se trouvent reléguée à l’arrière-plan de l’arbre de la connaissance sous-jacent de la BNF.

L’arbre de la connaissance du Catalogue de la BNF (voir la version détaillée interactive)

Dans la Langue Analytique de John Wilkins, Borges ironisait sur l’arbitraire des catégories documentaires. Une encyclopédie chinoise auraient ainsi distingué les animaux selon les critères suivants : « appartenant à l’empereur, inclus dans la présente classification, qui s’agitent comme des fou, dessinés avec un très fin pinceau de poils de chameau ».

L’exercice relève à peine de la satire. Les données du catalogue permettent aussi de répondre à des questions déroutantes que personne ne s’est jamais posé. Par exemple, nous savons exactement le nombre de livres publiés sur l’hygiène chevaline pendant tout le XIXe siècle :

Malgré un énoncé prometteur, les « Maladies des gens du monde et des gens adonnés aux travaux de l’esprit » ne sont représentés que par un seul ouvrage : un traité du docteur Charles Karsner Mills édité en 1885, Mental over-work and premature disease among public and professionnal men.

Dans certains cas, les catégories procèdent à des rapprochements étonnants, tel que « Véhicules. Éclairage. Montgolfières. », sans doute ici reliés par un effet de modernité attaché à ces étonnantes machines volantes ou éclairantes au cours du XIXe siècle, même si en pratique cette dénomination s’est finalement avérée assez peu commode.

Les « Biographies des prix de vertus » ont eu un peu plus de succès même si elles ont été bien peu numérisées. De cette production pas négligeable (230 “exemplaires” au total), seul les Prix de Vertu fondés par M. de Montyon sont disponibles sur Gallica.

Visualiser l’effet performatif des catégories avec des “bibliothèques virtuelles”

Dans une bibliothèques les catégories s’incarnent matériellement dans l’espace : quoi que l’on puisse penser de la pertinence de ces classements, les romans sont rangés avec les romans et les Biographies des prix de vertus avec les Biographies des prix de vertus. Le dispositif a une portée éminemment performative qui fait encore sentir ses effets aujourd’hui.

Les cotes n’incluent pas seulement le “lieu” générique du rangement mais aussi potentiellement l’emplacement physique du document. La première édition d’Une Ténébreuse Affaire de Balzac (1842) occupe ainsi la cote 8-Y2-28589 (soit l’emplacement n°28589 des romans en format in-octavo), entre « Élisa de Mérival, ou Mémoires d’une jeune femme » de César du Bouchet (1819) et « Le Forçat colonel » de Fortuné de Boisgobey (1871).

Il n’est pas totalement assuré que l’ordre de succession des documents de la cote corresponde encore aujourd’hui à une succession effective dans les rayonnages. La numérisation des catalogues dispense peut-être d’organiser les rayons thématiquement. Néanmoins, cet ordre a été fonctionnel à un moment donné.

Il serait ainsi possible de reconstituer la disposition des documents dans l’espace. La visualisation ci-dessous déploie des rayonnages fictifs, à raison de vingt-cinq documents par étagères et de quatre étagères par bibliothèque pour tous les romans (Y2) entre la cote 43 000 et 43 500. Le document est coloré en vert s’il a été numérisé sur Gallica et en rouge autrement1.

Essai de Bibliothèque virtuelle. Chaque rectangle est un document, chaque ligne orange délimite une étagère “imaginaire” de vingt-cinq documents et chaque bibliothèque se compose de quatre étagères (voir la version interactive — attention le temps de chargement peut être long…)

Cette disposition régulière est purement imaginaire. En raison de la variété des documents, aucune bibliothèque ne peut être si ordonnée. À défaut la visualisation donne une idée de la “pesanteur” matérielle des catégories et des liens de proximité que dessine la bibliothèque entre les documents.

Pour l’instant ma visualisation ne relève que d’une petite expérience de pensée mais, moyennant un peu de développement, elle pourrait être généralisée à l’ensemble du catalogue. Nous pourrions imaginer une bibliothèque numérique d’un nouveau type, une “bibliothèque virtuelle”, qui rendrait de nouveau visible cet ordre sous-jacent qui conditionne encore aujourd’hui nos modes de lecture.

À supposer qu’elle existe réellement sous cette forme, la bibliothèque virtuelle est par définition “cachée” aux yeux du lecteur ordinaire : elle ne s’incarne au mieux que dans les coulisses et les magasins de la bibliothèque. La même approche peut aussi permettre de cartographier des lieux plus accessibles. Les données détaillées du Catalogue précisent également si un document est placé ou non en libre accès dans une des salles des sites de la BNF. À partir de là nous pouvons également tenter de repérer quels sont les salles du site principal qui mettent à disposition le plus de documents du XIXe siècle : sans trop de surprise ceux-ci se trouvent principalement dans le Rez-de-Jardin et, très notablement, dans la salle Histoire (L).


L’inertie des catégories documentaire dans le “numérique”

Les effets de ces dispositifs sont en effet toujours perceptibles dans l’espace a priori “dématérialisé” des bibliothèques numériques. Alors certes, l’ordre de consultation est totalement déliée des classements thématiques et même la structure des données ne les reflètent plus : sur Gallica, l’édition 1842 d’Une Ténébreuse Affaire est cataloguée comme “bpt6k68897j”, un identifiant purement arbitraire qui dispense de s’interroger a priori sur la classification documentaire.

Pour autant, tout n’est pas numérisé et les choix de numérisation semblent dépendre directement des anciens dispositifs de rangement. Toutes les catégories ne sont pas égales : le droit, les biographies, la poésie ou notre catégorie bigarrée d’actualité politique/histoire et, dans une moindre mesure le roman sont bien représentées avec souvent plus de la moitié des textes numérisés par années. Inversement le théâtre, l’histoire constitutionnelle, les sciences philosophiques et morales ou, surtout, les “thèses de médecine” ont été plutôt délaissés La sélection est parfois uniquement “documentaire” : les collections particulières, généralement des legs entiers hétérogènes, sont assez bien numérisées.

Tous ces choix ne sont pas facilement explicables : il s’y mêle sans doute à la fois des questions de prestige et/ou des besoins de recherche plus fortement exprimés dans certains domaines que dans d’autre (de la même manière que l’ontologie du catalogue est considérablement plus précise en Histoire et en Médecine que dans n’importe quel autre domaine). En tout cas, l’existence d’un tel différentiel suggère que les catégories conservent une part d’opérativité et peuvent avoir servi de point de départ pour déterminer des stratégies de numérisation.

Au-delà de l’impact “macroscopique” des grandes entrées thématiques il existe également un effet “microscopique” plus aléatoire. D’après un bibliothécaire dans certains cas la numérisation correspondait à une intention précise (tel que la saisie exhaustive de la production d’un auteur ou d’une collection éditoriale) mais dans d’autres « on prenait juste une étagère ». La projection du catalogue sous forme de bibliothèque virtuelle permettrait peut-être d’identifier ces cas de numérisation collective. Pour l’instant, en explorant les cotes des roman de 40 000 à 50 000 je n’ai rien trouvé d’absolument concluant même si les numérisations parfois à arriver “par grappe” après de longues séquences de documents non numérisés.

Dans les deux cas l’incidence des catégories serait très concrète : elles affectent la recherche textuelle. Parce qu’il y a eu une démarche de numérisation plus exhaustive au sein de cette cotation ou parce qu’une étagère a été prise, un texte sera présent ou absent. En raison de ces conditions de visibilité ou d’invisibilité les requêtes dans les moteurs de recherches peuvent générer des résultats de recherche différents, et affecter potentiellement les interprétations et hypothèses.


  1. À noter que j’ai également “déplié” les publications en volumes ou en série, ce qui peut se traduire parfois par une répétition de la cote

Les femmes ont-elles disparu de la littérature en 1830 ?

Parallèlement au processus général de “féminisation” des professions, il y a des activités où les femmes disparaissent. L’informatique constitue un cas emblématique : alors que de nombreux pionniers étaient des pionnières, le sex-ratio est de plus en plus déséquilibré depuis trente ans. Dans les universités américaines, le part d’étudiantes en computer science serait passée de 35% en 1984 à moins de 20% aujourd’hui.

Ce phénomène de dé-féminisation n’est pas une anomalie isolée. Une excellente rétrospective historique de Béatrice Cherrier montre que les femmes ont de plus en plus été marginalisées dans les sciences économiques entre les années 1930 et les années 1970 (avec un taux de docteures passant de 20% à 4% entre les années 1920 et les années 1950).

Et il y a la littérature…

L’effacement de la femme auteur

Le graphe ci-dessous représente la proportion de publications signées d’une romancières de 1700 à 1900 d’après les données croisées de Data BNF et du catalogue de la BNF (voir la base complète déposée sur Github).

Taux de romancières dans data bnf

Nous retrouvons un schéma comparable à ce qui s’est produit en informatique ou dans les sciences économiques — sauf que tout se passe un siècle plus tôt. La littérature française s’est déjà largement féminisée au début du XIXe siècle, avec une quasi-parité atteinte pendant la décennie 1810. Après 1830, les romancières disparaissent : nous arrivons à des taux résiduels typiques d’activités fortement masculinisées (entre 10-20%).

Ces chiffres corroborent de nombreuses recherches consacrées à l’émergence (puis à l’occultation) de la “femme auteur” au XIXe siècle depuis la parution de l’étude classique de Christine Planté “La Petite sœur de Balzac” en 19891 . Planté montre en particulier que la visibilité croissante des romancières à partir de la Révolution débouche sur une série de procès en délégitimation contre ces “bas-bleus” (p. 10-13).

Dans ce processus d’effacement les instances de légitimation jouent un rôle particulièrement trouble : l’histoire littéraire tend à minimiser systématiquement la part réelle des écrivaines : “plus une histoire littéraire est courte, plus les femmes s’en voient exclues — plus massivement, semble-t-il, que des hommes écrivains mineurs2 .”

Ces interprétations peuvent s’appuyer sur de nombreux indices concordants, mais assez peu de chiffres. Quelques estimations attestent de la féminisation de la littérature à la fin du XVIIIe siècle (par exemple, pour Carla Hess, il y avait 206 écrivaines éditées entre 1754 et 1788, contre 329 de 1789 à 1800). Pour l’instant, il ne semble pas exister de quantifications globales qui attesteraient des phases successives d’émancipation et d’élargissement :

Première difficulté assumée de la présente démarche que l’obtention de chiffres concernant la production littéraire des femmes ou la part de femmes de lettres parmi les gens de lettres au cours du XXe siècle. Je n’ai, jusqu’à ce jour, trouvé aucune étude livrant ce chiffre sur l’ensemble du siècle et tous genres confondus ou même distingués3 .

Notre analyse quantitative porte pour l’instant sur la totalité des XVIIIe et XIXe siècle : nous intègrerons le XXe siècle ultérieurement.

Explorer l’ensemble des romans documentés par la BNF

L’idée de cette exploration de données m’est venue à la suite de la parution d’une étude similaire menée par Ted Underwood sur la littérature anglaise du XIXe siècle. The Gender Balance of fiction part d’un constat similaire à celui des recherches francophones sur la femme auteur : la féminisation n’est pas un processus continu et irréversible. Underwood repère également un temps d’exclusion mais il est beaucoup plus tardif : la fin du XIXe siècle (plutôt que les années 1830).

Proportion des livres de fiction écrits par des femmes (Underwood)

Dans cette optique de “longue durée”, la vague féministe des années 1970 constitue au mieux une restauration après une phase durable de marginalisation :

There is a clear decline from the nineteenth century (when women generally take up 40% or more of the “character space” in fiction) to the 1950s and 60s, when their prominence hovers around a low of 30%. A correction, beginning in the 1970s, almost restores fiction to its nineteenth-century state. (One way of thinking about this: second-wave feminism was a desperately-needed rescue operation.)

Il est techniquement possible de mener une analyse similaire en France depuis… la semaine dernière. BNF vient d’ouvrir (en bêta) un nouveau service expérimental d’accès à son catalogue par API. Or, les cotes dans lesquels sont rangés les exemplaires sont “signifiantes” : il s’agit de la cotation Clément du nom du bibliothécaire du XVIIe siècle.

La première version de cette classification privilégiait les productions intellectuelles au détriment des productions littéraires (reléguées à la seule catégorie Y, “Pœtæ”). Ce biais s’est graduellement corrigé par la suite : en 1730, les bibliothécaires introduisent une cotation spécifique pour les romans, Y2 (pour Y bis) ; au cours du Second Empire, la classification est réorganisée de fond en comble, avec des cotes beaucoup plus précises pour les ouvrages d’histoire.

Avec l’API j’ai pu récupérer la totalité des métadonnées des publications rangées dans la cote Y2 publiés entre 1700 et 1900. Évidemment je suis tributaire des choix effectués par les bibliothécaires au fil des siècles mais la définition élémentaire du genre “roman” (texte long de fiction en prose) est suffisamment pérenne et englobante au cours de la période pour être opératoire.

Pour mes premières explorations de données, je me suis concentré sur la littérature de la Restauration — une période que je connais bien et avec suffisamment peu d’entrées (200 en moyenne par an) pour que je puisse regarder les données en détail. Un phénomène m’a tout de suite intrigué : la part élevé d’autrices. Pour l’année 1816, la parité est parfaitement atteinte (avec 38 vs. 36 publications).

L’élaboration complexe d’un taux de romancière

Les données du catalogue ne disent rien du genre des auteurs mais elles peuvent être reliées à l’entrepôt de métadonnées de la BNF, Data BNF : les identifiants du catalogue (par exemple cb30911497p pour “Caroline ou les inconvénients du mariage”) sont les mêmes que ceux des éditions. Ces fichiers sont en libre accès mais difficilement maniables pour un ordinateur personnel. Pour rattacher les auteurs/autrices à chaque œuvre, il faut effectuer quatre jointures successives entre la base de données des personnes (“databnf_person_authors”), la base de données des contributions (“databnf_contributions” : elle indique quel est le rôle joué par chaque personne dans l’élaboration de la publication), la bases de données des éditions (“databnf_editions”) et, enfin, notre compilation des romans issues du catalogue. Les trois premiers fichiers ayant une taille de plusieurs gigaoctets, j’ai effectué pour un pré-traitement en python afin de les rendre manipulable dans R.

À terme, nous obtenons un tableau listant les 47300 interventions de chaque auteur pour chaque “édition” de 1700 à 1900. Il y a eu un peu de déperdition au passage : un certain nombre de romans (10-20%) n’ont pas de fiches correspondantes dans data bnf. Par ailleurs, comme le sex ratio peut être déformé par la parution de “classiques”, nous avons tenté de ne garder que les auteurs “récents” relativement à la date de parution (soit pas plus tard que cinq ans après leur décès) et limité le champ des “rôles” défini par la BNF à l'”auteur du texte” (code 70).

Cette nouvelle version du graphe montre les agrégations par cinq ans. Il y a beaucoup de “bruit” pendant tout le XVIIIe siècle, en raison d’une production annuelle beaucoup plus limitée. Par contraste, la tendance au XIXe siècle est nette. L’essor est continu depuis la Révolution (13% des “interventions” pendant les années 1790, 33% pendant les années 1800, 46% pendant les années 1810) : tout ceci corrobore parfaitement l’intuition exprimée dès 1811 par Félicité de Genlis sur “le nombre effrayant de femmes auteurs” (De l’influence des femmes sur la littérature française, p. XXIV).

Le déclin est très brutal (31% pendant les années 1820, 12% pendant les années 1830). L’accroissement de l’ensemble de la population des auteurs ne suffit pas à l’expliquer : en chiffre absolu, le nombre de publications avec au moins une autrice régresse (de 251 en 1820 à 171 en 1830) tandis que celui des publications masculines augmentent très fortement. Et l’évolution est trop rapide pour être attribué à un changement de génération : des femmes cessent soudainement d’écrire.

L’effacement des romancières a-t-il une incidence sur l’écriture romanesque ?

Les thèmes dominants des romans de 1816 le suggère. Contrairement aux autres années, où je me suis limité à reprendre les données de data BNF (ce qui peut inclure des oublis ou des duplications) ici j’ai tenté de retrouver systématiquement des versions numérisées ou, à défaut, des résumés détaillés de l’ensemble de la production romanesque. Les points de vue féminin sont bien représentés avec des titres comme “Caroline, ou Les inconvénients du mariage”, “Cécile, ou l’Élève de la pitié” (numérisé sur Internet Archive), “Irma, ou les Malheurs d’une jeune orpheline” (numérisé sur Internet Archive), “Nolbertine, ou les Suites du pélerinage”, “Valsinore, ou Le coeur et l’imagination” (numérisé sur Google Books), “La vierge de l’Indostan” (numérisé sur Gallica)… L’année se caractérise également par une réception française significative des romans de Jane Austen (avec des traductions d’Emma, de Mansfield Park…).

Mon estimation est ici limitée à une seule année mais Ted Underwood est habilement parvenu à étendre cette analyse à deux siècles. Des outils de reconnaissances d’entité nommées encore indisponibles en français (BookNLP) ont permis d’identifier automatiquement les personnages féminins de près de 100 000 romans. Sans surprise, dès lors que la proportion de romancière régresse, les mondes romanesques se “dé-féminisent” : nous retrouvons exactement les mêmes tendances que dans le précédent graphe d’Underwood.

Part des “caractérisations féminines” dans 100 000 fictions en anglais parus entre 1800 et 2007 (Ted Underwood).

Ce type d’approche a le mérite de souligner que le discours romanesque est perméable à la répartition des genre dans le champ littéraire. La disparition de femmes “réelles” marque aussi la disparition de femmes de fiction potentielles — ou une transformation de leur statut et de leurs caractérisation. Cette répartition conditionne également les manières d’instituer la féminité et — et je pense que cet aspect reste encore sous-estimé — la masculinité. Les romancières de années 1800-1830 abordent volontiers les enjeux et les troubles de l’identité masculine, d’où ce titre très parlant dans ma recension de 1816 “Lucien de Murcy, ou le Jeune homme d’aujourd’hui” d’Elisabeth Brossin de Mélé (non numérisé) mais aussi les premières fictions à aborder, à mots couverts, la question de l’homosexualité en société (Olivier de Claire de Duras).

L’industrie culturelle contre les femmes ?

La marginalisation post-1830 est presque trop complète pour être seulement expliquée par une réaction masculine. Je suis assez tenté d’y voir une corrélation avec l’industrialisation de la culture. La production romanesque amorce un premier décollage à partir des années 1840 (sans doute en partie tiré par les succès des romans-feuilletons) et atteint une croissance spectaculaire pendant le Second Empire.

Production romanesque de 1700 à 1900

Cette industrialisation implique un rapprochement des milieux littéraires et des milieux économiques et financiers — milieux d’où les femmes sont de facto exclus. Elles n’ont ni le droit d’ouvrir un compte en banque, ni le droit d’entrer à la Bourse — et bientôt sont de facto exclues des nouvelles structures de la profession organisant la répartition de ces flux. Lors de sa création la Société des gens de lettre comptait une femme (George Sand). Aucune femme ne sera plus admise avant… 1907.

Un champ d’activité quasi-paritaire vers 1815 se trouve ainsi représenté vers 1840 par une institution uniquement masculine. En trente ans, les femmes de lettres ont disparu : en proportion elles ne sont plus grand chose, en représentation elles ne sont plus rien.

  1. Pour un bon aperçu de ces travaux, voir l’introduction de la thèse d’Ève-Marie Lampron, “Entre cohésions et divisions : les relations entre femmes auteures en France et en Italie (1770-1840)
  2. Christine Planté, “La place des femmes dans l’histoire littéraire : annexe, ou point de départ d’une relecture critique ?“, Revue d’histoire littéraire de la France, vol. 103
  3. Audrey Lasserre, “Les femmes au XXe siècle ont-elles une histoire littéraire”, Cahiers du CERACC, p. 41

De Trump à Léophane : d’une débâcle journalistique à une victoire désinformationnelle ?

[Analyse écrite à quatre mains]

Le 1er février, Le Monde lançait en fanfare un outil de vérification de l’information, Decodex. Dix jours plus tard, une adresse IP du journal s’est retrouvée bloquée pendant neuf mois sur Wikipédia pour… avoir introduit de fausses informations sur l’encyclopédie libre. Le journaliste scientifique du Monde, Pierre Barthélémy, a en effet créé (et laissé en place pendant plusieurs semaines) un article presque entièrement faux, consacré à un philosophe grec méconnu, Léophane. Le but de Pierre Barthélémy : faire “une expérience pour un article sur la vérifiabilité des infos sur Internet à l’heure des fake news”.

Quel lien entre la controverse autour de Decodex et les agissements de P. Barthélémy ? Certes ces deux événements ne sont pas directement liées. Mais les deux s’inscrivent dans un contexte particulier : le sentiment d’évoluer dans une « ère post-vérité » où l’exactitude des informations est sans importance et où toutes les sources se valent quelles que soient leurs approches de qualité des informations. Le point de départ de Decodex — aider les lecteurs du Monde à “se repérer face à une vague toujours plus forte de fausses informations” — et la prétendue exploration de P. Barthélémy semblent ainsi complémentaires. Nous ne commenterons pas ici la démarche de Decodex.

Nous avons demandé un droit de réponse au Monde spécifiquement après la publication d’un article par P. Barthélémy où il détaille son approche. Notre positionnement est multiple : scientifiques, éditorialistes et contributeurs à Wikipédia, nous identifions de graves problèmes dans la démarche de P. Barthélémy. Ces manquements sont aussi bien en amont qu’en aval de la publication de son article. La gravité des faits commis par P. Barthélémy et le manque apparent d’évaluation de l’impact de ses agissements s’ajoutent à l’outrage qui est le nôtre et celui de collègues, constaté à travers diverses discussions ces derniers jours.

Quels problèmes cette démarche pose-t-elle ?

On lit dans son article que P. Barthélémy place clairement sa démarche sous des auspices politiques : “L’idée m’est venue à l’automne dernier, lors de la campagne présidentielle américaine, marquée du sceau de la « post-vérité » et des « fake news ».” En décembre 2016, le journaliste crée donc une entrée sur Léophane. Il s’agit d’un obscur philosophe grec ayant véritablement existé. Pourtant, la page sur Léophane contient un mélange d’informations vraies et inventées. Barthélémy imagine que le personnage élabore une “méthode thérapeutique fondée sur les couleurs” et décède de l’épidémie de peste d’Athènes. Il s’appuie par contre sur une des meilleures estimations de sa chronologie (naissance en -470 et décès en 430 av. J-C) et relaie en détail sa contribution la mieux documentée à l’histoire naturelle (la détermination du sexe de l’enfant par la position des testicules).

Même pour un connaisseur, ce mélange faux-vrai est difficile à dénouer. Les sources antiques et les études modernes sur Léophane sont très limitées. De l’aveu d’un spécialiste, Lorenzo Perilli, “il est ignoré dans tous les ouvrages de référence que j’ai pu consulter”. Seule la consultation des sources apportées par Barthélémy aurait permis de “falsifier” ses contributions. Or, elles ne sont pas en libre accès : contributeurs bénévoles, les wikipédiens n’ont généralement pas accès aux revues ou aux publications sous paywall, diffusées à des tarifs prohibitifs.

En outre et de manière à rendre son canular encore plus ressemblant à la vérité, P. Barthélémy introduit des références à Léophane sur des articles Wikipédia mieux exposés (Hippocrate, Théophraste). Ces liens sont censés servir de preuves de la véracité du Léophane tel que narré par P. Barthélémy.

On est ainsi face à la création délibérée de fausses informations et le vandalisme de diverses ressources sur l’encyclopédie en ligne. Si l’on y regarde de plus près, une telle démarche est irrespectueuse quant au travail entièrement bénévole des modérateurs, administrateurs et contributeurs de Wikipédia. Ceux-là ont ainsi raison de se sentir dénigrés et pris pour des “rats de laboratoire”. La démarche de P. Barthélémy est d’autant plus incompréhensible qu’elle émane d’un compte utilisateur “jetable” (Pomlk2) et de plusieurs adresses IP : toutes les éditions sont donc faites anonymement, même s’il est très facile d’identifier à quelle institution appartient l’adresse. Si un tel anonymat peut être évoqué pour mimer une prétendue démarche de “fausseur”, on ne comprend pas pourquoi l’équipe de modération Wikipédia n’est pas informée. Par conséquent, l’une des adresses IP utilisées par P. Barthélémy, appartenant aux adresses du Monde, est bloquée pour neuf mois pour vandalisme. Bel exploit.

Mais si ces éléments sont, somme toute, secondaires, arrêtons nous aux véritables problèmes :

7/ @PasseurSciences : pour un canular réussi (et il en a existé), il faut : un objectif, un objet d’études, une méthode. Rien de tout ça ici

— Alexandre Moatti (@A_Moatti) 13 février 2017

Quel est le lien avec les “fake news” et l’élection américaine ? Quelle méthodologie sous-tendant cette “expérience” ? Et quid de l’éthique ? Souvenez-vous, aussi bien les scientifiques que les journalistes en ont une : alors, on s’attendrait à ce que P. Barthélémy fasse preuve d’un excès de précautions et d’une rigueur exemplaire. Malheureusement, il n’en est rien.

Une “expérience” sans méthode

Puisque P. Barthélémy parle d’“expérience” et tente de se placer dans la position de celui qui crée du savoir précédemment inexistant, sa démarche peut être assimilée à celle d’un chercheur. Regardons-y avec les yeux de chercheur donc. Ce dernier a une approche (appelée hypothético-déductive) ordonnée et cadrée consistant à formuler des hypothèses sur le comportement d’un système et de développer des expériences permettant de valider l’une de ces hypothèses. Une hypothèse n’est pas une idée volatile qui nous passe par la tête et face à laquelle on reste dans un étonnement béat. Une hypothèse provient d’un comportement du système inhabituel. Mais pour savoir ce qui est inhabituel, on doit avoir une excellente connaissance préalable dudit système. Ce n’est qu’en ayant une démarche méthodologique, rigoureuse et qui s’inscrit dans un contexte de recherches que l’on peut véritablement tirer des conclusions sur l’impact de nos trouvailles.

Or, l’approche de P. Barthélémy n’a aucune de ces caractéristiques fondamentales. Elle émane d’une idée dans l’air du temps, en réaction à une conjoncture. Il n’y a ni hypothèse formulée (ou alors P. Barthélémy ne le dit pas clairement), ni connaissance poussée de l’écosystème Wikipédia. Les contributeurs et contributrices de Wikipédia, soit vous, nous, ne sont pas des capricieux qui s’arc-boutent dès que quelqu’un leur dit un mot de travers. Au contraire, il s’agit de personnes de richesses culturelles et de curiosité qui font de leur mieux et bénévolement pour cultiver le jardin qu’est l’encyclopédie libre Wikipédia. Promenez-vous sur les pages de discussions, vous verrez que ces bénévoles sont les premiers à débattre de la fiabilité, des processus pour assurer cette dernière et de pinailler parfois à l’usure pour que chaque phrase soit correcte et sourcée. Ainsi, chaque modification peut être suivie publiquement.

C’est faire fi de cet écosystème ouvert que de s’engager dans le vandalisme que P. Barthélémy a commis. Si P. Barthélémy connaissait un peu mieux la communauté et le fonctionnement de Wikipédia, il y aurait probablement réfléchi à deux fois avant de retweeter les invectives contre Wikipédia d’un ex-contributeur, banni pour plusieurs infractions, et s’exprimant en soutien aux agissements de P. Barthélémy. C’est également mal connaître les indicateurs dudit système, soit les possibilités de pouvoir conclure quoi que ce soit de cette “expérience” :

  1. Il est impossible de connaître la portée de ce canular.

P. Barthélémy indique que « plusieurs dizaines de personnes sont venues lire l’histoire de Léophane ». Il n’invoque aucune source à l’appui de cette estimation. D’après l’outil de Wikipédia traquant les vues,, il y aurait 172 consultations entre la création de l’article le 30 décembre 2016 et la révélation du canular.

Le nombre de lecteurs réels est bien inférieur. Très soucieuse du respect de la vie privée des utilisateurs, la Wikimédia Foundation ne donne aucune estimation du nombre de visiteurs uniques. Chaque contribution sur l’article (24 au total avant la suppression) correspond potentiellement à plusieurs pages vues (une pour la modification, une pour la sauvegarde,…). Le nombre de consultations se trouve ainsi étroitement corrélé au nombre de contributions tel que consigné dans l’historique :

Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)
Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)

Les 172 consultations incluent également des lecteurs non humains. Depuis 2015, le site distingue les robots sous réserve qu’ils se présentent comme tel (en l’indiquant dans leur “carte d’identité”, appelée user agent). Mais rien n’empêche un robot de falsifier son identité. Le nombre de lecteurs réels, qui ne se sont pas limités à survoler la page, est ainsi très faible et Pierre Barthélémy ne sait rien sur eux. Il n’a ainsi aucune donnée sur le profil socio-démographique des visiteurs de la page, sur les manières d’arriver là, ce qu’ils ont retenu de l’article,… Par contraste, les études scientifiques sur la réception des contenus médiatiques ou scientifiques font fréquemment appel à des échantillons contrôlés et parviennent ainsi à analyser précisément les modes de lectures (au-delà du “mince ils se sont trompés”).

Enfin, pour qu’un canular soit efficace, il faut qu’il ait été repris. Quelles métriques, quelles preuves avons-nous que ce soit le cas ? (On vous aide : aucune.)

  1. P. Barthélémy ne dispose d’aucun élément comparatif.

Usuellement on compare un comportement (diffusion de fake) à un autre (diffusion de non-fake). Les études scientifiques de la fiabilité de Wikipédia font ainsi fréquemment appel à des évaluations croisées avec des encyclopédies généralistes (comme Britannica) ou spécialisées et parviennent ainsi à établir relativement la qualité de Wikipédia selon plusieurs critères (part des erreurs factuelles, actualisation, complétude,…)

Dans l’approche de P. Barthélémy, il n’y a rien de tel. Il n’y a rien non plus quant au véhicule de cette diffusion (il parle seulement de Wikipédia et non pas de Wikipédia par rapport à d’autres sources). Toute personne qui a un jour tenté de définir l’impact et la causalité de deux actions connaît la difficulté quasi-insurmontable de la tâche. Ajouter le manque total de métriques prédéfinies pour rendre compte de cet aspect et voilà que cette observation mène (de nouveau) nulle part.

  1. Aucune représentativité de l’observation.

Si l’on admet que son “expérience” serait menée à terme sans être découverte, en quoi un seul cas permet d’extrapoler sur des dérives générales ? Au mieux, on aurait eu affaire à un mauvais article, au pire les conclusions de l’“expérience” seraient une autre forme de fake news en indiquant que toutes les observations se valent quelle que soit leur qualité. Et ne parlons même pas de la dérive potentielle d’une situation où un tel fait unique serait présenté comme résultant d’une démarche scientifique : cela s’appelle un argument d’autorité et son utilisation en sciences n’est pas appréciée.

Les facteurs influençant le comportement d’un système ne peuvent en aucun cas être considérés comme la figure de Dieu dans l’Ancien Testament : ça vous [tue/guérit/informe/rayer la mention inutile] en fonction du degré de foi que vous y attachez. La science et la foi sont deux choses distinctes, en science on ne choisit pas à la carte quelle donnée/quel fait prendre en compte. Mais dans le cadre d’un désert informationnel en matière de science, on ne peut pas combler ce vide d’actes de foi ou de désinformation. Parler de science, c’est parler également de sa technicité inhérente. Oui, c’est parfois chiant. Et oui, c’est également requis.

En conclusion donc, cette “expérience” a montré que n’importe qui, même un journaliste scientifique, peut aller sur un site web à édition ouverte et y introduire de fausses informations. Totalement novateur.

“Science sans conscience n’est que ruine de l’âme”

On pourrait vous sortir plein d’adages plus ou moins pontifiants. Ils pointeraient toujours vers le même problème : la démarche entreprise par P. Barthélémy semble faite sans aucune éthique. Voici les manquement éthiques que nous avons constatés, nous fondant aussi bien sur notre formation scientifique que sur les échanges avec des collègues. Des échanges que P. Barthélémy aurait des difficultés à ignorer, mais qui ont cependant été totalement occultés de son article :

  1. Manipulation à plusieurs niveaux.

Il y a un abus de confiance de la communauté des contributeurs Wikipédia. P. Barthélémy s’est longuement entretenu avec deux des administrateurs de Wikipédia en français et, malgré l’assurance de ses bonnes intentions, les actes en disent autrement. Ainsi, initialement P. Barthélémy parlait d’“une expérience […] sur la vérifiabilité des infos sur Internet à l’heure des fake news” ; lors de son échange avec Jules, admin Wikipédia : “[l]e but (« avoué ») de l’expérience était de mettre en lumière les limites de l’encyclopédie”. Finalement, avec la publication de l’article de P. Barthélémy, on lit un appel de “mise en quarantaine” a priori des contributions.

Cette transformation pose de nombreux problèmes : il s’agit de création avouée et élaborée de fausses informations et de vandalisme de pages pré-existantes mais aussi de non-prise en compte de l’historique de ce genre de débats. Cette mise en quarantaine a déjà fait débat et ce de nombreuses fois… depuis 2007 : sa mise en œuvre sur la Wikipédia Germanophone débouche sur des délais d’attentes considérables (deux semaines pour approuver une contribution) et a probablement contribué au déclin significatif de la participation depuis son activation en 2008. Un sondage proposant la mise en place d’un système similaire sur la Wikipédia francophone avait été très largement rejeté en 2009 (78% d’opposition), notamment sur la base de ces résultats empiriques. Par ailleurs, les réponses au tweet de P. Barthélémy sur la question sont sans exception en opposition.

Quelle était la finalité réelle de cette manipulation entreprise par P. Barthélémy ?

  1. Instrumentalisation et mépris des acteurs.

Non seulement il n’est pas clair quelle finalité P. Barthélémy poursuit, mais ses agissements ont été perçus comme une “déception” par Jules et des admins contactés qui ont le sentiment de participer malgré eux à une tentative de décrédibilisation de l’encyclopédie :

[avant publication de l’article de P. Barthélémy]

“J’ai eu le journaliste au téléphone (une heure et quinze minutes), il a souligné à de (très) nombreuses reprises que son intention n’était pas de dégrader Wikipédia, ni de faire un article racoleur du type : « Comment j’ai piraté Wikipédia » […] Il a précisé qu’il avait déjà lu la littérature sur la fiabilité de Wikipédia, mais qu’il voulait savoir ce qu’il en était en 2017, et lorsque je lui ai fait remarquer qu’il aurait pu chercher un cas réel et préexistant de canular ou de manipulation de l’information, il a eu un temps de silence et a indiqué qu’il n’y avait pas pensé. J’ai également souligné que pour nous, Wikipédiens, c’était dans tous les cas un vandalisme – que l’auteur soit journaliste et fasse une expérience ou bien que ce soit un collégien désœuvré n’y change rien.” — Jules 11 février 2017 à 21:12 (CET)

[après publication de l’article de P. Barthélémy]

“Même si, comme Enrevseluj, j’ai trouvé le journaliste assez ouvert au téléphone, je suis déçu par l’article : même si l’on pouvait s’y attendre, cela n’apporte vraiment rien de nouveau. N’importe quel contributeur est au courant qu’il est possible de créer ce type de canular, et il aurait suffit (sic) à M. Barthélémy d’interroger un Wikipédien pour avoir des exemples réels et préexistants de manipulation (ou de fake news, pour reprendre ce terme en vogue).” — Jules 12 février 2017 à 18:56 (CET)

(source)

Il n’y a qu’à remonter les tweets outragés de nombreux professionnels de la recherche pour se rendre également compte de l’image qu’une revendication de la part de P. Barthélémy donne de la pratique de la science : il suffit d’avoir une idée dans l’air du temps et d’aller vandaliser quelques pages web pour être chercheur donc ? Dans un pays où les chercheurs sont dévalorisés, leurs moyens financiers inexistants et où la médiation et la communication scientifiques sont en voie de disparition, avons-nous vraiment besoin d’une telle démarche de la part du “Passeur de Sciences” du Monde ?

  1. Absence totale de coopération et de débat.

Toute l’expérience est balisée de A à Z et (paradoxalement) P. Barthélémy exclut Wikipédia du débat en refusant, de manière parfois quelque peu condescendante, le débat sur Twitter, cependant demandé par plusieurs personnes. On pourrait par exemple voir un geste d’ouverture si P. Barthélémy proposait de faire le débat sur Wikipédia, soit là où le mal a été fait. Hélas, rien de tel. Ainsi, ce qui est inclus dans l’article est entièrement à la discrétion de P. Barthélémy qui ne permet qu’un débat se déroule ailleurs que sur son blog.

On est très loin de la démarche scientifique où tout élément d’une étude peut et devra être examiné par les pairs. On est dans un univers parallèle où P. Barthélémy pose les questions, les modifie, donne des réponses ou pas, et instrumentalise ce soi-disant débat pour appeler au changement de gouvernance de l’information chez Wikipédia en français. Enfin, se soumettre à cet impérieux caprice de débat sur le blog et seulement là relèverait, comme le souligne également l’historien Alexandre Moatti, “à cautionner la démarche”.

Mais dans ce foutoir de confusions, le risque le plus sérieux n’est même pas évoqué. En effet, on peut craindre une contamination générale de la “connaissance libre” dont Wikipédia n’est qu’une partie. Citons par exemple Wikidata et toute l’architecture du web sémantique, la contribution de laquelle fait d’ailleurs l’objet de problématiques de recherche primées. Le rôle des communautés a changé depuis quelques années et elles s’imposent de plus en plus comme des outils scientifiques de référence : certaines initiatives telles Wikidata s’éloignent ainsi de la vulgarisation pour développer des pratiques et structures beaucoup plus spécialisées.

Juge et partie

Divers aspects de l’article de P. Barthélémy, intitulé “Pourquoi et comment j’ai créé un canular sur Wikipédia”, posent problème en plus de ceux précédemment mentionnés. Le champ sémantique et les mots dont l’auteur se sert pour expliciter ses agissements créent ainsi une manière de penser et voir les acteurs de ce vandalisme sous une lumière quelque peu choquante et à coup sûr inquiétante. Si nous nous y arrêtons, c’est parce que “nommer, c’est faire exister” et parce que nous estimons qu’un journaliste, de surcroît le fondateur de la rubrique Sciences et Environnement au Monde, a une visibilité qui appelle à une grande responsabilité. Avec ce canular élaboré, P. Barthélémy a commis plusieurs impairs ; espérons que ce soient les derniers.

Barthélémy se pose ainsi dès le départ en victime d’un système qu’il respecte :

L’entrée Léophane n’existait pas sur Wikipédia et le personnage pouvait faire un candidat valable selon les critères de la célèbre encyclopédie en ligne. J’ai donc décidé de créer cette entrée en écrivant le peu que l’on connaissait sur ce savant et en inventant le reste. J’ai donc laissé libre cours à ma fantaisie, tout en lui conférant les apparences du plausible, à coups de références.

[…]

L’expérience proprement dite a commencé à la fin de décembre lorsque j’ai publié l’entrée, ce qui s’apparente à du « vandalisme sournois » selon les critères de Wikipédia.

Alors, qu’en est-il ? L’encyclopédie a des règles mais quand on les enfreint, ce n’est pas normal de se faire traiter de vandale ? C’est bien pratique comme positionnement. Cette dualité des propos et du positionnement de P. Barthélémy est caractéristique de toute sa démarche dans ce cas. Il ne se définit jamais comme journaliste, jamais comme scientifique. En se positionnant au-dehors du système qu’il souhaite “tester”, il souhaite également échapper à ses règles. Puisqu’on n’y est pas, on n’a pas de règles à respecter et donc on ne déroge à aucune règle. Logique, non ?

Dans son article en réaction, Autheuil relève bien cette dualité :

“Là où le bât blesse, à mes yeux, c’est que Pierre Barthélémy est à la fois celui qui a conçu et réalisé le test, ainsi que celui qui le relate et le porte à la connaissance du public. Les deux rôles doivent rester strictement séparés. Les journalistes ne doivent jamais construire eux mêmes les faits qui vont servir de base à leur travail d’analyse et de mise en perspective purement journalistique. Je comprend que la tentation soit grande, pour les journalistes, de se saisir de cet important problème des “fake news”. Mais ils doivent y résister, car sans le vouloir, en jouant sur les deux tableaux, ils affaiblissent la crédibilité des journalistes, ce qui renforce ceux qui cherchent à manipuler l’information.”

Barthélémy est journaliste. Qui plus est, journaliste scientifique. On en attend donc une démarche raisonnée et raisonnable et non pas une entreprise de torture des faits jusqu’à ce qu’ils avouent ce que l’on veut. En effet, en enfermant le débat et en occultant toutes les critiques faites depuis que le pot-aux-roses a été découvert, revient à travestir le vandalisme en démarche scientifique. Cela ressemble fort à la gestation d’un alternatif fact et contribue ainsi à créer ce que le journaliste du Monde prétend dénoncer.

Et si l’on transposait cette même démarche ?

“Vous êtes journaliste au Monde. Avez-vous tenté de faire des erreurs volontaires dans un sujet obscur destiné au journal papier ? sur le journal en ligne ? Avez-vous même tenté de faire un faux sur votre blog et voir s’il serait détecté ?

Je doute que ce soit bien vu. Il s’en trouvera pour dire que ça montre les failles d’un journal qui se veut sérieux, ou que vous transformez après coup le contenu erroné en fausse expérience, ou qu’à tout le moins ils ne pourront pas se fier au contenu à l’avenir faute de savoir si c’est une nouvelle expérience. Ne parlons même pas du risque d’un mauvais buzz où les gens n’entendent parler que de l’erreur mais pas de l’explication qui suit.”

L’éthique et les titres que l’on se donne veulent dire quelque chose. Alors plutôt que de répondre avec condescendance à ceux qui critiquent qu’ils ne savent rien du métier de journaliste, P. Barthélémy ferait bien de prendre exemple sur ses propres conseils à l’attention de Wikipédia : reconnaître ses erreurs, ses limites et s’améliorer.

Et maintenant alors ?

Notre motivation de prendre position en long et en large vient du fait que nous ne considérons pas cette manipulation élaborée comme un épiphénomène. Les contradictions et nombreux problèmes de la démarche, évoqués plus haut, découlent directement de la formulation actuelle du débat. Cela a déjà été pointé mais le discours sur les fake news repose sur une vision naïve de la fiabilité (qui se réduit à l’approbation d’informations « vraies » et au rejet d’informations « fausses »).

Une telle vision binaire et le recours à du vandalisme sournois par quelqu’un qui se définit comme “Passeur de Sciences”, c’est oublier également que les termes de « fake news » ou « post-truth » mélangent des pratiques relativement distinctes qui se juxtaposent plus qu’elles ne se confondent : propagande d’États, de groupes idéologiques ou d’entreprises, canulars, erreurs factuelles, etc. La polarisation de la société ne devrait pas être renforcée par de faux semblants et des apprentis sorciers.

Si certains propos peuvent paraître trop forts ou trop acides, alors imaginez quelle est notre consternation face à ce qu’il s’est passé. Pour reprendre les lois de Newton, à chaque force s’oppose une force d’intensité au moins équivalente. Il n’y a donc aucune animosité personnelle à y lire, mais l’expression d’un désarroi profond face à un journaliste à qui nous faisions confiance d’aborder, avec intégrité et intelligence, un sujet presque-oublié en France : la médiation scientifique.

Si l’on voulait, on pourrait suggérer de très nombreux sujets d’exploration autour de Wikipédia, aucun desquels n’implique la création de fausses informations :

  • Quelle participation et quelle qualité des contributions entre Wikipédia en français et en allemand ? Dans le cas allemand, la “quarantaine a priori” est utilisée.
  • Y a-t-il une résurgence des tentatives de vandalisme et de création de faux articles entre 2015 et 2016 ?
  • Wikipédia est-elle plus ou moins sensible que d’autres ressources d’informations aux discours de propagandes ou aux erreurs virales ?

On vous recommande cette vidéo hilarante et très à propos, par le journaliste John Oliver de la chaîne américaine HBO à propos de Trump et ses alternatif facts, élevés au rang de politiques publiques réelles en réponse à des problèmes exagérés ou carrément imaginaires.

Et puisque notre démarche est de co-construire la connaissance en respectant la véracité des informations et le sérieux de la démarche, nous invitons Pierre Barthélémy et toute personne le souhaitant à nous aider à compléter la page recensant les diverses critiques et études scientifiques traitant de Wikipédia, ses processus et ses communautés. Comme vous l’imaginez sans doute, il y a mille et une façons dignes, respectueuses et productives de renverser le cours du flux de fausses informations qui tente de nous submerger. Soyons-en les acteurs et non pas les pourfendeurs.

Les données ouvertes et la recherche : quel état des lieux ?

Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl 🙂 ).

Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.

Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…

Que disent les chercheurs ?

Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.

Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.

La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».

Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.

La majorité des interrogés (n = 1 915) connaissent l'existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.
La majorité des interrogés (n = 1 915) connaissent l’existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.

Parmi les interrogés, une proportion importante a déjà fait des démarches d'ouverture de données.
Parmi les interrogés, une proportion importante a déjà fait des démarches d’ouverture de données.

Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu'une autre équipe de recherche a mises à disposition.
Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu’une autre équipe de recherche a mises à disposition.

Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu "pas du tout important" est pratiquement de 0 %.
Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu “pas du tout important” est pratiquement de 0 %.

Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu'une citation d'article, si ce n'est plus (10 % des interrogés).
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu’une citation d’article, si ce n’est plus (10 % des interrogés).

De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.

Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :

  • Une majorité des chercheurs (y compris des jeunes chercheurs) ont besoin d’accompagnement légal pour naviguer les complexités contractuelles de leurs financements. Ce besoin est exprimé aussi bien par les chercheurs ayant déjà publié des données en open data que par ceux qui ne l’ont jamais fait auparavant.

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le "niveau d'ouverture" desdites données.
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le “niveau d’ouverture” desdites données.

Le paysage des financements est très embrouillés : une majorité ne sait pas qui financera les démarches d'ouverture de données.
Le paysage des financements est très embrouillé : une majorité ne sait pas qui financera les démarches d’ouverture de données.

La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :

  • Le rôle des bibliothécaires a énormément évolué : ceux-ci se retrouvent au croisement des connaissances sur les données, le code et les cadres légaux ;
  • La perception de la publication scientifique a aussi énormément changé : un article n’est plus l’objet unique, statique, composé de texte gravé dans le marbre. Comme on l’a déjà dit par ailleurs sur ce blog, l’article scientifique est devenu la pub pour votre recherche ; ainsi, la routine éditoriale implique aujourd’hui la publication conjointe de l’article, des données produites dans le cadre de l’étude, du code utilisé pour les analyser et, dans certains cas, de fichiers multimédias annexes. La publication scientifique est donc une version de la connaissance du sujet pouvant évoluer.
  • Le volume a une importance (ou, plus prosaïquement, size matters) : si vous vous intéressez un peu au monde des données, vous ne serez pas étonné-e que l’attention (médiatique, financière) se porte le plus souvent sur le big data (les mégadonnées dont la volumétrie dépasse les terabytes). Cependant, les small data restent fermées : seulement 22 % des chercheurs indiquant produire des mégabytes partagent leurs données. Mais c’est aussi là que se cachent la diversité et les informations importantes mais trop souvent négligées, à savoir les résultats négatifs, les figures rejetées de l’article final, etc.

Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :

  1. Les métadonnées : il s’agit de ce que l’on appelle communément des données sur les données (date de création du fichier, son format, etc.). Dans la mesure où une publication devient une version d’enregistrement de la connaissance, une quantité invraisemblable de métadonnées vient avec cet objet : on a aussi bien celles générées par l’utilisateur que celles générées par le traitement automatique. Il y a par ailleurs de nombreux éléments du processus de recherche qui ne figurent pas (encore) au firmament des objets à ouvrir : les protocoles expérimentaux utilisés, les réglages des appareils, etc. La quantité de métadonnées accompagnant la publication de données et résultats scientifiques ne fera donc que croître et on se retrouve rapidement dépassé-e par les volumes à appréhender et gérer.
  2. La « curation » : autrement dit, le fait de choisir ce qui est pertinent pour un sujet donné. Faire de la veille implique de faire ces choix-là et passe par diverses étapes qui enlèvent ce qui est peu pertinent et qualifient les sources retenues pour une exploitation future. Mais si on a des outils plutôt corrects pour suivre les publications de nos pairs, comment gérer l’invraisemblable quantité de métadonnées dont je parlais juste ci-dessus ? Les auteurs soulignent ainsi le besoin de toujours créer des outils pour structurer les métadonnées et les travailler pour faciliter leur curation et (ré)utilisation ultérieures.
  3. La revue par les pairs : j’allais parler de Retraction Watch (même si les auteurs ne le font pas), de la publication de résultats négatifs ou neutres et de diverses autres initiatives telles que Software Carpentry, Run my Code, etc. mais je vais laisser pour une prochaine fois.

« L’économie politique de la recherche »

Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :

Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.

Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :

  1. Les données ouvertes (mouvement open data) sont une plateforme commune où les chercheurs, les institutions de recherche et les bailleurs de fonds peuvent échanger autour des difficultés pratiques de l’ouverture et la réutilisation des données issues de la recherche.
  2. Les données ouvertes contribuent à une discussion plus large autour de la transparence et de la légitimité des financements ainsi que à celle du retour sur investissement, piliers des politiques publiques de la recherche et préoccupations des bailleurs de fonds.
  3. Le mouvement open data s’aligne sur des défis plus globaux tels que les acteurs désormais incontournables de la recherche issus de centres scientifiques hors de la zone euro-américaine.
  4. Les données ouvertes sont un exemple de l’introduction de la recherche scientifique dans des logiques de marché. Assez pragmatiquement, ce point aborde la conception des données comme des objets politiques, sociaux et financiers. « L’idée même des données scientifiques comme artéfacts pouvant être vendus, échangés et réutilisés pour créer de nouvelles formes de valeur est indissolublement liée à la logique de marché où les données sont des objets d’échange ». De même, l’idée de libre circulation de données scientifiques pose des défis quant à la conception de compétition et propriété non seulement au sein de la communauté scientifique, mais aussi dans les interactions de celle-ci avec d’autres acteurs.

Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :

[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.

Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !

❌