Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

🔒
❌ À propos de FreshRSS
Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierSciences communes

ChatGPT : comment ça marche ?

Tout-le-monde en parle : chatGPT révolutionne l’enseignement, la programmation, la propagande, le marketing, la politique… Et pourtant, qui est chatGPT ?

Tout d’abord deux modèles différents, souvent confondus.

GPT c’est Generative Pre-trained Transformer 3, un modèle géant de prédiction de texte entraîné par OpenAI sur 500 milliards de mots. GPT-3 est non seulement capable d’écrire correctement dans plusieurs langues mais c’est aussi un modèle encyclopédique qui intègre un grand nombre de références au monde réel (personnes, événements, connaissances scientifiques) qu’il restitue plus ou moins bien. GPT-3 existe déjà depuis environ deux ans mais n’a jamais été ouvert au grand public. Et cela pour des raisons de coût mais aussi, surtout de risques : GPT-3 n’a pas vraiment d’inhibition et peut générer n’importe quoi tant que le texte est superficiellement cohérent.

ChatGPT est aussi basé sur InstructGPT, un modèle conversationnel “d’apprentissage renforcé par retours humains” (Reinforcement Learning from Human Feedback ou RLHF). Il s’agit d’une version “redressée” de GPT-3 créée à partir de l’annotation de textes générés. Le modèle incorpore toute une série de récompenses (“rewards”) et de pénalités qui jouent plusieurs fonctions : renforcer la cohérence du texte généré, éviter les contre-vérités flagrantes, mais aussi modérer par anticipation de potentielles dérives toxiques. Parmi tout l’univers des réponses linguistiquement correctes que GPT-3 pourrait générer, chatGPT opte pour celles qui sont le plus correctes dans le contexte d’un chat : c’est ce qu’on appelle l’alignement (“AI alignment”). Sur la base de ce même principe, chatGPT refuse aussi parfois carrément de répondre.

Schéma du "modèle conversationnel" (RHLF) de chatGPT

L’articulation des deux modèles n’est pas très claire. Ils semblent avoir été déjà fusionnés dans la nouvelle version de GPT-3 utilisé par chatGPT, GPT 3.5 (aussi appelé text-davinci-003). Mais chatGPT utilise en plus un (ou plusieurs ?) modèles conversationnels plus légers en amont et en aval. S’y ajoute enfin des filtres de modération indépendants qui empêchent par exemple de poser des questions inconvenantes.

Néanmoins la distinction entre modèle textuel et modèle conversationnel est fondamentale pour comprendre comment fonctionne chatGPT :

  • Le modèle linguistique n’est pas actualisé et ne se nourrit pas des suggestions des utilisateurs. L’entraînement des modèles GPT est très coûteux et ne sera renouvelé qu’une fois par an environ (donc pour maintenant, on attend GPT-4). C’est la raison pour laquelle chatGPT ne ferait pas de références au monde actuel après 20211
  • Le modèle conversationnel continue de s’affiner en fonction du retour des utilisateurs : toutes les 3-4 semaines en moyenne, OpenAI améliore l’alignement du modèle avec les intentions des utilisateurs ou de la plateforme. Si le modèle textuel ne change pas, le modèle conversationnel opte pour des générations de meilleures qualités et, inversement, pénalise davantage les générations malvenues. La dernière version en date du 30 janvier, améliore ainsi la “factualité” de chatGPT ou, plus prosaïquement, pénalise davantage les “hallucinations” (c’est le terme consacré pour désigner les générations purement imaginaires). Le modèle conversationnel semble aussi disposer de sa propre “mémoire” ce qui lui permet de tenir des conversations plus longues que le modèle linguistique.

Au-delà des deux modèles, chatGPT est un amoncellement de strates, de morceaux de codes et de concepts qui marque l’aboutissement de 70 ans de recherches en linguistique, en informatique. Au fond, le meilleur moyen de comprendre chatGPT c’est encore d’en retracer l’histoire. Essayons de dénouer un peu tout ça.

1. Le principe fondateur : la statistique sémantique

En janvier 1954, l’ordinateur IBM de l’université Georgetown tourne à plein régime. Chercheurs, journalistes et responsables politiques assistent à la première démonstration publique d’un traducteur automatique : en quelques instants, le programme parvient à traduire parfaite quelques phrases de russe en anglais. En réalité, la démonstration est truquée. Le programme ne connaît qu’un vocabulaire réduit de 250 mots en russe et en anglais et, surtout, seulement quelques règles de grammaire. Les phrases ont été commodément choisies en amont pour être correctement restituées.

L’une des fiches créés pour l’expérience de traduction automatique de Georgetown en 1954. La phrase en russe représente l’input initial.

Malgré ce truc, l’expérience suscite de grandes espérances. Les premiers ordinateurs sont tout auréolés du déchiffrement d’Enigma. Et si au fond, les langues n’étaient que des codes comme les autres ? L’allemand ou le russe n’est-il que de l’anglais crypté ?

Les spécialistes de l’informatique sont sceptiques. En 1947 le mathématicien Warren Weaver écrit au père fondateur de la cybernétique, Norbert Wiener. Il envisage de créer un programme de traduction automatique universel pour assurer la “paix dans le monde” (éventuellement avec le soutien financier l’UNESCO). Cet échanges est publié en 1949 par Weaver dans un court “Mémorandum“. Malgré sa nature un peu décousue, ce texte pose les bases d’une théorie fondamentale qui est directement à l’origine de chatGPT : la statistique sémantique.

Norbert Wiener constate que les solutions “naïves” de traduction par ordinateur ne sont pas généralisables. Les mots ont trop de sens différents : “Je redoute franchement que les frontières entre les mots de différentes langues sont trop vagues et les connotations émotionnelles sont trop étendues pour réaliser un quelconque projet de “mécanisation” de la langue”. Weaver émet alors l’hypothèse que l’ordinateur ne devrait pas seulement traiter les mots d’une manière isolées. Il faudrait tenir compte du contexte ou même déjà du “micro-contexte”, celui des voisins immédiats du mot dans la phrase :

Si nous lisons un mot dans un livre en isolation à travers un masque opaque (…) il est impossible de déterminer sa signification (…) Si maintenant, nous élargissons le masque opaque, de telle manière que nous ne voyons pas seulement le mot, mais aussi un nombre N de mots de chaque côté, si N est suffisamment large, nous pouvons sans ambiguïté trouver la signification du mot

Warren Weaver, “Mémorandum“, p. 8

Ce N correspond à ce qu’on appellerait aujourd’hui une “fenêtre contextuelle” (context window). Au début des années 2010, les premiers modèles courants de texte par réseaux de neurone utilisaient une fenêtre contextuelle d’une dizaine de mots. Dans GPT 3.5 cette fenêtre a été élargie à environ 3000 mots (ou 4000 “tokens”).

La fenêtre contextuelle repose sur l’hypothèse d’une statistique sémantique ou sémantique distributionnelle : le sens procède de la position relative des mots les uns avec les autres. Nous en faisons tous l’expérience en lisant dans une langue étrangère ou un texte un peu ancien. Souvent, il n’est pas nécessaire de consulter un dictionnaire pour saisir une définition approximative d’un mot ou d’un usage inusité. Il y a suffisamment d’indices dans le texte lui-même pour comprendre qu’il s’agit par exemple d’un lieu, d’un instrument ou d’une action.

2. Un espace de significations : les “embeddings”.

En 1949, la sémantique distributionnelle n’est pas une hypothèse totalement originale. On l’a trouve sous d’autres noms ou d’autres approches chez la plupart des grands théoriciens linguistiques de la période, dont Roman Jakobson. Seulement pour Weaver ce n’est pas une observation générale du comportement linguistique, mais un problème à résoudre computationnellement.

Weaver, comme tous les chercheurs qui se pencheront sur le sujet jusqu’aux années 2010, est immédiatement confronté à un écueil majeur : même en se limitant au vocabulaire le plus basique (par exemple quelques milliers de mots), il existe des milliards et des milliards de combinaisons possibles. Indépendamment des limitations techniques des ordinateurs de 1949, recenser toutes ces possibilités est un travail absolument inconcevable.

À partir des années 1980, plusieurs projet de recherche théorique et appliquée ont tenté de simplifier ces réseaux de co-occurrences massifs à partir de l’analyse matricielle. Les corpus sont transformés en tableaux géants associant un mot à un document (ou un mot à un mot). Puis plusieurs algorithmes peuvent être utilisés pour simplifier ce corpus en réduisent l’ensemble des occurrences possibles à un nombre prédéfini de dimensions (c’est la “décomposition matricielle”). La compression d’image est un assez bon analogue pour comprendre ce processus. Une image publiée un format “jpeg” est beaucoup moins volumineuse, simplement parce qu’elle ne conserve pas les pixels d’origine mais une série de paramètres et de poids permettant de recomposer l’image (c’est le coding de Huffman).

Cette approche est qualifiée d’analyse sémantique latente (ou indexation sémantique latente pour son versant plus appliqué). Elle est dite “latente” en raison de sa capacité à rapprocher des termes utilisés similairement même lorsqu’ils n’apparaissent jamais ensemble dans le même texte. C’est typiquement le cas des synonymes : “maison” et “habitation” vont rarement figurer dans la même phrase mais ont les mêmes voisins et, si elle est concluante, l’analyse sémantique latente devrait rapprocher les deux termes.

Aujourd’hui ces dimensions simplifiées sont qualifiés d'”embeddings” ou plongement de mots. Pour simplifier, on peut considérer les embeddings comme des coordonnées dans un espace sémantique partagé : plus les mots sont “proches” dans cet espace et plus il vont avoir le même sens et le même principe peut s’appliquer aussi aux documents. Dans ce cadre, l’analyse du texte devient aussi une analyse spatiale : la similarité se mesure avec des rapports géométriques (en particulier, la similarité “cosine”). Ce tournant spatial affecte l’ensemble des corpus traités par l’intelligence artificielle. Texte, image, son, vidéo : tout est un embedding aujourd’hui. La génération d’une image par du texte est fondamentalement une opération de conversion des embeddings du texte en embeddings visuels.

ChatGPT procède encore de cette manière. Chaque “mot” généré est le résultat d’une exploration spatiale qui tient à la fois compte des voisins immédiats du mot (qui vont notamment déterminer sa syntaxe), du sens général de la conversation (la fenêtre contextuelle de 3000 mots) et de tout le vaste imaginaire des mots possibles dans cette langue.

Projection d’analyse sémantique en deux dimensions dans “Indexing by Latent Semantic Analysis” (1990, p. 397)

L’analyse sémantique latente est cependant toujours contrainte par la taille du corpus. S’il est possible de construire un tableau de cooccurrence pour un ensemble de quelques milliers de textes, cela devient rapidement impraticable à grande échelle. Pour l’ensemble de Wikipédia anglais (qui jusqu’à récemment était le corpus de référence pour l’IA appliquée au texte), cela représenterait un tableau extrêmement clairsemé de 5 millions de documents d’un côté et de plusieurs centaines de milliers de mots de l’autre (même si on se limite uniquement aux termes un peu fréquents), soit environ 500 milliards de données. Même aujourd’hui seul un superordinateur serait capable de traiter un corpus de taille…

3. Le modèle : un réseau de neurone

Dans son Mémorandum visionnaire publié en 1949, Warren Weaver mentionne incidemment la meilleure solution technique pour encoder les milliards de relations contextuelles d’un mot vers un autre : un réseau de neurone. Malgré son ascension fulgurante ces dernières années, le réseau de neurone est aussi une technologie ancienne, théorisée par McCulloch et Pitts dès 1943. Weaver s’intéresse alors particulièrement à leurs capacité d’actualisations : les réseaux de neurones peuvent réévaluer les données initiales à la lumière de nouvelles observations grâce à une boucle de rétroaction (feedback loop). Sur cette base, il pourrait être possible de traduire des textes dotés d’une forte logique interne — ce qui exclut, pour Weaver, la traduction littéraire.

Les réseaux de neurones de 1943 (McCulloch & Pitts, p. 105)— déjà envisagés par Warren Weaver et Norbert Wiener pour solutionner leurs problèmes de traduction automatique.

Weaver ne soupçonne pas que les réseaux de neurones sont des algorithmes de “compression” extrêmement efficaces. Ils parviennent aujourd’hui à réduire des milliards de milliards de relations possibles en un nombre limité de paramètres et de poids. Le modèle de génération d’image Stable Diffusion est un exemple parfait : un corpus initial de 170 millions d’image est transformé en un modèle de seulement 2 gigaoctets, soit une dizaine d’octets par image. Évidemment, les réseaux de neurones ne peuvent pas recréer les productions originales en dehors de quelques cas particuliers, mais ils conservent une mémoire des représentations abstraites et des styles, ce qui permet ensuite de générer un nombre indéfini d’images nouvelles.

Du fonctionnement théorique à l’application pratique il y a un pas énorme. Les réseaux de neurones sont très coûteux en opérations computationnelles, en grande partie à cause de leur capacité d’actualisation. La recherche dans ce domaine reste quasiment “congelée” jusqu’aux années 1990, quand les infrastructures techniques deviennent suffisamment performante pour tester empiriquement des architectures jusqu’ici essentiellement théoriques.

En 2013, une équipe de chercheurs de Google sous la direction de Tomas Mikolov publie une méthode révolutionnaire qui va se répandre comme une traînée de poudre : word2vec. word2vec s’appuie sur un réseau de neurone simple à une seule couche (c’est du shallow learning par opposition au deep learning plus communément utilisé aujourd’hui). Concrètement il n’est pas nécessaire de stocker en amont un tableau gigantesque de cooccurrence. word2vec définit les coordonnées sémantiques des mots au fil de l’eau, en “lisant” le corpus au fur et en prenant 10-15 termes à la fois (c’est la taille de sa “fenêtre contextuelle”). Dans l’un de ses exemples de démonstration, word2vec utilisait ainsi un corpus de 100 millions de mots extrait de Wikipédia. L’entraînement de ce corpus peut être fait sur un simple ordinateur personnel.

Cette innovation technique entraîne toute une série d’innovations conceptuelles. Mikolov s’est formé en République Tchèque et s’inscrit dans la tradition de l’analyse linguistique structurelle de Roman Jakobson. Il perçoit immédiatement tout le potentiel de la statistique sémantique appliquée à de très larges corpus. Il est possible non seulement de recouvrer des synonymes mais aussi d’identifier des relations de genre (du féminin au masculin), d’abstraction, de fonction ou de situation géographique, simplement en se baladant dans l’espace sémantique créé par word2vec. L’un des exemples cité dans l’article originel de Mikolov porte ainsi l’identification des capitales sur la base du nom du pays :

Identification des capitales à partir du nom d’un pays. La relation pays => capitale, correspond à une distance précise dans l’espace sémantique des “word embeddings”.

word2vec ne fait qu’appliquer les principes élémentaires de la statistique sémantique. En 2014, les linguistes Omer Lévy et Yoav Goldberg constatent que le réseau de neurone “léger” n’est qu’un outil d’optimisation. Toute les opérations effectuées à partir des embeddings pourraient être réalisées avec des tableaux géants de cooccurrences (ce que fait d’ailleurs un autre programme créé par Stanford, Glove).

Le recours au réseau de neurone représente néanmoins une simplification massive. Rapidement, il apparaît que les word embeddings peuvent être transférés entre les langues. Le réseau des relations sémantiques n’est pas notablement différent entre les langues d’une même famille linguistique et il suffit d’un petit nombre d’alignements prédéfinis (par exemple sur la base d’un dictionnaire) pour les recouvrer. À partir de 2015, une version améliorée de word2vec, fasttext, publie des embeddings dans près de trois cents langues, dont 44 langues “alignées”.

Ce principe de transfert linguistique est fondamental pour chatGPT. La génération de texte en français se nourrit non seulement des corpus francophones mais aussi du transfert de l’espace sémantique e toutes les autres langues, ce qui permet de faire allusion à un grand nombre de faits et d’informations qui ne seraient pas forcément présents dans le corpus initial.

4. Lire le texte attentivement : les “transformers”

Word2vec a immédiatement trouvé son utilité en analyse de corpus — mais beaucoup moins pour la génération de texte. Ce n’est pas très surprenant. Dans sa phase d’apprentissage, word2vec traite tous les mots de sa fenêtre contextuelle en vrac (c’est qu’on appelle un sac de mot ou “bag of words”) : l’ordre n’a aucune importance. Par conséquent, si le modèle fonctionne très bien pour recouvrer le sens d’un mot en particulier, il n’est pas vraiment censé compléter ou générer une phrase, faute d’une compréhension générale de la syntaxe.

D’autres réseaux de neurones se prêtaient mieux à la génération de texte. Les réseaux “séquentiels” (comme les LSTM) conservent une mémoire agrégée de tous les mots immédiatement antérieurs. Seulement, plus la phrase antérieure (ou la fenêtre contextuelle) est longue et plus cette mémoire va se dégrader : c’est le problème de la disparition du gradient. Ces réseaux de neurones ressemblent un peu à une personne peu attentive qui attrape au passage des bribes d’une conversation. Tant que la discussion n’est pas très complexe, il est possible de la reconstituer approximativement. Au-delà d’un certain seuil de complexité, on ne comprend plus rien.

Les modèles “transformers” apparaissent en 2017 sur la base d’un principe relativement simple : “tout ce dont vous avez besoin, c’est de l’attention” (“All you need is attention“). Au lieu de se limiter à une lecture flottante de ce précède et d’en retirer une vague notion générale du sujet du texte, les modèles transformers modélisent les interactions entre les mots précédents. Ils ont une compréhension intuitive de la syntaxe et de la composition de la phrase qui fait défaut dans tous les modèles qui l’ont précédé. Évidemment, cette modélisation est complexe : les réseaux de neurones légers utilisés par word2vec laissent place à de l’apprentissage profond (“deep learning”).

Visualisation du mécanisme d’attention des transformers dans BertViz : chaque mot est pris dans un réseau de relation avec d’autres mots.

Ce mécanisme d’attention change complètement les règles de l’interaction avec l’IA ainsi que sa géographie sémantique sous-jacente. Le modèle est naturellement conçu pour réagir à un texte pré-existant ou le compléter — ce que l’on appelle un prompt. Au lieu de créer un jeu de coordonnées sémantique (ou “embedding”) pour chaque mot, il y a maintenant des coordonnées pour chaque occurrence précise du mot. Par conséquent, il devient possible d’étudier précisément l’emploi de certaines formules syntaxiques, ce qui aurait été impossible avec word2vec. En 2020, Lauren Fonteyn a pu analyser l’évolution de l’usage de l’expression anglaise “to be about” en projetant un grand nombre de verbatims dans le même espace sémantique.

Les différentes acceptions de “to be about” en anglais : les clusters identifiés par BERT correspondent presque parfaitement à l’interprétation linguistique (Fonteyn, 2020)

5. Toute la culture dans un espace : les grands modèles linguistiques

En raison de leur sophistication, les modèles transformers ne peuvent pas être créés avec un équipement informatique classique. À partir de 2018, Google commence à mettre à disposition toute une série de modèles “pré-entraînés” sous le nom de BERT (du nom du protagoniste de la série de marionnettes des années 1990 Sesame Street).

BERT ouvre une nouvelle ère : celle des “grands modèles de langue” (Large Language Model). Les premières versions, Bert Base et Bert Large reposent sur un large corpus : une bonne partie de Wikipédia (2,5 milliards de mots) et une collection composite de livres appelé Books2 (800 millions de mots). L’espace sémantique ainsi modélisé est documenté par 110 millions de paramètres (pour Bert Base) et 340 millions de paramètres (pour Bert Large). La phase d’entraînement représente un coût matériel d’environ 7000$ (correspondant aux coûts d’acquisition et d’usure des infrastructures en GPU).

Ces investissements étaient inédits en 2018. Ils vont être très rapidement dépassés : la création de BERT ouvre une compétition massive. Corpus, paramètres, architecture : tout grossit à vitesse grand v. Si toutes les grandes plateformes occupent le terrain (Google, Facebook et Microsoft), c’est finalement un nouveau venu qui emporte la mise : OpenAI. Cette petite structure non-commerciale accomplit un grand saut dans l’inconnu en 2019 : son propre modèle transformer, GPT2 est entraîné sur un corpus immense, WebText. Il s’agit d’une sélection de l’archive du web Common Crawl : n’ont été retenus que les liens partagés (et likés) sur Reddit. Le coût réel de GPT-2 est inconnu mais dépasse probablement le million de dollars.

Par rapport à l’ensemble des modèles transformers, GPT-2 n’est pas très original. Seulement, le passage à l’échelle change tout. Non seulement, GPT-2 écrit des textes beaucoup plus crédibles, mais il s’agit aussi d’un modèle encyclopédique. Il contient un large répertoire de “faits” scientifiques ou historiques dans lequel il puise avec plus ou moins d’adresse. GPT-2 n’a pas seulement créé un espace sémantique mais aussi un vaste espace culturel latent.

À la différence des modèles exclusivement linguistiques qui l’ont précédé GPT-2 peut prétendre formuler des “faits” ou des informations. Sa mémoire encyclopédique, principalement basée sur Wikipédia et quelques autres sources académiques, contient un grand nombre de référence au monde réel. Seulement, il n’y a pas de garantie qu’elles soient parfaitement restitué.

L’épistémologie de GPT est probabiliste : plus un énoncé est présent dans le corpus d’entraînement et plus il a de chance d’être correctement restitué. C’est ainsi que chatGPT affirmera généralement que Napoléon a perdu à Waterloo tant cette information a pu être ressassée dans le corpus d’origine. Seulement dès qu’un énoncé est rarement présent où dès que le prompt d’origine prend une direction imprévue, le modèle peut facilement se perdre dans une série d’hallucinations.

Un exemple de l’épistémologie probabiliste de chatGPT : sur une question standard de culture générale, la réponse est presque toujours exacte. Sur un sujet de niche que je maîtrise relativement bien (l’histoire de la presse au 19e siècle), chatGPT brode des faits vraisemblables à première vue mais qui n’ont jamais existé.

GPT-3 marque encore un nouvel élargissement des capacités encyclopédiques de GPT-2. Le nombre de paramètre du modèle est multiplié par 100 et passe de 1,5 milliards à 175 milliards. Cela n’a pas vraiment d’incidence sur l’intelligence du modèle contrairement à ce qu’on peut lire un peu partout, mais sur sa mémoire collective : il parvient à faire des allusions ou des références à des informations “rares” mentionnées uniquement quelques fois dans le vaste de corpus de près de 500 milliards de mots.

6. L’inconscient des bots : l’IA en quête d’alignement.

De GPT-3 à chatGPT, l’évolution est d’un autre ordre : vers le déploiement d’un modèle conversationnel capable de contrôler et “aligner” les générations du modèle linguistique et encyclopédique.

C’est une préoccupation ancienne. Déjà en 1960, Norbert Wiener s’inquiétait du futur de la coopération entre humains et agents intelligents : si nous en venons à déléguer des tâches critiques à des “agents mécaniques”, nous devons “nous assurer que les objectifs de la machine sont bien les nôtres et pas juste une représentation attrayante (colourful imitation) de nos intentions”3. Pour reprendre la terminologie de Wiener, tous les textes générés par GPT-3 sont des “représentations attrayantes”. Le modèle flotte librement dans l’espace des significations sémantiques, sans aucune boussole morale.

Si l’ouverture de chatGPT a été un tel choc, c’est aussi parce que le grand public a été soigneusement mis à l’écart du long processus de perfectionnement des générateurs de texte. Plusieurs accidents industriels ont convaincu les grandes plateformes de limiter l’accès autant que possible à des usages professionnels ou scientifiques. En mars 2016, “Tay“, un chatbot de Microsoft s’est rapidement mis à produire des messages racistes et sexistes après quelques heures d’activité sur Twitter. Twitch vient tout juste de suspendre une émission entièrement générée dans le style de Seinfeld, “Nothing Forever” suite à la génération accidentelle d’un texte potentiellement transphobe (l’interprétation est discutée…). De fait, l’agent conversationnel de référence des années 2010 n’est pas Tay ou une version dérivée de Bert : c’est Siri, le robot d’Apple étroitement contrôlé par un système de règles rigides et qui pourrait avoir été déjà développé dans les années 1960.

Depuis 2019, un nouveau champ de recherche a rapidement émergé sur le “renforcement humain” de l’apprentissage automatisé (Reinforcement Learning from Human Feedback). Par opposition aux problèmes éthiques finalement assez théoriques soulevés par Wiener, la question devient très pratique. Les grands modèles de langue génèrent du texte crédible mais qui n’est pas forcément vrai, fiable ou éthique.

Évidemment aucun générateur de texte n’est parvenu à surmonter ces difficultés. Seulement, en raison de la qualité du texte et de sa capacité de conviction, le risque de dérives est considérablement plus élevé. Produire un texte de qualité représente un certain coût. J’en ai vraiment pris conscience en contribuant activement à Wikipédia : environ 80-90% des canulars et des vandalismes se détectent en quelques secondes, simplement à partir de la forme du texte, qui n’adhère pas au norme implicite de la rédaction encyclopédique. Avec GPT-3, créer un faux article convaincant de Wikipédia prend aussi quelques secondes.

De plus les modèles de langue sont particulièrement bon pour identifier des représentations sociales latentes, pas forcément explicitement avouées. Déjà en 2016, une étude montraient que les word embeddings recréaient spontanément des représentations sexistes (un programmeur est exclusivement masculin), simplement parce que l’espace sémantique simplifie et radicalise des conceptions sociales communément partagées.

Nous l’avons déjà évoqué au début de l’article : le renforcement humain repose sur une classification a posteriori de générations de texte. Heureusement, il n’est pas nécessaire de classer des centaines de millions de textes pour obtenir des résultats valables. Certains comportements “désirables” du modèle sont déjà présents à l’état latent, aussi parce que le corpus d’entraînement a été sélectionné sur cette base. Dans Common crawl la grande majorité des textes sont de nature encyclopédique ou scientifique et on trouvera peu de contenus ouvertement conspirationnistes. D’après une synthèse de HuggingFace obtient des résultats relativement probants à partir de 50 000 exemples annotés.

Cela représente quand même beaucoup de travail. Mon hypothèse personnelle est que chatGPT a été conçu comme un moyen très efficace de collecter du “digital labor”. Le modèle conversationnel a été d’abord “entraîné” par des annotateurs de pays en voie de développement, en particulier au Kenya. Aujourd’hui environ dix millions d’utilisateurs uniques génèrent des dizaines de millions de textes par jours et envoient peut-être des dizaines de milliers de signalements. Ce n’est évidemment pas gratuit. Pour faire tourner chatGPT à cette échelle, OpenAI dépense probablement des millions d’euros par mois. Seulement, au-delà de la publicité énorme, OpenAI a réussi à collecter un corpus considérable d’annotations qui sera sans doute difficile à répliquer : quand les chatbots de ses concurrents (Google, Baidu, etc.) seront disponibles gratuitement, l’effet de nouveauté se sera un peu émoussé…

7. Reprise et coda

Dès lors récapitulons. Que se passe-t-il lorsque chatGPT génère un nouveau mot ?

Le modèle tient d’abord compte de toute la conversation antérieure, dans la limite fixée par la fenêtre contextuelle du modèle GPT 3.5 (environ 3000 mots). Il peut à la fois faire référence à des éléments déjà mentionnés mais aussi s’inscrire dans la continuité thématique ou stylistique de la discussion. Tous les mots n’ont cependant pas le même poids et grâce au mécanisme d’attention intégré dans les modèles transformers, chatGPT va accorder beaucoup plus d’importance aux mots immédiatement antérieurs (qui conditionnent la syntaxe de la phrase) ou à des passages plus anciens qui ont une incidence directe sur la formulation du mot (ce qui permet par exemple de faire revenir le nom d’un protagoniste lors de l’écriture d’une histoire). La barrière de la langue n’est pas un problème pour chatGPT. On peut passer indistinctement du français à l’anglais puis à l’italien : ces différentes langues sont “alignées” et puisent dans un répertoire sémantique commun.

Tout ceci pose le contexte initial et un certain univers de possibilités. Cependant, chatGPT reste relativement libre de puiser dans une mémoire sociale et collective bien plus vaste. chatGPT arpente cette mémoire comme un espace — en vérité, la fameuse métaphore rhétorique des lieux de mémoires n’a jamais été aussi appropriée. Comme un rhéteur de la Renaissance, chatGPT se perd dans un palais de mots. Il va généralement prendre les chemins les plus courants mais il peut aussi lui arriver de s’égarer. En vérité, la direction prise est imprévisible : chagGPT n’est pas déterministe. Il y a toujours une part de hasard ou d’inspiration dans ses pérégrinations.

À la différence des modèles GPT et GPT 3.5, l’imaginaire de chatGPT n’est pas totalement débridé. Il doit passer d’abord le seuil de son inconscient : ce système de “feeback” récompense ou pénalise les générations de mots qui ne s’accordent pas aux attendus de la conversation, soit parce que ces mots seraient inconvenants, soit parce qu’ils seraient inexacts. Je pense que ce dispositif fonctionne également comme une mémoire étendue et permet ponctuellement à chatGPT de se “souvenir” de mots ou de situations qui excèdent sa mémoire contextuelle normale limitée à 3000 mots.

Bien évidemment, il reste encore beaucoup de zones d’ombre. Un peu plus de deux mois après le lancement de chatGPT, OpenAI n’a toujours rien publié. On doit se contenter de recoller les morceaux à partir des questions-réponse sur le site, ou de descriptions assez génériques de GPT-3.5 ou d’InstructGPT. Cela pourrait rapidement changer. La concurrence va s’intensifier. Dans quelques semaines, Google devrait ouvrir l’accès à son propre chatbot, Bard.

Les évolutions les plus intéressantes vont peut-être venir d’ailleurs.

chatGPT a montré d’emblée le potentiel des grands modèles de langue dans plein de domaines mais on est encore loin d’un usage véritablement professionnel. Je m’attends à une déferlante rapide de chatGPT spécialisés, entraînés sur une tâche relativement précise, à l’image des modèles créés en France par LightOn : l’implication en amont des utilisateurs à venir de ces modèles sera probablement déterminante pour garantir un bon “alignement” avec l’univers social et professionnel auquel il sera destiné.

Et, les grands générateurs de texte vont peut-être prochainement connaître sa révolution open source. Pour l’instant, chatGPT (et GPT-3) est un peu naturellement protégé par sa taille : il n’est pas possible de recréer ni même de faire tourner un modèle de cet ampleur dans un contexte non-commercial. Cela ne durera peut-être pas. Les générateurs d’images ont déjà connu des optimisations massives : en 2021, il me fallait plus d’une heure pour créer une image relativement floue sur Google Colabs. Aujourd’hui, Stable Diffusion génère de véritables photographies imaginaires en moins de vingt seconde sur mon ordinateur personnel. La même équipe de recherche à l’origine de Stable Diffusion envisage aujourd’hui de créer une version libre de chatGPT beaucoup plus économe (environ 24 go de mémoire vive : c’est au-delà des capacités de la plupart des ordinateurs personnels mais on n’en est quand même plus très loin)

  1. Enfin, je pense que des documents de l’année 2022 sont présents dans GPT-3.5, comme le modèle n’a été publié qu’en novembre 2022, mais cela reste parcellaire et il est plus commode pour OpenAI de communiquer sur une coupure nette après 2021
  2. GPT est un modèle dit “génératif” au sens où il n’est pas initialement entraîné sur une tâche précise. Même si l’architecture diffère, la conception générale du modèle n’est pas très différente de BERT
  3. Norbert Wiener, Some Moral and Technical Consequences of Automation, p. 88

L’écrivain est un robot: générer des pastiches littéraires avec GPT-2

En 1909, l’écrivain allemand Karl Lasswitz imagine une bibliothèque universelle reposant sur « une machine combinatoire » capable de générer toutes les combinaisons possibles de 40 lignes de 50 caractères. Cette collection contient non seulement toutes les œuvres qui ont existé mais aussi toutes celles qui ont été perdu ou qui restent encore à venir. Seulement, la bibliothèque reste un horizon rêvé et inaccessible. Non seulement il est impossible de s’y retrouver. Elle contient forcément son propre catalogue mais il est tout aussi irrécupérable. Et, de toute manière, la bibliothèque est irréalisable : elle contient plus de livres qu’il n’existe d’atomes dans l’univers.

L’histoire a été fréquemment reprise (et la bibliothèque universelle devient la bibliothèque de Babel dans une version fameuse de Borges). L’informatique moderne semble la concrétiser. Plusieurs projets numériques en donnent une idée approximative. Il existe ainsi une library of babel contenant 3200 pièces disposant chacune de 20 étagères réparties sur 4 murs, comprenant à leur tour chacune 5 rangées de 32 livres de 410 pages. L’ensemble est considérablement plus vaste que les bibliothèques physiques usuelles mais reste microscopique au regard de la bibliothèque universelle envisagée par Lasswitz. Et surtout, il est toujours impossible de s’y retrouver. Les explorations occasionnelles de débouchent que sur du charabia. Quelque part se trouve, peut-être, une traduction de Shakespeare en étrusque, les traités perdus d’Épicure ou le catalogue de la bibliothèque : à moins de disposer d’un temps infini nous n’en sauront jamais rien.

Des nouvelles méthodes de génération de texte permettent d’envisager une bibliothèque universelle plus lisible et structurée — tout en gardant une vocation “universelle”. Les techniques couramment utilisées depuis les années 1950 ont longtemps présenté l’inconvénient d’être trop limitatives et directives : les créations sont des combinaisons de règles pré-définies qui ne requièrent d’ailleurs pas forcément une machine informatique1. L’auteur est un programmeur au sens strict : s’il n’écrit pas directement le texte il détermine complètement ses conditions de possibilité et l’horizon des textes possibles.

Depuis quelques années, ces approches sont concurrencées par de nouveaux modèles “neuronaux” et inductifs : au lieu d’être pré-déterminée par une série de règles transparentes, la génération de texte est mise en œuvre par des réseaux de neurones capables de reconstituer des abstractions complexes comme la forme d’un visage, le contour d’une fleur ou… le style d’un écrivain.

Une nouvelle machine à créer : GPT-2

En février 2019, un nouvel outil GPT-2 parvient à créer des nouvelles journalistiques crédibles en série suscitant au passage de nombreuses inquiétudes : serait-il bientôt possible d’inonder les réseaux sociaux de millions de Fake News ? Un an plus tard, ces angoisses sont plutôt retombées. La principale réalisation concrète de GPT-2 est à ce jour un show humoristique suivi en direct par plusieurs dizaines de milliers de personnes : les robots de Reddit qui miment de manière troublante les codes des forums en ligne avec des résultats souvent cocasses. Les dérives, bien concrètes, de ces nouveaux outils sont d’une autre nature : leur coût énergétique et écologique. Le successeur de GPT-2, GPT-3, officialisé il y a quelque jours a nécessité une infrastructure monstrueuse : des milliers de processeurs GPU mobilisés jour et nuit pour une facture totale de 12 millions de dollars.

GPT-2 repose sur un paradigme radicalement distinct des algorithmes de génération de texte couramment utilisé depuis les années 1950. Au lieu de dépendre d’une série de règles transparentes le modèle est “entraîné” sur un corpus préexistant et s’imprègne de son style et de ses routines.

Ce basculement de l’utilisation de technologies déductives (explicitement programmées) à des technologies inductives (non explicitement programmées, et qui infèrent elles-mêmes les règles nécessaires à partir du jeu de données utilisées pour l’entraînement) est lourd de conséquences sur la production de textes générés par informatique. D’un point de vue littéraire, le texte procède alors avant tout de façon rigide d’une matière artistique, soit de l’ensemble de données utilisées (que l’on qualifiera d’hypotextes, afin de faciliter la lecture)2

L’auteur du modèle détermine en quelque sorte la “couleur” ou le “parfum” du modèle mais ne peut pas prévoir le résultat final — avec des conséquences éthiques bien concrètes puisque rien n’empêche le robot de proférer des attaques racistes ou sexistes. La création d’un écrivain-robot devient principalement de la curation de corpus augmentée de quelques méta-paramètres déterminant, par exemple, l’originalité du texte (sa “température”).

J’ai commencé à générer des textes « à la manière de » en réentraînant une version française de GPT-2 sur plusieurs corpus littéraires et philosophiques (un modèle français créé par William Jacques en octobre 2019 présente l’intérêt d’avoir été déjà entraîné sur un corpus de romans en français du XIXe et du XXe siècle.). J’ai été inspiré par les expériences de mon collègue Julien Schuh qui a commencé il y a quelques mois à créer un robot-balzac à partir du corpus de la Comédie Humaine.

Mes essais ont été réalisé à partir d’un carnet Google Colab en Python que vous pouvez réutiliser par ici. Originellement j’ai opté pour Colab pour une raison purement technique : disposer d’une infrastructure technique suffisamment performante pour créer des modèles de deep learning (avec un GPU). Il s’agit en réalité d’un moyen efficace de démocratiser ces outils expérimentaux. Vous pouvez à votre tour créer de nouveaux modèles à partir de corpus d’écrivains ou de genres en copiant le carnet dans votre espace Google Drive.

Les résultats sont très troublants, même si perfectibles. Pour des raisons de performance je n’ai utilisé que le modèle le plus basique qui donne un résultat nettement moins “cohérent” que les modèles avancés utilisés sur Reddit. Néanmoins, l’identité stylistique de chaque corpus est bien présente et laisse à penser que la génération de texte n’est pas simplement qu’un gadget amusant mais pourrait devenir un outil d’analyse littéraire ou linguistique.

Dans une approche typique des humanités numériques, cet article vise à présenter plusieurs concepts fondamentaux de la génération textuelle par deep learning (l’entraînement, la température, le taux d’apprentissage, les modèles hybrides) dans une perspective d’analyse propre à l’étude littéraire et à l’histoire culturelle.

Un modèle typique ressemble à ceci :

Il faut pas se laisser intimider par la forme : ce n’est qu’une liste de paramètres. Le corpus d’entraînement se trouve dans dataset. Ici en l’occurrence il s’agit d’un corpus de roman de science-fiction français des années 1950-1960. Il est possible de réutiliser un modèle préexistant (ici un modèle entraîné sur la Recherche de Proust). Enfin plusieurs variables déterminent la qualité du modèle (le nombre d’étape et le learning rate ou taux d’apprentissage).

Un recueil de poèmes possibles

J’ai effectué mes premiers tests sur les poèmes de Stéphane de Mallarmé (sur une suggestion d’Alexandre Gefen). C’était effectivement l’un des corpus qui se prête le mieux à la génération de texte littéraire. Sous réserve de lui soumettre des vers GPT-2 restitue parfaitement un semblant de rythmique et de couleur poétique :

En ce jour d’avril inattendu
Je goûte au plaisir du temps suspendu

De naître à quelque lieu de mai
Au cours de la tribu s’enroulant

Sens, son courage n’endort bientôt
La pourpre de l’œil inscrit
Qu’échappe au pli qu’une allée s’y mêle
Surgit après les épaves

Surgi le glaive inscrit
Surgi le repousset assourdi
Tous, vils et frémi
Pour la même allocution

Qui le maintient, ô l’air effarouché
Toutes dans un mouvement
Ne puisse à l’abandon surpriant
S’ensurre de la désuétude

GPT-2 est plus troublant sur des textes profonds et complexes, dans la mesure où ceux-ci requièrent un effort d’interprétation de la part lecteur. Les absurdités de la génération textuelles sont alors interprétées comme autant indices à déchiffrer d’un sens profond qui nous échappe. Les mots occasionnellement inventés par le modèle (qui génère le texte au niveau du caractère) sont tacitement admis comme des termes rares voire des inventions poétiques.

Cette tolérance permet de générer des textes plus inventifs et originaux. Les modèles de génération de texte par apprentissage profond incluent en effet un paramètre d’originalité, la “température”. Plus la température est élevée et plus le modèle sera audacieux ; plus elle est “froide” et plus les résultats seront routiniers. Un poème de Mallarmé “chaud” sera ainsi assez éloigné du français parlé. En témoigne cette fascinante “Métaphore 13” (le titre est aussi du modèle) qui pourrait tout aussi bien être un happening d’avant-garde ou un brouillon inachevé :

Métaphore 13

Omis vain ! voici un soupir—unique souci de pluie brûlaison
Ne remet à rien l’offus
Me glaive du pied
S’exagère en doute
Lys unsuccessfully étrangers(((ici avec une température de 1,2 ; la plupart des essais de génération de texte se font généralement sur une température allant de 0.7 à 1 ; je regrette d’ailleurs que les concepteurs des modèles n’aient pas poussé l’analogie jusqu’à utiliser une échelle de température similaire aux degrés Celsius))

Évidemment, la production du modèle peut se décliner à grande échelle mais tout de même pas à l’infini : avec les moyens dont nous disposons, notre double robotique de Mallarmé a besoin d’une dizaine de secondes pour concevoir son poème. Il est possible de compiler un recueil complet de plus d’une centaine de pièces en quelques minutes (vous pouvez le consulter par ici).

Évidemment il n’est pas question de créer une bibliothèque universelle complète dans ces conditions, mais une petite bibliothèque portative des poèmes imaginaires de Stéphane Mallarmé est entièrement à portée et il serait au moins possible de s’y retrouver avec des œuvres numérotées, dotées de titre et subdivisés en sections ou en volumes plus ou moins inventifs (selon le degré de température adopté).

Vers une littérature uchronique

Dans l’exemple précédent, nous avons fourni au modèle un texte de départ qui n’a pas beaucoup d’importance : les deux vers visent juste à instiller la forme « poème » et à suggérer que tous les textes à venir devraient être des vers à leur tour. Il est cependant possible de faire un usage plus inventif de cette suggestion préalable et provoquer la composition de création hybrides et laisser le modèle élaborer à partir d’une idée initiale. En pratique ce processus fonctionne bien mieux sur les modèles plus avancés développés par GPT-2. Les robots de Reddit parviennent ainsi à créer des posts relativement cohérent à partir d’un simple titre en faisant régulièrement référence à des éléments narratifs clé. Avec nos moyens plus limités et en l’absence d’un modèle parfaitement adapté à la langue française, nous n’aurons pas de telles ambitions. Nos essais de créations hybrides naissent plutôt du “choc” de la rencontre entre un texte manuel, qui ne se conforme pas nécessairement au style d’origine de l’auteur, et un texte automatique.

Après Mallarmé nous avons entraîné un nouveau modèle sur la Recherche de Marcel Proust. Avec le passage du vers à la prose, le texte généré passe plus difficilement inaperçu. Il y a dans le contrat de lecture de la narration romanesque une attente de cohérence qui n’est plus forcément respecté.

Les suggestions préalables permettent de créer des passages « uchroniques » en faisant allusion à des événements dont l’auteur ne pouvait avoir connaissance. C’est ainsi que nous avons pu créer un extrait du “journal de confinement” de Proust :

Fiévreux et confiné je voyais l’épidémie de coronavirus gagner la vie précieuse de cet événement et de celle dont la mer semblait toujours nue.

La frivolité de l’homme de douze ans, bien qu’on soit, l’édification des choses, du corps de soi, de l’aiguillon, la mémoire de la mienne, l’amour, la tendresse, la rêverie, la souffrance, s’est souvent accrochées à un mensonge. Quand je voulus dire que je n’étais pas même un mensonge, il m’arrivait, bien vu, qu’on me faisait dire de l’édifier, de l’éprouver, de l’inviter, de me faire le désir.

D’autres exemples élaboraient plus explicitement sur la notion d’épidémie mais n’étaient pas aussi joliment tournés. La valeur du texte généré est toujours une affaire d’interprétation : nous pourrions imaginer un Proust de 12 ans confiné aux abords d’une mer inhabitée questionnant la réalité du monde qu’il a vécu jusqu’à présent. Ce texte a au moins le mérite de l’originalité : il sonne comme du Proust sans être une simple compilation d’extraits.

L’utilisation du paramètre d’originalité, la “température” rend également possible la génération de textes uchroniques non seulement par leur sujet mais aussi par le langage adopté. Une température élevée rend en effet plus probable l’apparition de néologismes inexpliqués. Nous pouvons ainsi créer un Proust de science-fiction faisant allusion à des objets et des espaces inconnus au détriment de la lisibilité :

Je vivais depuis plusieurs années sur la planète Mars et je me demandais à voir les vals; je me donnais la carte d’argent pour vouloir porter sur moi un poisson de voyage. Aussi je n’en gardai plus ce morceau. De mon état de méfération faisait une saine. Sa maison, au milieu de cela, était un des plus simples éléments d’un grand plaisir mais, le pire des milliers, je montai en voiture et m’habillais avant le dîner; la ville, où la promenade des gambins sur l’intérieur est assez nouveau, me semblait que ma maison était là

Un recueil de vies imaginaires

La génération textuelle ne permet pas seulement de créer des œuvres littéraires. Elle peut produire plus largement des “réalités” alternatives en mimant le registre factuel de productions scientifiques, historiques ou encyclopédiques.

Nous avons ainsi entrepris de générer des vies imaginaires de philosophe antique à partir de la traduction française des biographies collectées par Diogène Laërce au 3e siècle ap. J-C. Ce texte est assez formulaïque : la plupart des vies se découpent en sections récurrentes et attendues (origine de la personne, formation, doxographie, anecdotest, liste des œuvres, liste des homonymes et épigraphes dédiées par Diogène à la personne) et ont été compilées à partir d’un grand nombre de sources. GPT-2 est capable de reconnaître ces standards textuels sous-jacent et de les exploiter pour produire des textes plus structurés et cohérents :

HERCYLLUS.

Hercyllus, fils d’Héphaïstos, de Crotone, selon ce que dit Philodème dans le troisième livre de son ouvrage Sur la royauté ; ce fut un homme très mauvais, apte sur la terrain, peintre à géométrie ou ambassadeur, selon ce que dit Hermippe dans sa Vie de Pythagore. Il y établit cependant l’ordre d’une école en l’honneur de Xanthos d’Edition, auquel Ariston le mathématicien apporta un géométralogie vers la Montée d’Athènes. Elle s’appuie surtout sur un certain Philippe de Mégare que d’autres disciples de Démocrite s’approchaient, selon ce que dit Apollodore dans sa Chronique.

Il y eut aussi trois disciples, d’Alexandre d’Abdère, de Polyzène, d’Assos, un disciple de Démocrite, évoqué par Denys, de Crotone ; de Thèbes et de Gadara, de Milet, d’Alexandre à Philodème et de Cléanthe, évo

À défaut d’être réelle, la vie imaginaire semble solidement référencée, même si les sources sont à leur tour en grande partie imaginaire : s’il y a bien une Chronique d’Apollodore, Philodème (de Gadara ?) n’a pas plus composé un Sur la Royauté qu’Hermippe n’aurait écrit une Vie de Pythagore.

Vers des croisements hybrides

S’il permet d’avoir systématiquement des pastiches, l’entraînement du modèle sur des corpus précis et délimité est cependant aussi limitatif : il n’est pas possible de s’éloigner du registre du texte originel. Un modèle Proust ne produira jamais véritablement de la science-fiction. Les notions de voyage interplanétaire lui sont totalement étrangères et malgré des tests répétés il ne s’approprie jamais les notions de “planètes” ou de “fusée”.

Heureusement, l’apprentissage automatisé n’est pas limité à des styles uniformes : un modèle entraîné sur un certain style peut être ultérieurement sur un autre style et produire produire par ce biais des hybrides plus ou moins monstrueux. Nous avons ainsi remobilisé notre modèle Proust sur un nouveau corpus : des extraits aléatoires d’un grand corpus de 1700 romans de science fiction francophones publiés entre 1950 et 2000 (pour l’essentiel dans la collection Fleuve Noir Anticipation).

Afin de mettre en œuvre une telle hybridation nous avons fait varié un autre paramètre : le “taux d’apprentissage” (learning rate). Avec un taux d’apprentissage élevé le modèle va s’adapter autant que possible au nouveau corpus. Inversement, avec un taux d’apprentissage faible, le modèle devient conservateur : il garde en mémoire le style déjà acquis et ne le modifie qu’à la marge. Concrètement, notre modèle va rester fondamentalement Proustien tout en s’initiant aux motifs littéraires caractéristique de la science fiction française du second XXe siècle — un peu à la manière d’un écrivain classique qui se prêterait le temps d’une parution aux formalismes des écritures de genre.

Notre Proust de SF s’aventure ainsi d’une planète à l’autre depuis la porte de sa chambre :

Longtemps, sur la planète Mars, je me suis couché de bonne heure. À une certaine place, sur mon château, j’étais loin de l’autre planète. Et enfin, dans la nuit, la dixième planète, il fallait passer l’endroit de la planète Mars.
Soudain, une voix plus lue, encore plus haute, m’arrêta.
Le jeune homme n’avait pas évité la vieille dame.
Il devina qu’elle avait mis la planète à la porte de ma chambre.
Il avait passé la planète à l’endroit de la planète Mars.

Le réapprentissage n’est pas seulement une affaire de vocabulaire. Le style de la Recherche laisse place à des phrases plus courtes et plus hachées, tout en préservant un registre de langue assez élevé. Sans surprise les modèles hybrides font moins illusion que les modèles classiques : la collision des styles nuit à la lisibilité et laisse plutôt une impression de poème en prose ou de stream of consciousness.

De nouveau, le sens et la valeur du texte généré viennent des interprétations et des essais de rationalisation qu’ils parviennent à susciter. Dans un autre exemple bien méta, une machine « enflammée » génère un roman entier et attise visiblement la crainte des habitants du lieu :

En un rien de temps, le robot rédigea un long roman qui longeait les yeux de l’impressionniste – une image de la machine enflammée, qui donnait un élan dans ses yeux – et, une fois que l’homme vînt à la place, il se laissa retomber à leur tour le plus précieux : un épais coup de pied en éventuelle. Il s’arrêta.
Ces yeux étaient les nombreux phénomènes des machines, dépouillés de l’inspiration ou de la lumière, qui, comme des chasseurs, éclairaient les yeux. Ils se roulèrent de lui-même dans la voiture. Il avait dans une pièce de la salle. Ses habitants avaient quitté la salle et devinaient la machine.

Il serait tentant de réécrire ces textes pour les intégrer dans une narration plus logique et linéaire. La génération automatique de GPT-2 se prête paradoxalement davantage à la poésie pure qu’à la narration structurée — un peu comme si la machine avait, contre toute attente, plus de cœur que de raison.

Pour l’heure je vois mal un modèle générer un roman crédible dans un futur proche. Si certains textes arrivent à exprimer des idées à peu près cohérentes sur quelques paragraphes, la longue durée d’une fiction de 100 à 200 pages semble hors de portée. Un nouveau usage plus réaliste mais, peu anticipé, pourrait se développer dans les années à venir : le détournement des modèles comme “machines à inspiration” capable de produire des concepts, des expressions et des effets de sens inattendus et intrigants.

  1. Sur cette première vague de création générée, voir l’excellente synthèse de Funkouser parue en 2007 Prehistoric Digital Poetry: An Archaeology of Forms, 1959–1995
  2. Tom Lebrun, Pour une typologies des œuvres littéraires générées par intelligence artificielle

De la “psychose” à la crise : le coronavirus dans la presse française.

« S’est-il passé autre chose ? » La crise sanitaire du coronavirus absorbe toute l’attention médiatique, alors que les mesures de confinement affectent la vie quotidienne de la moitié de l’humanité. C’est d’emblée un événement hors norme dans mon domaine de recherche, l’histoire des médias. Hors période de guerre, l’agenda médiatique n’est quasiment jamais bousculé à ce point.

Plusieurs projets ont déjà été entrepris pour collecter « en direct » des informations, archives et données sur la crise ce dont témoigne la compilation des ressources historiques de Frédéric Clavert. De mon côté j’ai spontanément commencé à réunir un large corpus de la presse quotidienne française nationale et régionale couvrant la réception médiatique de l’épidémie depuis ses premières manifestations en Chine début janvier jusqu’au 21 mars inclus.

Je n’avais pas initialement d’objectif précis, juste une volonté de comprendre un aspect de la crise à l’échelle de mon domaine de compétence. Cette exploration préliminaire a fait émerger un résultat paradoxal : l’un des discours les plus médiatisé est un discours critique de la médiatisation et du sensationnalisme des médias appelant à “relativiser” l’ampleur de l’épidémie réduite à une simple psychose irrationnelle.

De l’analyse scientifique à la crise sociale : les étapes de la réception médiatique

Le corpus comprend actuellement 35 258 articles avec une occurrence de “coronavirus” dans Europresse1 . J’ai pris la décision pour l’instant d’exclure la presse spécialisée et, surtout, la presse en ligne : la couverture d’Europresse y est nettement moins bonne. Il faudrait une autre étude et d’autres moyens — probablement une extraction automatisée de Google News qui n’est malheureusement pas l’environnement le plus accueillant pour les projets de text mining.

Pour analyser ce corpus j’ai mis à profit les méthodes de « lectures distantes » expérimentées à une très grande échelle par le projet ANR Numapresse pour les archives de presse du XIXe et du XXe siècle. Nous avons notamment appliqué des outils de classifications automatisés par genre à l’ensemble de la presse quotidienne nationale numérisée par Gallica de 1820 à 1940. Il devient possible de suivre l’évolution quantitative d’un genre journalistique sur une très longue période et d’extraire automatiquement des sous-corpus comme les pages cinéma hebdomadaires. Ces données nouvelles ont été notamment mises à profit pour un livre sur la viralité médiatique avant Internet que je publie prochainement avec Marie-Ève Thérenty et Julien Schuh aux Éditions du CNRS.

J’ai développé un nouveau modèle de classification approprié au corpus en annotant manuellement un millier d’articles selon douze thématiques ou angles journalistiques qui caractérisent les différentes dimensions de la crise de l’organisation de la quarantaine aux problèmes d’approvisionnement.

La classification automatisée permet de distinguer clairement différentes phases de réception du virus. Les premiers articles relaient des analyses scientifiques d’un virus « mystérieux » à l’origine d’une épidémie alors lointaine. Les premiers cas apparaissent à la fin janvier. Tout au long du mois de février les médias font état de la progression de l’épidémie en France et à l’étranger ainsi que des inquiétudes croissantes des milieux économiques (à noter le cycle “hebdomadaire” des nouvelles économiques qui font généralement relâche le week-end). En mars, la couverture médiatique change profondément alors que la société française s’achemine inévitablement vers un confinement de masse : mesures de quarantaine, difficultés d’approvisionnement et, surtout, annulation d’événements en cascade. À cette date, l’épidémie est devenue un événement total qui s’insinue dans toutes les colonnes de la presse des grands titres de la une au carnet du jour.

La classification automatisée simplifie surtout la réalisation d’études « qualitatives » en permettant de rapidement focaliser le corpus sur un certain aspect de la crise. Par exemple il est possible de récupérer uniquement les articles ayant trait à l’organisation interne des hôpitaux ou, inversement, d’exclure d’emblée certaines thématiques qui ne seraient pas pertinentes (comme les nombreuses annulation d’événements sportifs et culturels à partir de mars).

Quand la hantise de la contagion médiatique devient contagieuse

Les premiers articles scientifiques parus dès janvier informent correctement sur la nature de l’épidémie : « Les chiffres actuels indiquent que la mortalité de ce virus serait de 3 à 4 %. » (La Tribune, 25 janvier), « sa létalité ne serait « que » de 3 % des personnes malade » (Les Échos, 27 janvier).

Ce constat factuel, toujours valable, est rapidement dépassé par un discours ambivalent fréquemment porté par certains professionnels de la santé : le virus est bien moins meurtrier en chiffre absolu que la grippe saisonnière qui tue en moyenne 10 000 à 12 000 personnes (sans doute un peu moins cette année avec la démocratisation de mesures de barrières puis la généralisation du confinement).

De circulation en circulation, le discours de relativisation est dépouillé de ses éléments contextuels (« jusqu’à présent »). Il se transforme en vérité générale : « le docteur **** appelle à ne pas céder à la psychose face au coronavirus et rappelle que la grippe est, à ce jour, beaucoup plus mortelle » (Le Progrès de Fécamp, 27 février : les noms des personnes non célèbres ont été anonymisées), « si on déployait la même arithmétique médiatisée et anxiogène pour la simple grippe saisonnière, qu’entendrait-on ? » (Le Télégramme, 7 mars). Les experts sollicités pointent le décalage entre la « surréaction » suscitée par le coronavirus et l’attentisme qui entoure le retour périodique de la grippe : « l’urgentiste Patrick Pelloux appelle lui à raison garder » (Santé, 27 janvier), « le docteur **** est plus inquiet des dégâts causés par la grippe » (La Croix, 31 janvier), « les équipes du SAMU rappellent que la grippe reste bien plus menaçante » (Le Monde, 30 janvier), « les pharmacies sont plus inquiètes pour la grippe que pour le coronavirus » (La Dordogne Libre, 26 février), [pour Michel Cymes] « il n’y a pas de psychose à avoir. Ce n’est qu’une grippe. » (Aujourd’hui en France, 3 mars).

La sur-préparation de la grippe H1N1 en 2009 est largement vue comme un piège à éviter : « l’épidémie de grippe H1N1 et ses nombreux ratés » (Libération 28 janvier), « on en a trop fait dans le cas de la grippe A H1N1 avec des stocks de vaccin ou d appareils » (Ouest-France, 30 janvier); Le risque d’une réaction excessive est encore pointé à la veille du passage en stade 3 et de l’instauration du confinement : « Le bilan est parfois décorrélé des peurs. La panique provoquée par la pandémie de grippe A (H1N1) en 2009-2010 — et par la réaction catastrophique des pouvoirs publics de l’époque — ne se reflète pas dans les chiffres : moins de 1 400 cas graves en réanimation et 312 décès. » (Sud Ouest, 13 mars).

Ce discours laisse des traces. De nombreux lecteurs et témoins de la presse régionale s’en approprient les termes : « je n’y crois pas à tout ce qu’ils racontent La grippe saisonnière fait davantage de morts que leur coro » (La Dépêche du Midi, 11 mars), « C’est beaucoup de cinéma. C’est moins grave que la grippe. » (témoignage dans Ouest-France, 14 mars).

La mise en place progressive du confinement à la mi-mars suscite immédiatement des incompréhensions et témoigne de l’ampleur du décalage entre le récit médiatique et la réalité de la pandémie : « On ne ferme pas le monde entier pour une simple grippe » (La Montagne, 14 mars), « On nous dit que c’est une grippe un peu plus virulente et on prend des mesures historiques » (Midi Libre, 14 mars), « La grippe n’a jamais provoqué la fermeture des bars, alors qu’elle tue davantage. Pourquoi une telle décision? » (témoignage d’un commerçant dans L’Union du 15 mars), « Quand je les ai informés des annonces d’Édouard Philippe, ils étaient ébahis. Ils ont fait des remarques du genre : La grippe, ça fait 10.000 morts. À la prochaine épidémie de grippe aussi ils ferment les restos ? » (La République du Centre, 15 mars).

Pourquoi parler de psychose ?

Un terme revient comme un leitmotiv pour décrire l’emportement médiatique face à l’épidémie : la psychose (953 articles du corpus). L’expression commence à être utilisée fin janvier. Elle est largement disséminée pendant la période allant du développement de l’épidémie en France à l’instauration du confinement.

La psychose est décelée d’abord en Chine : « la psychose gagne Hong Kong » (La Dépêche du Midi, 25 janvier). Elle apparaît rapidement en France avec de premières ruptures de stocks dans les pharmacies : « le début de psychose qui aurait provoqué une ruée sur les masques de protection » (La Nouvelle République du Centre-Ouest, 29 janvier).

La psychose apparaît comme une maladie dans la maladie qui pourrait bien causer plus de dangers que le virus lui-même : « Un véritable phénomène de psychose collective qui a un nom de code coronavirus » (Midi Libre, 30 janvier). Pour un médecin « l’on en parle peut-être trop, au risque de favoriser la psychose » (Le Progrès de Fécamp, 27 février). La psychose est intrinsèquement lié à un discours de maintien de l’ordre réduisant la société à une population instinctive et irrationnelle : « La population s’affole un peu. Cette psychose est maintenue par certains médias au niveau national » (Nord Éclair, 3 mars). Dans ce contexte, l’enjeu essentiel pour les autorités (et plus indirectement pour une partie de la presse) « est aussi de maîtriser la psychose des gens » (Aujourd’hui en France, 26 janvier). Sans surprise, l’expression « psychose » est largement attesté dans la couverture médiatique des problèmes d’approvisionnement (10% des articles classés dans notre corpus) et des mesures de quarantaine (5,3% des articles).

La notion de psychose collective n’a plus de base scientifique solide aujourd’hui. Ce schéma d’explication a été progressivement abandonné par les spécialistes en sociologie des médias et media studies. Il a par contre un sens politique bien précis. Les premières occurrences de « psychose collective » apparaissent au début du XXe siècle sous la plume d’intellectuels conservateurs comme Paul Bourget2 ou Gustave le Bon dans la perspective d’une critique frontale des régimes démocratiques et de la légitimité de l’élection au suffrage universel.

Paradoxalement le discours de la psychose collective prépare son exact envers : la critique de l’irresponsabilité d’une foule incapable de se maîtriser et d’appliquer correctement les mesures de confinement. En moins d’une semaine l’état d’urgence sanitaire s’est considérablement renforcé remettant en cause de nombreux principes fondamentaux des libertés publiques et facilitant la généralisation de techniques de contrôles inédites. Exploitation données de connexion téléphoniques, surveillance par drone, reconnaissance faciale : face à la situation d’urgence tous les moyens paraissent bons pour imposer de force la distanciation sociale à des populations a priori désobéissantes et sujettes à des psychoses incontrôlables.

au nom de l’effet cliquet qui régit la vie de nos institutions contemporaines, il n’est pas absurde de se demander si ces décisions sanitaires, une fois mises en œuvre, perdureront dans le temps comme un vulgaire état d’urgence3 .

Le discours de la psychose prend un autre sens dans le contexte actuel. Il est fréquemment associé à la dénonciation des « fake news » et plus largement à une vision militarisée (weaponization) et verticalisée de la communication4 . À la « guerre sanitaire » lancée par le gouvernement répond une forme de guerre médiatique où les individus sont de nouveau assimilés à une population civile à contrôler et protéger malgré elle.

En amont, une fracture communicationnelle ?

Le traitement médiatique d’un événement hors norme est évidemment un exercice complexe. Dès janvier, Sud-Ouest anticipe la position très délicate de la presse dans un billet réflexif sous le titre (approprié) « contagion médiatique »

Si les médias n’en parlent pas, on les soupçonne de cacher des choses, s’ils en font leurs gros titres, on leur reproche d’affoler la population. Toute la difficulté dans ce genre d’événements est de rendre compte des faits sans dramatiser en prenant en compte une réalité relativement récente.

L’analyse du corpus suggère que la couverture « directe » de la crise n’est pas parvenue à trouvé le juste équilibre : la gravité de la pandémie a été excessivement relativisée quasiment jusqu’à l’instauration des mesures de confinement. Néanmoins, c’est aussi dans la presse que les dysfonctionnements du dispositif de gestion de crise commencent à être mis au jour.

Les premiers signes de pénurie de fourniture médicale apparaissent dès la fin janvier : des pharmacies se retrouvent à court de masques. Le 26 janvier le Midi Libre fait état de « quarante-huit heures de folies » : « On est en rupture de stock. Les gens les achètent par boîtes entières. C’est irrationnel ». La pénurie se répand très vite dans toute la France (Angers, Lyon, Toulouse, Bordeaux…) et affecte rapidement d’autres produits comme les gels hydroalcooliques. La ministre de la santé doit faire une communication officielle : « nous avons des dizaines de masques en stock en cas d’épidémie » (Le Monde, 28 janvier).

Les informateurs locaux sont tout de suite moins optimistes. Un pharmacien constate que, même s’il n’y a pas encore une réelle pénurie les « stocks ne sont pas grands » (Charente Libre, 29 janvier). À Lyon, un industriel spécialisé dans ce type de produit s’avoue incapable de suivre la demande : « Si les chinois ne rouvrent pas leurs usines cela risque d’être compliqué » (Le Progrès, 2 février). Le Monde publiera finalement une enquête détaillée un mois plus tard : la France n’a pas de « plan b » en cas de pénurie de médicament, faute d’accès aux fournisseurs chinois.

Les sources locales s’interrogent également sur le degré de préparation réel des institutions médicales. Faute de retours de leur hiérarchie des soignants doivent aller à la pêche aux informations sur Internet : « La nuit dernière, nous avons appris la confirmation d’un cas via les réseaux sociaux, poursuit une autre infirmière. Il y aurait huit suspicions, mais je n’ai que des bruits de couloir. » (Ouest-France, 29 février). À la fin février, plusieurs médecins interrogés par le Parisien s’alarment du manque de tests et de réactivité des autorités : « Ils ne réalisent pas que l’Ile-de-France est devenue une zone à risque! ». (29 février). Le 4 mars, Le Monde publie une enquête détaillée sur les inquiétudes croissantes des EHPAD : pour la directrice de l’un de ses établissements « le pire est à venir ».

Ces témoignages dessinent en filigrane une forme de « fracture communicationnelle » qui fait largement écho à la fracture sociale : à rebours de l’idéal d’une “société d’information” horizontale héritée des années 1990 les administrations publiques ou privées communiquent de moins en moins en pratique. Les clients, les usagers et même les employés peinent à obtenir des informations cruciales et, inversement, les retours du « terrain » ne sont suffisamment pas pris en compte. Pour de nombreux professionnels de la santé, les voyants rouges se sont multipliés dès février : manque de moyen, préparation insuffisante et déficience des infrastructures. Et pourtant les autorités n’ont pris, en cascade, des mesures fortes que deux à trois semaines plus tard.

  1. Je peux communiquer le corpus à quiconque en fait la demande
  2. En 1909, Paul Bourget introduit l’expression dans la presse française pour décrier l’abandon rapide de la religion catholique dans la vie publique : le pays est libre à « une sorte de psychose collective » (Supplément littéraire du Figaro, 24 avril 1909).
  3. Olivier Tesquet, Ce que dit le Coronavirus de notre soumission à la surveillance
  4. Sur la militarisation de la communication sur les réseaux sociaux voir, Peter Warren Singer & Emerson T. Brooking Likewar: the Weaponization of Social Media, Houghton Mifflin Harcourt, 2018.

#DHIHA8 Humanités numériques : et si nous avions créé une nouvelle discipline ?

D’après Émilien Ruiz, les humanités numériques se trouvent “à la croisée des chemins”. Cette communauté transdisciplinaire a émergé depuis plus de 10 ans, soit suffisamment de temps pour que les pratiques du futur deviennent celles du présent. Ou pas…

Car si les humanités numériques se sont ancrées institutionnellement, les promesses de renouveau scientifique et pédagogique restent encore à l’état de perspectives plus ou moins lointaines : « à ce stade, il me semble pourtant qu’il est possible de parler d’un demi-échec ». Les enseignements du numérique demeurent périphériques. Il y a eu une inflexion réelle dans les pratiques de recherche, les bases de données et les corpus en ligne devenant de plus en plus des outils “normaux” et attendus, mais avec finalement peu d’incidence sur les méthodes et sur les manières d’aborder et de construire l’objet de recherche. Au plus une révolution de l’indexation scientifique, mais certainement pas une révolution scientifique.

Émilien remarque avec justesse que ce bilan en demi-teinte a eu une incidence sur la définition-même des humanités numériques. La dimension quantitative et “computationnelle” a été progressivement reléguée au second plan, au profit d’une approche communicationnelle mettant l’accent sur l’éditorialisation et la diffusion des résultats. Les humanités numériques apparaissent davantage comme une étape supplémentaire dans le cycle de la recherche, sans altérer en profondeur l’existant.

À ce stade, l’on peut légitimement se demander si l’ambition principale des humanités numériques ne devraient pas être de “disparaître”. Réagissant au constat d’Émilien, Paul Bertrand appelle à la « fin nécessaire et heureuse des humanités numériques », appelées à se dissoudre dans les disciplines existantes. Si l’on se limite au versant communicationnel et éditorial des humanités numériques, cette réaction est amplement justifiée. Créer un site ou un carnet de recherche, alimenter une base de données, formater et visualiser un corpus devraient effectivement faire partie de l’outillage ordinaire des disciplines.

Mes recherches en cours m’amènent de plus en plus à faire le constat inverse : toutes les humanités numériques ne sont pas solubles. Ou plutôt, dans ce mouvement volontairement vague et informe, quelque chose a émergé qui change notre rapport aux objets, au savoir. Quelque chose qui ne représente qu’une partie des humanités numériques mais qui resterait même si toutes les pratiques estampillées DH venaient à se normaliser et à rentrer dans le giron de leurs disciplines d’origine. Quelque chose qui réactualise la dimension quantitative marginalisée mais en faisant autre chose que “l’histoire quantitative”.

Cette approche n’a pas vraiment de nom, ou plutôt, les labels existants ne sont pas satisfaisants : il est tantôt question de « computational literature studies » (sauf que cela ne se limite absolument à la littérature), de « lecture distante » (sauf qu’une part essentiel de la recherche actuelle porte sur des objets qui ne sont pas lus mais vus) ou de cultural analytics (expression qui se traduit terriblement mal en français et, sans doute, dans d’autres langues européennes). On pourrait aussi tenter une définition purement SHS, sans jamais faire allusion à l’informatique et parler, par exemple, de poétique historique des formes culturelles.

À défaut de nom, l’approche se caractérise par une intégration croissante de pratiques, de concepts, d’outils et de méthodes, plus ou moins marquées selon les contextes. Aux États-Unis il existe une revue dédiée qui fédère une petite communauté très active, le Journal of Cultural Analytics. En France les initiatives demeurent encore assez isolées.

De la numérisation à l’identification des régularités…

Le point de départ fondamental, c’est la numérisation de masse. Les bibliothèques numériques contiennent aujourd’hui une part substantielle des productions imprimées voire écrites. Je dispose ainsi d’environ un quart des éditions de romans de 1800 à 1900 (soit la totalité de ceux qui ont été numérisés par Gallica). Dans le cadre du projet Numapresse, nous commençons à réunir une bonne partie de la presse quotidienne nationale.

Les romans numérisés de la période 1815-1850 classés automatiquement par genre.

Si nous sommes encore loin de l’idéal d’une numérisation totale (qui ne relève néanmoins plus de l’utopie à moyen terme), il y a aujourd’hui suffisamment de ressources accessibles pour mettre en évidence des phénomènes culturels réguliers qui débordent totalement des narrations historiques courantes. Il existe des récurrences dans les manières d’écrire, dans les arrangements éditoriaux des textes, dans les figures visuelles (d’où d’ailleurs la notion de “stéréotype”).

Par exemple, à partir du début du XIXe siècle, la presse française introduit un objet éditorial, le feuilleton, sorte de supplément interne au journal, où va notamment se nicher le roman-feuilleton. Ce qui est moins connu et qui a été rendu pleinement visible par la numérisation de collections très variées, c’est que la forme feuilleton va s’exporter dans une bonne partie de l’Europe continentale et sans doute au-delà mais pas dans les pays anglo-saxon.

Ces régularités constituent autant un standard documentaire qu’un fait social : à un certain moment, il va de soi que l’on va composer un texte d’une certaine façon, l’illustrer d’une certaine manière, à partir du moment où l’on souhaite aborder tel thématique et s’adresser à tel public.

À partir du moment où il est question de “régularités” et de “récurrences” il devient envisageable d’utiliser des méthodes quantitatives. On peut compter les feuilletons tout comme on peut compter les titres de romans qui mentionnent un genre précis, par exemple “roman de mœurs”, dans leur titre. Et à partir de ces décomptes l’on peut commencer à observer des tendances temporelles et/ou des répartitions géographiques.

Compter à la main de tels objets est une activité plutôt rébarbative même si elle a été pratiquée dans certains domaines (comme les media studies). La numérisation rend possible de déléguer cette activité à des outils automatisés. Dans certains cas, les calculs sont triviaux : compter des occurrences, agréger des publications, dessiner un graphe de tendance… Rapidement, il devient nécessaire d’utiliser des outils plus complexes.

Historiciser par algorithme

Certaines régularités peuvent en effet apparaître évidentes à un œil humain, a fortiori un peu familier du contexte culturel d’origine du document. Je sais reconnaître le feuilleton d’un journal presque instantanément. Créer une définition du feuilleton ou de la note de bas-de-page qui soit compréhensible pour un outil automatisé est une tâche beaucoup plus ardue — on parle aussi d’opérationnalisation. Cela suppose de réfléchir sur un regard qui semble de prime abord spontané : « qu’est-ce que je vois précisément lorsque je distingue un feuilleton ? ».

Il est possible de fournir des règles précises pour repérer les objets (c’est ce que l’on appelle une approche « rule-based ») ou au contraire de laisser l’outil informatique extrapoler les règles à partir de corpus annotés. La seconde approche a été par exemple retenue pour une tentative d’identification automatisée des notes de bas de page dans des corpus anglo-saxon du XVIIIe — une pratique éditoriale notablement différentes des notes actuelles, caractérisées par l’emploi de signes spécifiques en lieu et place des numéros.

Essai de modélisation de la note de bas de page dans Detecting Footnotes in 32 millions of pages ECCO.

J’ai eu recours à la première approche par règle pour extraire automatiquement les romans-feuilleton du Journal des débats. Le texte journalistique était alors suffisamment standardisé pour se contenter d’une définition relativement triviale (un texte, en bas du journal déparé par une marge importante — la grande barre sombre ne survit pas au processus de numérisation/ocr).

Essai de modélisation du feuilleton à partir des “marges” laissées par l’absence du séparateur dans les données de l’OCR.

J’ai d’ailleurs pu constater que cette approche cesse de fonctionner correctement à partir du début du XXe siècle, signe parmi d’autres que l’économie générale des formes journalistiques était en train de changer profondément. Mes travaux actuels visent à aller plus loin que l’identification d’une seule forme journalistique pour reconstituer l’architecture éditoriale générale de la presse quotidienne au XIXe siècle (et, idéalement, au XXe siècle), en anticipant notamment les articulations régulières en forme et sémantique du texte — par exemple, les signatures sont toujours justifiées à droite et les titres sont toujours centrés.

Essai de modélisation éditoriale de la presse quotidienne à partir de la reconnaissance des colonnes et de la justification du texte.

J’ai beaucoup insisté sur la “modélisation éditoriale” car elle constitue un exemple très parlant visuellement, mais les mêmes principes peuvent être appliquées à d’autres formes culturelles. C’est évidemment le cas depuis déjà quelques temps pour les textes, notamment à la suite des recherches pionnières de Ted Underwood sur l’usage critique et « détourné » des classifications supervisées pour interroger la construction historique de la généricité. Il est de nouveau question de partir d’une définition plus ou moins naïve de certaines catégories textuelles pour repérer les phases de formation d’un genre et l’évolution de sa composition lexicale.

Les probabilités d’attribution d’une classification anachronique des romans politiques permettent d’interroger la formation lexicale du genre (Underwood, The Life Cycle of Genres)

L’interrogation critique des modèles de classification permet de sortir d’une approche d’indexation pure pour soulever des questionnements scientifiques : où ces formes se sont-elles développées ? comment se généralisent-elles et à quels moment ? dans quel contexte éditorial ?

Le développement de la page de cinéma dans le Petit Parisien (classification automatisée de tous les exemplaires parus de 1900 à 1940)

Cette “lecture distante” peut également porter sur des régularités plus élémentaires : figures de styles, tournures, articulation récurrents de concepts. Certaines recherches plus expérimentales utilisent ainsi de nouvelles techniques de linguistique computationelle, les Word Embeddings, pour cartographier des usages poétiques sous-jacents de vastes corpus.

Degré d’anthropomorphisme de certains terme dans la poésie anglaise du XVIIIe siècle (Ryan Heuser). La “Personified Abstraction Zone” renvoie aux figures allégoriques.

Le potentiel de la classification est peut-être encore plus important pour les formes visuelles. Contrairement aux textes les images ne sont pas préalablement indexées dans les bibliothèques patrimoniales. Sauf à disposer d’un paratexte explicite elles restent généralement introuvables, et même dans ces cas-là, il est difficile d’identifier précisément des régularités visuelles, qui ne relèvent pas forcément du sujet figuré mais aussi du mode de figuration. Les nouvelles techniques de classification automatisée rendent tout simplement possible une poétique historique de l’image à grande échelle.

Les illustrations de la page de cinéma du Matin de 1927-1940 (3e panel de l’application). Tous les portraits en médaillon composent un cluster rose en bas à gauche, ce qui rend possible d’historiciser la forme.

Les méthodes informatisées s’intègrent d’autant plus naturellement dans ce projet que les régularités se déploient fréquemment sur une échelle temporelle ample. L’histoire éditoriale de la forme feuilleton commence vers la toute-fin du XVIIIe siècle et s’achève vers les années 1970 et 1980 en France (les occurrences les plus tardives que j’ai pu identifier se trouvent dans des périodiques régionaux des années 1970). Aux États-Unis la plupart des chercheurs en cultural analytics ont empiriquement acquis une expertise chronologique ample — souvent de 1800 voire 1700 à aujourd’hui.

Part des personnages féminins dans 93000 ouvrages de fictions anglais parus de 1800 à 2007 (Ted Underwood, The Gender Balance of Fiction). Ce type de recherche n’est pas contraint par les délimitations chronologiques usuelles.

Où suis-je ?

En bref, depuis quelques années, une bonne partie de mon travail de recherche consiste à “opérationnaliser” des objets éditoriaux et des concepts . Et je serais bien en peine de dire précisément à quelle discipline correspond cette activité. Ce n’est pas de l’histoire, de la littérature, de la sociologie, de l’histoire de l’art, de la linguistique ou de l’informatique mais quelque chose qui croise ces disciplines et un peu plus encore.

L’enjeu fondamental des nouvelles méthodes de lecture distante ou de cultural analytics va au-delà de l’intégration de l’outil numérique dans des pratiques de recherches préexistantes qui ne sont pas appelées à changer en profondeur. Il s’agit bel et bien de proposer une redéfinition des frontières scientifiques, principalement au sein des sciences humaines et sociales, via, notamment, l’articulation paradoxale et constante entre observation minutieuse des réalités poétiques, éditoriales et documentaires et, d’autre part, l’ambition d’historicisation à grande échelle de formes culturelles.

Les transformations les plus marquantes, de mon point-de-vue, concerne les pratiques quotidiennes de la recherche. La programmation implique inévitable une textualisation et une explicitation des regards de recherche et des méthodes de travail. Il ne suffit pas de repérer instantanément que le feuilleton est en bas de page ou que les signatures sont systématiquement alignées à droite, il faut l’exprimer clairement en pourcentage de page ou en pourcentage de colonnes.

L’ampleur des corpus analysé et le recours à la programmation implique également de repenser l’organisation de la journée. Au-delà d’une certaine taille l’automatisation n’est pas instantanée : elle peut prendre plusieurs heures voire plusieurs jours. Je constate ainsi que je suis de plus en plus amené à anticiper les tâches à accomplir pour qu’elles tournent en mon absence (notamment pendant la nuit).

Disons-le clairement ces pratiques de recherche sont encore marginales, même au sein des humanités numériques. Je suis de plus en plus convaincus qu’elles sont appelées à se généraliser. Certes, les outils sont encore mal adaptés, les compétences manquent à l’appel, les corpus plus ou moins disponibles et dans un état plus ou moins hétérogènes, mais il y a un facteur plus important : c’est très tentant. Lorsqu’on s’intéresse aux collections patrimoniales et aux archives au sens large l’on est inévitablement confronté à tout ce savoir latent que je viens de décrire. L’on se familiarise avec les règles éditoriales, les marqueurs lexicaux de la généricité (que nous avons inévitablement assimilés lorsque nous procédons par lecture flottante) ou les stéréotypes visuels que l’on se résigne à cantonner dans un vague arrière-plan culturel sans pouvoir imaginer de décrire systématiquement une telle masse documentaire en dehors de quelques échantillons ponctuels.

Reconstituer les genres romanesque sur Gallica : essai de classification automatisée de 1500 romans (1815-1850)

Au XIXe siècle, 40 235 éditions de roman ont été publiées en français d’après le Catalogue de la BNF, la plupart correspondant à des éditions uniques. De cette immense production, guère plus d’un centième est aujourd’hui connu et couramment étudié. Cette sélection radicale occulte d’importants développements de l’histoire culturelle. Près de la moitié des romanciers étaient des romancières de 1800 à 1830 : leurs œuvres ont été totalement oubliées et sont seulement en train d’être redécouvertes grâce à des projets comme deuxième texte.

Aujourd’hui, un tiers de ces éditions sont aujourd’hui numérisées sur Gallica. Peut-être près de la moitié sont disponibles en ligne toutes bibliothèques numériques confondues.

Si ce patrimoine oublié redevient accessible, il n’est pas « visible » pour autant. Il est difficile de se retrouver dans ce maquis : contrairement à d’autres productions éditoriales, le roman est historiquement peu documenté. Les textes historiques ou médicaux de la BNF sont catégorisés dans des centaines de cotes ou de classifications Dewey avec un degré de précision parfois surprenant — on peut ainsi retrouver tous les traités d’Hygiène chevaline ou toutes les biographie des prix de vertus.

Pour les romans, il n’existe aucune subdivision : il n’est pas possible de chercher toutes les fictions du XIXe siècle se situant au Japon ou dans un futur proche ou lointain. Même des genres fondamentaux, comme le roman historique ou le roman d’aventures sont introuvables.

Les nouveaux outils des humanités numériques pourraient combler ce manque. J’ai créé une application permettant d’explorer les genres de 1500 éditions de roman parues entre 1800 et 1850, selon quatre classifications canoniques à l’époque (roman historique, roman de mœurs, roman chrétien, roman sentimental) et deux classifications plus diffuses (drame, robinsonade/roman d’aventures). Des probabilités de classification sont assignées à chaque texte.

Liste des romans les plus emblématiques de chaque genre. Le menu déroulant sur la gauche permet de sélectionner un seul genre. Les liens ramènent directement sur Gallica.

L’application a pour effet indirect de faire remonter des textes méconnus. Les romans historiques les plus « roman historique » ne sont pas de Dumas mais Wat-Tyler ou dix jours de révolte ou La chute d’un grand homme doté d’un sous-titre évocateur et intrigant : Des princes norwégiens, des ruines de Rothembourg, de l’aveugle de Valence et d’une nuit au fort de Derpt.

Cette prédilection est logique : la classification met en avant les textes qui surjouent leur appartenance générique et leur maîtrise de « codes » stylistique socialement reconnu. Par contraste, Dumas procède davantage à un mélange des genres — tout en ayant une composante “roman historique” forte, la Reine Margot est plutôt classée en drame.

Les classifications retenues pour la Reine Margot d’Alexandre: le Drame l’emporte finalement sur le roman historique. Les classifications peuvent être visualisées pour tous les titres du corpus à partir du second panel.

Les coulisses de la classification

L’application s’appuie sur une classification du texte intégral des romans dite « non supervisée ». Concrètement, les récurrences dans le vocabulaire employé d’un roman à l’autre suggère des recoupements possibles. Les six classifications du modèle tendent ainsi à privilégier les mots suivants :

Termes privilégiés par le modèle de classification automatisée des romans de 1815 à 1850.

On voit se dessiner dans chacune de ces catégories des proto-romans, une sorte de canevas idéal et moyen de se que serait le roman d’aventures (un navire accostant l’île au trésor), le drame (le docteur engagea le duel à l’ombre de la cheminée) ou le roman de mœurs (la veuve propriétaire se rendant à l’opéra).

Je privilégie rarement cette approche. Moyennant un important travail en amont, la classification dite « supervisée » offre des résultats plus fiables. Ici le modèle ne crée pas ses propres catégories (qui doivent ensuite faire l’objet d’une interprétation) mais tente de les reconstruire à partir d’un corpus manuellement annoté. C’est l’approche que nous avons mis en œuvre au sein du projet ANR Numapresse pour classer automatiquement les genres journalistiques dans l’ensemble des exemplaires parus du Matin ou du Petit Parisien de 1900 à 1940.

Pour l’instant, cette méthode reste difficilement applicable aux romans du XIXe siècle : bien que les genres ou « classes » du roman soient communément discutées, je n’ai pas trouvé pour l’instant de listes ou de recensions contemporaines suffisamment larges et exhaustives pour construire un modèle (je suis d’ailleurs preneur de suggestions…)

Étrangement, cette approche serait faisable pour le XVIIIe siècle : on y trouve sans difficulté des listes détaillées de roman par genre. Dès 1719 on trouve des tables détaillées des « romans historiques » alors même que l’expression n’était quasiment pas employées. Les 240 volumes de l’anthologie La Bibliothèque universelle des romans, parue de 1775 à 1789 à se livrent même à une véritable frénésie classificatoire digne de l’Encyclopédie :

Les sujets traités par la B.U.R. se divisent en huit classes inspirées de celles de Lenglet Dufresnoy : les traductions des anciens romans grecs et latins ; les romans de chevalerie (…) ; les romans historiques (…) ; les romans d’amour, y compris beaucoup d’ouvrages contemporains dès 1780 ; les romans de spiritualité, de morale et de politique ; les romans satiriques, comiques et bourgeois ; les nouvelles historiques et les contes ; et les romans merveilleux. L’intention de traiter méthodiquement les huit classes se transforma à partir du cinquième volume, ces limites ne répondant ni aux textes disponibles ni aux désirs du public. La notation de la classe devient de plus en plus irrégulière dans les volumes qui restent, pour disparaître presque complètement dans les deux dernières années. On sent aussi des difficultés d’organisation dans certaines décisions de classement plus ou moins arbitraires1

Il y aurait sans doute des choses à dire que l’usage ou l’abandon des classifications appliquées à la littérature. Pourquoi la Bibliothèque universelle s’évertue-t-elle à maintenir tout un système de classe en révision constante alors que son continuateur de 1839, la Revue des romans, renonce d’emblée à tout essai de catégorisation ?

La classification non supervisée ne devait être qu’un test préliminaire ; elle a donné des résultats étonnamment bons. Spontanément, la quasi-totalité des titres dotés d’un sous-titre « roman historique » ou d’un sous-titre « roman de mœurs » se retrouvent rattachés à une seule des six catégories. Sans avoir aucune donnée méta-textuelle, en s’appuyant uniquement sur le contenu effectif des romans, le modèle est parvenu à déduire des appartenances globalement justifiées.

Les romans portant le sous-titre « roman historique » se retrouvent généralement classés tous ensemble — alors que le modèle n’en savait rien…

Ce n’est pas tant un succès de l’intelligence artificielle que la conséquence de la codification déjà avancée des genres romanesques au cours de la première moitié du XIXe siècle. Les catégories répertoriées, par exemple, dans l’Histoire de la littérature de Godefroy n’étaient pas que des délimitations purement théoriques : elles avaient une opérationnalité pour les autrices et les auteurs, ainsi que pour les lectrices et les lecteurs.

Tous les genres ne sont cependant pas égaux en terme de reconnaissance sociale. Sur l’ensemble de la production romanesque recensée dans le Catalogue de la BNF, l’on décompte 140 sous-titres « romans historiques » ou 46 sous-titres « romans de mœurs » ; le « roman sentimental » et le « roman chrétien » sont quasiment absents ; le « drame » et la « robinsonade » demeurent de simples propositions de recoupements du modèle, justifiée dans le second cas par la montée en puissance du roman d’aventure pendant la deuxième moitié du siècle. Le catalogue ne conserve généralement que les sous-titre utilisés dans l’œuvre elle-même mais j’ai pu constater que les maisons d’édition ajoutaient fréquemment des sous-titres généricisés à des fins promotionnelles.

Vers une reconstitution de la dynamique des genres ?

Si les six classifications que j’ai proposées ici fonctionnent correctement, elles n’épuisent absolument pas la totalité des catégorisations fondées. D’autres essais ont ainsi fait remonter des genres plus confidentiels, comme le roman maritime (occasionnellement utilisé en sous-titre) qui va ultérieurement se fondre comme la robinsonade dans le roman d’aventures. Le genre non plus romanesque mais personnel est un également facteur déterminant de la délimitation du genre. La Revue des romans ne retient en introduction qu’une unique distinction entre les romans « de femmes » et d’hommes qui rejoue, de manière caricaturale, les assignations de genre et les ségrégations sociales en vigueur dans la France de 1839 :

Par le roman, les femmes sont intervenues dans la littérature avec la grâce et la délicatesse qu’elles savent mettre à toute chose ; le choix des sujets, les sentiments, la sensibilité, même le vague de l’expression, ont été pour elles des moyens de succès ; mais dans leurs productions il faut aussi choisir. Les hommes font du roman un cadre pour tous les tableaux : l’histoire avec ses scènes tragiques, le drame bourgeois avec ses émotions, la comédie avec son langage railleur, la farce avec son gros rire, y trouvent leur place ; la terreur et la pitié, la critique de mœurs, le merveilleux, le positif, les sciences même, dans leurs détails les plus minutieux ou dans leurs résultats les plus sommaires, en un mot, le monde est le domaine du romancier.

Un autre essai de classification que j’ai mené avec Mathieu Letourneux sur un corpus de romans policiers publiés depuis 2000 portait également sur la contribution des structures éditoriales à la formation de sous-genres : il est possible de prédire l’appartenance des textes à une dizaine de collections éditoriales du policier.

La numérisation de masse et, sous réserve d’être utilisés avec un regard critique, les outils de classification automatisés éclairent ainsi d’un jour nouveau la dynamique du genre littéraire avec ses fusions et ses décantations stylistiques et, surtout, ses interactions profondes avec les réalités sociales contemporaines (des rapports de genre à la structuration économique du champ de l’édition). Cela reste très largement un work in progress, notamment dans la mesure où des pans entiers de la production romanesque restent à numériser et que les choix de numérisation ne reflètent pas nécessairement la diversité du champ éditorial.

Plus prosaïquement, ces approches nouvelles permettent de trouver des romans oubliés et de varier les plaisirs de lecture. En attendant des croisements plus ambitieux par thèmes, mon premier essai de classification fait émerger tout un tas de titres intrigants qui n’ont probablement quasiment plus eu de lecteurs entre leur parution et leur résurrection numérique sur Gallica…

  1. Fabio Marinai, « La Bibliothèque Universelle des romans », Dictionnaire des journaux, 1660-1789, http://dictionnaire-journaux.gazettes18e.fr/journal/0172-bibliotheque-universelle-des-romans

Classer l’écrit : explorer les données du Catalogue de la BNF.

En juillet 2017, la Bibliothèque Nationale de France a ouvert les données de son catalogue, créant une opportunité inédite de faire de l’analyse quantitative de longue durée en histoire culturelle.

Une information essentielle est devenue soudainement accessible : la cote, soit l’identifiant où un texte est rangé physiquement dans les lieux de conservations de la BNF. Cette cote est « signifiante ». Les romans ont été rangés en Y2, les textes de droit en F et les études d’anatomie en TA. Concrètement il devient envisageable de décompter les romans publiés chaque année depuis le XVIIe siècle et, à partir de là, de quantifier des transformations sociales de grande ampleur dans le champ littéraire, comme le fait que les romancières ont soudainement « disparu » à partir de la Monarchie de juillet.

Depuis j’ai pu récupérer la totalité du catalogue pendant tout le XIXe siècle, de 1800 à 1900. La base de données documente 3 419 594 « objets » correspondants à 568 550 identifiants du catalogue. Ce différentiel reflète l’existence de séries périodiques dispersées en un grand nombre de publications (jusqu’à 27000 pour l’Almanach de l’Indre) mais aussi, dans une moindre mesure, la conservation de plusieurs exemplaires d’une même œuvre : la première édition des Travailleurs de la Mer de Victor Hugo, elle-même découpée en trois volumes, est ainsi présente à cinq reprises à Tolbiac, et une fois à l’Arsenal, soit dix-huit exemplaires au total.

De plus les “objets” référencés correspondent à des productions éditoriales très différentes : imprimés, manuscrits, illustrés, partitions, etc. Dans le cadre de cette première exploration je me suis volontairement cantonné aux textes imprimés et édités.

Le catalogue permet d’emblée de se faire une idée générale des transformations de l’édition pendant le XIXe siècle. La série de graphes ci-dessous projette les catégories qui ont représenté à un moment donné au moins 3% de la totalité des livres publiés

Quasiment chaque graphe appellerait un commentaire. Dans l’ensemble, à quelques exceptions près (comme les thèses de Médecine), presque tous les champs sont concernés par une massification de l’édition après 1850, particulièrement sensible dans le cas de la presse ou de la production romanesque.

Malaises dans la classification

Le cas de l’Histoire de la France par règnes / régime (LB) est plus intrigant. Cette catégorie se distingue par des pics très soudains correspondants systématiquement aux changements de régimes majeurs en France : la Restauration, la Monarchie de Juillet, très notablement la Révolution de 1848, et finalement la fin du Second Empire. Est-ce que ces révolutions successives entraînent soudainement un intérêt massif pour l’histoire des régimes passés ?

Ce serait une hypothèse intrigante mais en réalité le phénomène est attribuable aux limites de la classification. La catégorie LB contient la plupart des textes qui correspondraient plutôt aujourd’hui à l’actualité politique : pamphlets, programme de tel ou tel courant, réaction “à chaud” de telle ou telle personnalité politique. Ces textes sont particulièrement intéressants et introduisent des concepts toujours fondamentaux aujourd’hui : “socialisme”, “communisme”, “extrême-droite”, etc. Mais ce n’est pas vraiment de l’histoire ou, à la rigueur, une histoire en train de se faire.

Pour avoir une idée des textes vraiment “historiques” il faut se pencher sur la catégorie LA, Histoire de France par époque (pas présente dans la série de graphe plus haut faute d’une production suffisamment importante sur le plan quantitatif). La production semble ici relativement insensible au bruit et à la fureur de la vie politique.

Ce n’est pas la seule étrangeté du Catalogue. Ce projet de classification documentaire a été en effet entrepris il y a plus de 300 ans : la première version a été émise par le bibliothécaire Nicolas Clément à la fin du XVIIe siècle (d’où le nom de Cotation Clément).

L’arbre de la connaissance de la BNF s’apparente à un étrange feuilleté temporel où les choix et les prédilections d’époques, de sociétés et de mentalités radicalement différentes doivent cohabiter dans la même structure. À l’époque de Clément la théologie était considérée non seulement comme une science mais comme la première des sciences. Les premières catégories sont naturellement affectées à ce domaine : “A” pour l’écriture sainte, “B” pour la liturgie, “C” pour les Pères de l’église, etc.

Cet ordre fondamental n’a pas varié. Les altérations les plus significatives sont intervenu au XIXe siècle dans deux domaines circonscrits : l’Histoire et la médecine. Dans les deux cas, des classifications très détaillées sont introduites, qui reflètent de nouveau un certain ordre des savoirs qui n’a plus vraiment cours aujourd’hui.

Par contraste, toute la littérature en prose reste subsumée dans l’unique catégorie “roman” ou Y2, introduite en 1730 comme supplément de la “poésie” . Aucune distinction n’est opérée entre les formes courtes et longues de la fiction. Paradoxalement, alors que les créations romanesques sont aujourd’hui très largement mises en avant par les bibliothèques, elles se trouvent reléguée à l’arrière-plan de l’arbre de la connaissance sous-jacent de la BNF.

L’arbre de la connaissance du Catalogue de la BNF (voir la version détaillée interactive)

Dans la Langue Analytique de John Wilkins, Borges ironisait sur l’arbitraire des catégories documentaires. Une encyclopédie chinoise auraient ainsi distingué les animaux selon les critères suivants : « appartenant à l’empereur, inclus dans la présente classification, qui s’agitent comme des fou, dessinés avec un très fin pinceau de poils de chameau ».

L’exercice relève à peine de la satire. Les données du catalogue permettent aussi de répondre à des questions déroutantes que personne ne s’est jamais posé. Par exemple, nous savons exactement le nombre de livres publiés sur l’hygiène chevaline pendant tout le XIXe siècle :

Malgré un énoncé prometteur, les « Maladies des gens du monde et des gens adonnés aux travaux de l’esprit » ne sont représentés que par un seul ouvrage : un traité du docteur Charles Karsner Mills édité en 1885, Mental over-work and premature disease among public and professionnal men.

Dans certains cas, les catégories procèdent à des rapprochements étonnants, tel que « Véhicules. Éclairage. Montgolfières. », sans doute ici reliés par un effet de modernité attaché à ces étonnantes machines volantes ou éclairantes au cours du XIXe siècle, même si en pratique cette dénomination s’est finalement avérée assez peu commode.

Les « Biographies des prix de vertus » ont eu un peu plus de succès même si elles ont été bien peu numérisées. De cette production pas négligeable (230 “exemplaires” au total), seul les Prix de Vertu fondés par M. de Montyon sont disponibles sur Gallica.

Visualiser l’effet performatif des catégories avec des “bibliothèques virtuelles”

Dans une bibliothèques les catégories s’incarnent matériellement dans l’espace : quoi que l’on puisse penser de la pertinence de ces classements, les romans sont rangés avec les romans et les Biographies des prix de vertus avec les Biographies des prix de vertus. Le dispositif a une portée éminemment performative qui fait encore sentir ses effets aujourd’hui.

Les cotes n’incluent pas seulement le “lieu” générique du rangement mais aussi potentiellement l’emplacement physique du document. La première édition d’Une Ténébreuse Affaire de Balzac (1842) occupe ainsi la cote 8-Y2-28589 (soit l’emplacement n°28589 des romans en format in-octavo), entre « Élisa de Mérival, ou Mémoires d’une jeune femme » de César du Bouchet (1819) et « Le Forçat colonel » de Fortuné de Boisgobey (1871).

Il n’est pas totalement assuré que l’ordre de succession des documents de la cote corresponde encore aujourd’hui à une succession effective dans les rayonnages. La numérisation des catalogues dispense peut-être d’organiser les rayons thématiquement. Néanmoins, cet ordre a été fonctionnel à un moment donné.

Il serait ainsi possible de reconstituer la disposition des documents dans l’espace. La visualisation ci-dessous déploie des rayonnages fictifs, à raison de vingt-cinq documents par étagères et de quatre étagères par bibliothèque pour tous les romans (Y2) entre la cote 43 000 et 43 500. Le document est coloré en vert s’il a été numérisé sur Gallica et en rouge autrement1.

Essai de Bibliothèque virtuelle. Chaque rectangle est un document, chaque ligne orange délimite une étagère “imaginaire” de vingt-cinq documents et chaque bibliothèque se compose de quatre étagères (voir la version interactive — attention le temps de chargement peut être long…)

Cette disposition régulière est purement imaginaire. En raison de la variété des documents, aucune bibliothèque ne peut être si ordonnée. À défaut la visualisation donne une idée de la “pesanteur” matérielle des catégories et des liens de proximité que dessine la bibliothèque entre les documents.

Pour l’instant ma visualisation ne relève que d’une petite expérience de pensée mais, moyennant un peu de développement, elle pourrait être généralisée à l’ensemble du catalogue. Nous pourrions imaginer une bibliothèque numérique d’un nouveau type, une “bibliothèque virtuelle”, qui rendrait de nouveau visible cet ordre sous-jacent qui conditionne encore aujourd’hui nos modes de lecture.

À supposer qu’elle existe réellement sous cette forme, la bibliothèque virtuelle est par définition “cachée” aux yeux du lecteur ordinaire : elle ne s’incarne au mieux que dans les coulisses et les magasins de la bibliothèque. La même approche peut aussi permettre de cartographier des lieux plus accessibles. Les données détaillées du Catalogue précisent également si un document est placé ou non en libre accès dans une des salles des sites de la BNF. À partir de là nous pouvons également tenter de repérer quels sont les salles du site principal qui mettent à disposition le plus de documents du XIXe siècle : sans trop de surprise ceux-ci se trouvent principalement dans le Rez-de-Jardin et, très notablement, dans la salle Histoire (L).


L’inertie des catégories documentaire dans le “numérique”

Les effets de ces dispositifs sont en effet toujours perceptibles dans l’espace a priori “dématérialisé” des bibliothèques numériques. Alors certes, l’ordre de consultation est totalement déliée des classements thématiques et même la structure des données ne les reflètent plus : sur Gallica, l’édition 1842 d’Une Ténébreuse Affaire est cataloguée comme “bpt6k68897j”, un identifiant purement arbitraire qui dispense de s’interroger a priori sur la classification documentaire.

Pour autant, tout n’est pas numérisé et les choix de numérisation semblent dépendre directement des anciens dispositifs de rangement. Toutes les catégories ne sont pas égales : le droit, les biographies, la poésie ou notre catégorie bigarrée d’actualité politique/histoire et, dans une moindre mesure le roman sont bien représentées avec souvent plus de la moitié des textes numérisés par années. Inversement le théâtre, l’histoire constitutionnelle, les sciences philosophiques et morales ou, surtout, les “thèses de médecine” ont été plutôt délaissés La sélection est parfois uniquement “documentaire” : les collections particulières, généralement des legs entiers hétérogènes, sont assez bien numérisées.

Tous ces choix ne sont pas facilement explicables : il s’y mêle sans doute à la fois des questions de prestige et/ou des besoins de recherche plus fortement exprimés dans certains domaines que dans d’autre (de la même manière que l’ontologie du catalogue est considérablement plus précise en Histoire et en Médecine que dans n’importe quel autre domaine). En tout cas, l’existence d’un tel différentiel suggère que les catégories conservent une part d’opérativité et peuvent avoir servi de point de départ pour déterminer des stratégies de numérisation.

Au-delà de l’impact “macroscopique” des grandes entrées thématiques il existe également un effet “microscopique” plus aléatoire. D’après un bibliothécaire dans certains cas la numérisation correspondait à une intention précise (tel que la saisie exhaustive de la production d’un auteur ou d’une collection éditoriale) mais dans d’autres « on prenait juste une étagère ». La projection du catalogue sous forme de bibliothèque virtuelle permettrait peut-être d’identifier ces cas de numérisation collective. Pour l’instant, en explorant les cotes des roman de 40 000 à 50 000 je n’ai rien trouvé d’absolument concluant même si les numérisations parfois à arriver “par grappe” après de longues séquences de documents non numérisés.

Dans les deux cas l’incidence des catégories serait très concrète : elles affectent la recherche textuelle. Parce qu’il y a eu une démarche de numérisation plus exhaustive au sein de cette cotation ou parce qu’une étagère a été prise, un texte sera présent ou absent. En raison de ces conditions de visibilité ou d’invisibilité les requêtes dans les moteurs de recherches peuvent générer des résultats de recherche différents, et affecter potentiellement les interprétations et hypothèses.


  1. À noter que j’ai également “déplié” les publications en volumes ou en série, ce qui peut se traduire parfois par une répétition de la cote

Les femmes ont-elles disparu de la littérature en 1830 ?

Parallèlement au processus général de “féminisation” des professions, il y a des activités où les femmes disparaissent. L’informatique constitue un cas emblématique : alors que de nombreux pionniers étaient des pionnières, le sex-ratio est de plus en plus déséquilibré depuis trente ans. Dans les universités américaines, le part d’étudiantes en computer science serait passée de 35% en 1984 à moins de 20% aujourd’hui.

Ce phénomène de dé-féminisation n’est pas une anomalie isolée. Une excellente rétrospective historique de Béatrice Cherrier montre que les femmes ont de plus en plus été marginalisées dans les sciences économiques entre les années 1930 et les années 1970 (avec un taux de docteures passant de 20% à 4% entre les années 1920 et les années 1950).

Et il y a la littérature…

L’effacement de la femme auteur

Le graphe ci-dessous représente la proportion de publications signées d’une romancières de 1700 à 1900 d’après les données croisées de Data BNF et du catalogue de la BNF (voir la base complète déposée sur Github).

Taux de romancières dans data bnf

Nous retrouvons un schéma comparable à ce qui s’est produit en informatique ou dans les sciences économiques — sauf que tout se passe un siècle plus tôt. La littérature française s’est déjà largement féminisée au début du XIXe siècle, avec une quasi-parité atteinte pendant la décennie 1810. Après 1830, les romancières disparaissent : nous arrivons à des taux résiduels typiques d’activités fortement masculinisées (entre 10-20%).

Ces chiffres corroborent de nombreuses recherches consacrées à l’émergence (puis à l’occultation) de la “femme auteur” au XIXe siècle depuis la parution de l’étude classique de Christine Planté “La Petite sœur de Balzac” en 19891 . Planté montre en particulier que la visibilité croissante des romancières à partir de la Révolution débouche sur une série de procès en délégitimation contre ces “bas-bleus” (p. 10-13).

Dans ce processus d’effacement les instances de légitimation jouent un rôle particulièrement trouble : l’histoire littéraire tend à minimiser systématiquement la part réelle des écrivaines : “plus une histoire littéraire est courte, plus les femmes s’en voient exclues — plus massivement, semble-t-il, que des hommes écrivains mineurs2 .”

Ces interprétations peuvent s’appuyer sur de nombreux indices concordants, mais assez peu de chiffres. Quelques estimations attestent de la féminisation de la littérature à la fin du XVIIIe siècle (par exemple, pour Carla Hess, il y avait 206 écrivaines éditées entre 1754 et 1788, contre 329 de 1789 à 1800). Pour l’instant, il ne semble pas exister de quantifications globales qui attesteraient des phases successives d’émancipation et d’élargissement :

Première difficulté assumée de la présente démarche que l’obtention de chiffres concernant la production littéraire des femmes ou la part de femmes de lettres parmi les gens de lettres au cours du XXe siècle. Je n’ai, jusqu’à ce jour, trouvé aucune étude livrant ce chiffre sur l’ensemble du siècle et tous genres confondus ou même distingués3 .

Notre analyse quantitative porte pour l’instant sur la totalité des XVIIIe et XIXe siècle : nous intègrerons le XXe siècle ultérieurement.

Explorer l’ensemble des romans documentés par la BNF

L’idée de cette exploration de données m’est venue à la suite de la parution d’une étude similaire menée par Ted Underwood sur la littérature anglaise du XIXe siècle. The Gender Balance of fiction part d’un constat similaire à celui des recherches francophones sur la femme auteur : la féminisation n’est pas un processus continu et irréversible. Underwood repère également un temps d’exclusion mais il est beaucoup plus tardif : la fin du XIXe siècle (plutôt que les années 1830).

Proportion des livres de fiction écrits par des femmes (Underwood)

Dans cette optique de “longue durée”, la vague féministe des années 1970 constitue au mieux une restauration après une phase durable de marginalisation :

There is a clear decline from the nineteenth century (when women generally take up 40% or more of the “character space” in fiction) to the 1950s and 60s, when their prominence hovers around a low of 30%. A correction, beginning in the 1970s, almost restores fiction to its nineteenth-century state. (One way of thinking about this: second-wave feminism was a desperately-needed rescue operation.)

Il est techniquement possible de mener une analyse similaire en France depuis… la semaine dernière. BNF vient d’ouvrir (en bêta) un nouveau service expérimental d’accès à son catalogue par API. Or, les cotes dans lesquels sont rangés les exemplaires sont “signifiantes” : il s’agit de la cotation Clément du nom du bibliothécaire du XVIIe siècle.

La première version de cette classification privilégiait les productions intellectuelles au détriment des productions littéraires (reléguées à la seule catégorie Y, “Pœtæ”). Ce biais s’est graduellement corrigé par la suite : en 1730, les bibliothécaires introduisent une cotation spécifique pour les romans, Y2 (pour Y bis) ; au cours du Second Empire, la classification est réorganisée de fond en comble, avec des cotes beaucoup plus précises pour les ouvrages d’histoire.

Avec l’API j’ai pu récupérer la totalité des métadonnées des publications rangées dans la cote Y2 publiés entre 1700 et 1900. Évidemment je suis tributaire des choix effectués par les bibliothécaires au fil des siècles mais la définition élémentaire du genre “roman” (texte long de fiction en prose) est suffisamment pérenne et englobante au cours de la période pour être opératoire.

Pour mes premières explorations de données, je me suis concentré sur la littérature de la Restauration — une période que je connais bien et avec suffisamment peu d’entrées (200 en moyenne par an) pour que je puisse regarder les données en détail. Un phénomène m’a tout de suite intrigué : la part élevé d’autrices. Pour l’année 1816, la parité est parfaitement atteinte (avec 38 vs. 36 publications).

L’élaboration complexe d’un taux de romancière

Les données du catalogue ne disent rien du genre des auteurs mais elles peuvent être reliées à l’entrepôt de métadonnées de la BNF, Data BNF : les identifiants du catalogue (par exemple cb30911497p pour “Caroline ou les inconvénients du mariage”) sont les mêmes que ceux des éditions. Ces fichiers sont en libre accès mais difficilement maniables pour un ordinateur personnel. Pour rattacher les auteurs/autrices à chaque œuvre, il faut effectuer quatre jointures successives entre la base de données des personnes (“databnf_person_authors”), la base de données des contributions (“databnf_contributions” : elle indique quel est le rôle joué par chaque personne dans l’élaboration de la publication), la bases de données des éditions (“databnf_editions”) et, enfin, notre compilation des romans issues du catalogue. Les trois premiers fichiers ayant une taille de plusieurs gigaoctets, j’ai effectué pour un pré-traitement en python afin de les rendre manipulable dans R.

À terme, nous obtenons un tableau listant les 47300 interventions de chaque auteur pour chaque “édition” de 1700 à 1900. Il y a eu un peu de déperdition au passage : un certain nombre de romans (10-20%) n’ont pas de fiches correspondantes dans data bnf. Par ailleurs, comme le sex ratio peut être déformé par la parution de “classiques”, nous avons tenté de ne garder que les auteurs “récents” relativement à la date de parution (soit pas plus tard que cinq ans après leur décès) et limité le champ des “rôles” défini par la BNF à l'”auteur du texte” (code 70).

Cette nouvelle version du graphe montre les agrégations par cinq ans. Il y a beaucoup de “bruit” pendant tout le XVIIIe siècle, en raison d’une production annuelle beaucoup plus limitée. Par contraste, la tendance au XIXe siècle est nette. L’essor est continu depuis la Révolution (13% des “interventions” pendant les années 1790, 33% pendant les années 1800, 46% pendant les années 1810) : tout ceci corrobore parfaitement l’intuition exprimée dès 1811 par Félicité de Genlis sur “le nombre effrayant de femmes auteurs” (De l’influence des femmes sur la littérature française, p. XXIV).

Le déclin est très brutal (31% pendant les années 1820, 12% pendant les années 1830). L’accroissement de l’ensemble de la population des auteurs ne suffit pas à l’expliquer : en chiffre absolu, le nombre de publications avec au moins une autrice régresse (de 251 en 1820 à 171 en 1830) tandis que celui des publications masculines augmentent très fortement. Et l’évolution est trop rapide pour être attribué à un changement de génération : des femmes cessent soudainement d’écrire.

L’effacement des romancières a-t-il une incidence sur l’écriture romanesque ?

Les thèmes dominants des romans de 1816 le suggère. Contrairement aux autres années, où je me suis limité à reprendre les données de data BNF (ce qui peut inclure des oublis ou des duplications) ici j’ai tenté de retrouver systématiquement des versions numérisées ou, à défaut, des résumés détaillés de l’ensemble de la production romanesque. Les points de vue féminin sont bien représentés avec des titres comme “Caroline, ou Les inconvénients du mariage”, “Cécile, ou l’Élève de la pitié” (numérisé sur Internet Archive), “Irma, ou les Malheurs d’une jeune orpheline” (numérisé sur Internet Archive), “Nolbertine, ou les Suites du pélerinage”, “Valsinore, ou Le coeur et l’imagination” (numérisé sur Google Books), “La vierge de l’Indostan” (numérisé sur Gallica)… L’année se caractérise également par une réception française significative des romans de Jane Austen (avec des traductions d’Emma, de Mansfield Park…).

Mon estimation est ici limitée à une seule année mais Ted Underwood est habilement parvenu à étendre cette analyse à deux siècles. Des outils de reconnaissances d’entité nommées encore indisponibles en français (BookNLP) ont permis d’identifier automatiquement les personnages féminins de près de 100 000 romans. Sans surprise, dès lors que la proportion de romancière régresse, les mondes romanesques se “dé-féminisent” : nous retrouvons exactement les mêmes tendances que dans le précédent graphe d’Underwood.

Part des “caractérisations féminines” dans 100 000 fictions en anglais parus entre 1800 et 2007 (Ted Underwood).

Ce type d’approche a le mérite de souligner que le discours romanesque est perméable à la répartition des genre dans le champ littéraire. La disparition de femmes “réelles” marque aussi la disparition de femmes de fiction potentielles — ou une transformation de leur statut et de leurs caractérisation. Cette répartition conditionne également les manières d’instituer la féminité et — et je pense que cet aspect reste encore sous-estimé — la masculinité. Les romancières de années 1800-1830 abordent volontiers les enjeux et les troubles de l’identité masculine, d’où ce titre très parlant dans ma recension de 1816 “Lucien de Murcy, ou le Jeune homme d’aujourd’hui” d’Elisabeth Brossin de Mélé (non numérisé) mais aussi les premières fictions à aborder, à mots couverts, la question de l’homosexualité en société (Olivier de Claire de Duras).

L’industrie culturelle contre les femmes ?

La marginalisation post-1830 est presque trop complète pour être seulement expliquée par une réaction masculine. Je suis assez tenté d’y voir une corrélation avec l’industrialisation de la culture. La production romanesque amorce un premier décollage à partir des années 1840 (sans doute en partie tiré par les succès des romans-feuilletons) et atteint une croissance spectaculaire pendant le Second Empire.

Production romanesque de 1700 à 1900

Cette industrialisation implique un rapprochement des milieux littéraires et des milieux économiques et financiers — milieux d’où les femmes sont de facto exclus. Elles n’ont ni le droit d’ouvrir un compte en banque, ni le droit d’entrer à la Bourse — et bientôt sont de facto exclues des nouvelles structures de la profession organisant la répartition de ces flux. Lors de sa création la Société des gens de lettre comptait une femme (George Sand). Aucune femme ne sera plus admise avant… 1907.

Un champ d’activité quasi-paritaire vers 1815 se trouve ainsi représenté vers 1840 par une institution uniquement masculine. En trente ans, les femmes de lettres ont disparu : en proportion elles ne sont plus grand chose, en représentation elles ne sont plus rien.

  1. Pour un bon aperçu de ces travaux, voir l’introduction de la thèse d’Ève-Marie Lampron, “Entre cohésions et divisions : les relations entre femmes auteures en France et en Italie (1770-1840)
  2. Christine Planté, “La place des femmes dans l’histoire littéraire : annexe, ou point de départ d’une relecture critique ?“, Revue d’histoire littéraire de la France, vol. 103
  3. Audrey Lasserre, “Les femmes au XXe siècle ont-elles une histoire littéraire”, Cahiers du CERACC, p. 41

L’exception Text & Data Mining sans décret d’application…

L’information vient d’être relayée sur Twitter (et n’a apparemment pas encore fait l’objet de publication par ailleurs) : le conseil d’État a rejeté le décret encadrant l’exception au droit d’auteur pour la fouille de texte et de données (Text & Data Mining) à des fins scientifiques.

Ce rejet n’est pas définitif : la loi prévoit de toute manière un décret (“Un décret fixe les conditions dans lesquelles l’exploration des textes et des données est mise en œuvre”). En attendant, cela limite considérablement l’application concrète de l’exception.

Que peut-on faire en attendant ?

Le principe de base demeure : il n’est pas illégal, au regard du code de la propriété intellectuelle, de constituer des “copies ou reproductions numériques réalisées à partir d’une source licite, en vue de l’exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale.”

Par exemple, j’ai extrait automatiquement plusieurs centaines articles de presse pour un projet de recherche sur le débat européen autour de la Liberté de panorama (notamment à partir de la base de données Europresse, à laquelle mon université est abonnée). J’étais alors potentiellement dans l’illégalité si je n’en faisais pas un usage strictement privé (par exemple en communiquant les copies à des collaborateurs). Aujourd’hui ce ne serait a priori plus le cas.

Par contre, en l’absence de décret d’application, les propriétaires des contenus ne sont tenus en rien de fournir ces corpus aux chercheurs ; ils ont même toute latitude de bloquer les extractions automatiques (en invoquant la nécessité de “protéger” le site des requêtes excessives). En somme, l’exception lève le risque juridique lié à l’utilisation de copies licites pour la fouille de donnée ; elle ne permet pas de récupérer ces copies (qui requièrent des arrangements contractuels au cas par cas).

Que prévoyait le décret ?

Le décret d’application visait à corriger cette déficience. La dernière version en date (republiée pour l’occasion sur Sciences Communes) correspond à un texte de compromis. La préservation de la “sécurité” des infrastructures face à des requêtes multiples ne peut servir d’argument pour entraver excessivement l’extraction : les détenteurs des droits (généralement des éditeurs) peuvent “appliquer des mesures destinées à assurer la sécurité, la stabilité et l’intégrité des réseaux et bases de données, dès lors qu’elles n’excèdent pas ce qui est nécessaire pour atteindre ces objectifs”.

Les établissements de recherche sont de plus habilités à conserver “sans limitation de durée les copies techniques produites dans le cadre de l’exploration de textes et de données”. L’objectif est d’éviter de mener d’effectuer des extractions multiples (alors que des corpus peuvent avoir déjà été constitués).

Qu’est-ce qui va suivre ?

Pour l’instant, l’argumentaire du Conseil d’État n’a pas encore été publié. Il sera intéressant de voir quelles dispositions du décret ont motivé le rejet (et, par contraste, quelles dispositions sont appelées à être reprises dans un futur décret).

Il semblerait également qu’une voie intermédiaire entre arrangement contractuel et cadre général soit également envisagée, sous la forme de “protocoles d’accords” intégrés dans les contrats entre les institutions de recherche et les éditeurs. Tout ceci risque de complexifier grandement la mise en œuvre de l’exception (rien ne garantit que les protocoles soient rendus publics, ni qu’ils soient systématiquement identique d’un contrat à l’autre…).

À plus long terme, une exception similaire est très sérieusement envisagée au niveau européen. Le principe d’un droit de fouille de textes et de données semble faire l’objet d’un relatif consensus : le débat porte davantage sur son extension au-delà du monde de la recherche (pour tous les usages non-commerciaux, voire pour des usages commerciaux). Le rapport Comodini, qui correspond déjà à un texte de compromis entre les différentes options retenues par le parlement européen, propose ainsi d’étendre le périmètre de l’exception à “l’innovation” (Amendement n°3) et non uniquement à la “recherche scientifique”.

Les bibliothèques numériques sont-elles représentatives ?

Au terme de 20 ans de programmes de numérisation, les bibliothèques numériques atteignent des dimensions colossales : il y a 4 millions de documents en libre accès sur Gallica et 5 millions sur son équivalent américain, Hathi Trust.

Et pourtant “colossal” ne veut pas dire “représentatif”. Certains référendums en ligne illustrent bien cette nuance : tout en récolant parfois beaucoup plus de réponses que les sondages classiques, ils sont notoirement moins fiables. Ils mesurent surtout la propension de certains groupes politiques à se mobiliser pour y répondre — quand ils ne sont pas complètement détournés par des votes multiples, avec ou sans robots…

Si elle n’est pas détournée par des groupes de pression, la numérisation n’est non plus une activité purement “aléatoire”.  Elle découle la conjonction de choix documentaires, déterminés par plusieurs contraintes ou opportunités externes : “prestige” ressenti du corpus, état de conservation, articulation avec des projets de recherche, intégration dans des dispositifs d’indexation antérieurs — sans compter les restrictions budgétaires qui amplifient tout le reste…

Cet enjeu méthodologique de la représentativité déborde complètement du cadre des humanités numériques. La recherche par mots-clés dans les bibliothèques numériques s’est généralisée, devenant pour de nombreuses études une porte d’entrée par défaut. Sans même tenter de quantifier les occurrences, la consultation prioritaire des documents qui “remontent” dans le moteur de recherche affecte notre perception de l’objet ou du corpus étudié — même si cela n’exclut en rien des des retours critiques ultérieurs.

Transformer le Catalogue de la BNF en une collection de fichiers csv

Dans le cas de Gallica, une excellente ressource permet de lever un coin de voile : Data BNF. Dans la continuité du mouvement d’ouverture des données culturelles, une grande partie des métadonnées de la BNF est aujourd’hui disponible sous une licence ouverte.

Le format utilisé (du web sémantique en RDF) se prête bien à l’indexation de relations complexes. Typiquement, un livre peut avoir plusieurs auteurs, qui peuvent avoir contribué à plusieurs livres — sachant qu’il existe tout un dégradé de “contributions”, de la rédaction de l’ensemble du livre, à celle de sa préface, en passant par la coordination d’un ensemble textes dans le même ouvrage.

Exemple d’entrée RDF d’une édition dans Data BNF

Ce format complexe ne se prête pas très bien à l’analyse de données sur un ordinateur personnel (raison pour laquelle, la BNF met à disposition un point SPARQL) Notamment, les fichiers sont très volumineux (20 gigaoctets pour l’ensemble des “éditions” : soit bien au-dessus des capacités standards de mémoire vive) et rangés de manière arbitraire (apparemment l’ordre dans lequel les documents ont été rentrés dans le catalogue de la BNF).

Avec un petit script en python, j’ai procédé à l’extraction des principales métadonnées de toutes les éditions antérieures à 1900. Chaque édition a été rangé dans un document en csv correspondant à une année. La collection complète peut être téléchargée par ici : elle compile les métadonnées de 1665095 éditions et “pèse” 400 mégaoctets (100 mégaoctets en version compressée). Chaque année peut être ouverte dans un tableur classique de type excel, même si l’application risque de tousser un peu à mesure que l’on se rapproche de l’année 1900.

Extrait de la collection de fichiers csv

À noter qu’il s’agit ici des éditions et non des œuvres : un même écrit peut figurer à plusieurs reprises. Il existe bien un recensement des œuvres en RDF mais il est pour l’instant très incomplet. Pour l’instant les auteurs ne sont pas mentionnés : c’est au programme d’une version future — il faudrait que je croise les documents csv avec le fichier RDF des “contributions” et celui des “auteurs”. Enfin, j’ai laissé les années telles qu’indiquées et les documents antérieurs à 1000 sont manipuler avec précaution : la BNF utilise apparemment des abréviations (19…) en cas d’imprécision.

Une couverture variable selon les époques

Il y aurait beaucoup d’enseignements à tirer de cette collection mais nous nous limiterons ici : quelle est la représentativité de Gallica au regard du catalogue de la BNF ? Toujours avec un petit script en python, nous pouvons extraire le nombre d’éditions du catalogue de la BNF disposant également d’un lien sur Gallica (qui correspond à la propriété rdarelationships:electronicReproduction en RDF).

Au total, 17,56% des éditions sont numérisées sur Gallica. C’est loin d’être négligeable : il ne s’agit que d’une seule bibliothèque.  En prenant en compte la totalité des publications disponibles sur l’ensemble des bibliothèques numériques, nous ne sommes peut-être plus très loin de cet objectif utopique : accéder à la totalité des documents imprimés dans le domaine public.

Cette proportion n’est pas uniforme dans le temps. Le graphe ci-dessous témoigne de variations substantielles : de 3% en 1530 (24 éditions numérisées sur 785) à… 31% en 1731 (813 éditions numérisées sur 2574) :

Editions du Catalogue de la BNF numérisées dans Gallica

Ces variations ne sont pas purement arbitraires. La tendance globale (représentée ici avec une courbe de régression en méthode Loess) témoigne de l’existence de trois “périodes” distinctes : des taux initialement bas en hausse constante pendant les XVe, XVIe et XVIIe siècles ; un palier élevé, supérieur à 20%, pendant tout le XVIIIe siècle ; un déclin continu amorcé à partir de la Révolution française.

Il n’y a sans doute pas d’explication simple à ces tendances mais je serai tenté d’y voir la conjonction de deux phénomènes : les documents anciens sont probablement plus coûteux à numériser (notamment en raison de leur fragilité) ; à mesure que l’on se rapproche de 1900, la production documentaire s’accroît fortement (et l’on commence à voir poindre les incertitudes sur le droit d’auteur). Entre ces deux écueils, le XVIIIe siècle constituerait un optimum de représentativité.

Sauf que… Nous avons jusqu’ici considéré le Catalogue de la BNF comme une référence absolu (à laquelle se mesurait plus ou moins bien Gallica). Rien n’est si simple : le Catalogue hérite lui-même d’une longue histoire assez passionnante, qui se confond avec celle du dépôt légal. Bien que théoriquement établi au XVIe siècle, le dépôt légal est très mal appliqué en pratique jusqu’au début du XIXe siècle : le progrès des techniques d’indexation permet alors d’établir cette remarquable base de données périodique qu’est la Bibliographie de la France.

Nombre d’éditions dans le Catalogue de la BNF

Si le catalogue s’approche d’un niveau d’exhaustivité idéal pendant les XIXe et XXe siècle, rien n’est moins sûr en-deçà. Une rapide inspection de l’année la plus représentative, 1731, instille le doute. Parmi les documents numérisés, nous trouvons beaucoup de cartes et d’arrêts du conseil d’État. Ils n’est pas totalement exclu que ces éditions n’ont été intégrées au Catalogue de la BNF qu’à l’occasion de leur inclusion dans Gallica…

Titre des éditions numérisées sur Gallica en 1731
Titre des éditions numérisées sur Gallica en 1731

Dans la mesure où elle entraîne une redéfinition des notions de “texte” ou d’éditions, la numérisation concourt peut-être à “créer” (ou du moins “instaurer”) des documents. Dans une bibliothèque, un arrêt n’est qu’une feuille volante qui ne va pas nécessairement être signalé dans les catalogues. Dans un système informatique, il devient un document comme un autre.

Gallica préfère les textes longs

Il existe une autre manière de mesurer la représentativité avec les données dont nous disposons : par le nombre moyen de page. Cette donnée figure souvent (mais pas toujours)  dans champ “description” et peut être extraite systématiquement à l’aide d’une expression régulière (ici avec R) :

scan_years %>%
 mutate(page_number = str_match(description, "(\\d+) ?p\\.")[,2]) %>%
 filter(!is.na(page_number)) %>%
 mutate(page_number = as.numeric(page_number))

Sur la période 1815-1870, le nombre moyen de pages des éditions numérisées est presque systématiquement plus élevé. Le différentiel avec les éditions non numérisées atteint même 30-40 pages pendant le Second Empire.

Les documents numérisés sur Gallica ont une pagination plus élevée

Cette préférence structurelle pour le texte long pourrait découler d’une préférence pour les grandes monographies. D’expérience, je retrouve bien plus souvent des textes romanesques, des traités scientifiques ou des annuaires que de petits opuscules ou pamphlets.

Comment “construire” la représentativité ?

Je pourrai poursuivre cet exercice avec d’autres données (notamment les éditeurs ou les lieux de publication, en attendant les auteurs), mais il deviendrait vite un peu frustrant. Deux informations essentielles manquent toujours à l’appel : les “genres” et les “sujets” abordés. La BNF dispose certes d’un référentiel prévu à cet effet, le RAMEAU. Il reste très peu employé pour les documents antérieurs à 1900 : dans le point SPARQL de Data BNF, quasiment aucun “roman” n’apparaît avant 1850. Or, manifestement, les variations constatées dans le temps ou sur le nombre de pages découlent au moins pour partie de prédilections plus ou moins explicites en faveur de tels ou tels corpus.

La représentativité reste encore aujourd’hui à “construire”. Elle ne peut uniquement s’adosser à des outils documentaires préexistants (qui sont eux même faillibles et incomplets) : il faut également repartir des textes eux-mêmes.

C’est là l’intuition fondamentale de la lecture distante. Chaque texte porte en quelque sorte sa “carte d’identité” : le lexique employé constitue une série d’indices stylistiques ou sémantiques permettant de classer et d’indexer le document. Une équipe de recherche américaine, coordonnée notamment par Ted Underwood, est ainsi parvenue à “cataloguer” automatiquement 13 millions d’ouvrages (dans le domaine public et sous droit d’auteur) d’Hathi Trust à partir du décompte du lexique. À partir de ces corpus libre accès, il devient envisageable, par exemple, d’observer la sédimentation sur le temps d’un genre littéraire comme la science fiction :

Probabilité d'attribution à la science fiction (Underwood, The Life Cycle of Genres)
Probabilité d’attribution à la science fiction (Underwood, The Life Cycle of Genres)

Ces nouvelles approches ne nécessitent pas seulement de lever des barrières techniques mais aussi légales. La revendication de droits de propriété intellectuelle sur des textes dans le domaine public (ou copyfraud) s’accompagnent bien souvent de restrictions contre le téléchargement.

Gallica restreint ainsi l’usage commercial des documents numérisés. Il n’existe pas d’API ou de dumps (soit de collections textuelles complètes) de Gallica : l’application Pyllica que j’avais développé avec Julien Schuh contourne cette difficulté en extrayant directement les pages web1 . À contrario, les métadonnées sont disponibles sous licence ouverte sur data BNF (et peuvent être téléchargées en une seule fois).

Néanmoins les bibliothèques numériques réduisent graduellement ces restrictions indues, en partie pour tenir compte de ces nouveaux enjeux. Alors que le copyfraud tend à s’insinuer dans la loi (notamment au travers de la Loi Valter), les bibliothèques passent graduellement à “une libre diffusion du domaine public numérisé” (ce qu’illustre notamment la conversion récente de la Bibliothèque de l’INHA à la Licence ouverte). Pour mes projets de recherche sur la presse quotidienne nationale, j’ai la chance de disposer du corpus Europeana Newspaper (disponible sous forme de dumps complets sous licence CC0).

Dans ce contexte, la levée de ces barrières et enclosures devient un enjeu scientifique majeur. La plupart des publications du domaine public sont peut-être aujourd’hui disponibles en ligne mais nous ne le savons pas. Pour être visibles et correctement indexés, ces immenses corpus doivent devenir mobiles : circuler librement d’un projet de recherche à l’autre, d’une infrastructure à l’autre et être continuellement enrichis au gré de ces passages.

  1. Pyllica va d’ailleurs bientôt recevoir une mise à jour substantielle : stay tuned

De Trump à Léophane : d’une débâcle journalistique à une victoire désinformationnelle ?

[Analyse écrite à quatre mains]

Le 1er février, Le Monde lançait en fanfare un outil de vérification de l’information, Decodex. Dix jours plus tard, une adresse IP du journal s’est retrouvée bloquée pendant neuf mois sur Wikipédia pour… avoir introduit de fausses informations sur l’encyclopédie libre. Le journaliste scientifique du Monde, Pierre Barthélémy, a en effet créé (et laissé en place pendant plusieurs semaines) un article presque entièrement faux, consacré à un philosophe grec méconnu, Léophane. Le but de Pierre Barthélémy : faire “une expérience pour un article sur la vérifiabilité des infos sur Internet à l’heure des fake news”.

Quel lien entre la controverse autour de Decodex et les agissements de P. Barthélémy ? Certes ces deux événements ne sont pas directement liées. Mais les deux s’inscrivent dans un contexte particulier : le sentiment d’évoluer dans une « ère post-vérité » où l’exactitude des informations est sans importance et où toutes les sources se valent quelles que soient leurs approches de qualité des informations. Le point de départ de Decodex — aider les lecteurs du Monde à “se repérer face à une vague toujours plus forte de fausses informations” — et la prétendue exploration de P. Barthélémy semblent ainsi complémentaires. Nous ne commenterons pas ici la démarche de Decodex.

Nous avons demandé un droit de réponse au Monde spécifiquement après la publication d’un article par P. Barthélémy où il détaille son approche. Notre positionnement est multiple : scientifiques, éditorialistes et contributeurs à Wikipédia, nous identifions de graves problèmes dans la démarche de P. Barthélémy. Ces manquements sont aussi bien en amont qu’en aval de la publication de son article. La gravité des faits commis par P. Barthélémy et le manque apparent d’évaluation de l’impact de ses agissements s’ajoutent à l’outrage qui est le nôtre et celui de collègues, constaté à travers diverses discussions ces derniers jours.

Quels problèmes cette démarche pose-t-elle ?

On lit dans son article que P. Barthélémy place clairement sa démarche sous des auspices politiques : “L’idée m’est venue à l’automne dernier, lors de la campagne présidentielle américaine, marquée du sceau de la « post-vérité » et des « fake news ».” En décembre 2016, le journaliste crée donc une entrée sur Léophane. Il s’agit d’un obscur philosophe grec ayant véritablement existé. Pourtant, la page sur Léophane contient un mélange d’informations vraies et inventées. Barthélémy imagine que le personnage élabore une “méthode thérapeutique fondée sur les couleurs” et décède de l’épidémie de peste d’Athènes. Il s’appuie par contre sur une des meilleures estimations de sa chronologie (naissance en -470 et décès en 430 av. J-C) et relaie en détail sa contribution la mieux documentée à l’histoire naturelle (la détermination du sexe de l’enfant par la position des testicules).

Même pour un connaisseur, ce mélange faux-vrai est difficile à dénouer. Les sources antiques et les études modernes sur Léophane sont très limitées. De l’aveu d’un spécialiste, Lorenzo Perilli, “il est ignoré dans tous les ouvrages de référence que j’ai pu consulter”. Seule la consultation des sources apportées par Barthélémy aurait permis de “falsifier” ses contributions. Or, elles ne sont pas en libre accès : contributeurs bénévoles, les wikipédiens n’ont généralement pas accès aux revues ou aux publications sous paywall, diffusées à des tarifs prohibitifs.

En outre et de manière à rendre son canular encore plus ressemblant à la vérité, P. Barthélémy introduit des références à Léophane sur des articles Wikipédia mieux exposés (Hippocrate, Théophraste). Ces liens sont censés servir de preuves de la véracité du Léophane tel que narré par P. Barthélémy.

On est ainsi face à la création délibérée de fausses informations et le vandalisme de diverses ressources sur l’encyclopédie en ligne. Si l’on y regarde de plus près, une telle démarche est irrespectueuse quant au travail entièrement bénévole des modérateurs, administrateurs et contributeurs de Wikipédia. Ceux-là ont ainsi raison de se sentir dénigrés et pris pour des “rats de laboratoire”. La démarche de P. Barthélémy est d’autant plus incompréhensible qu’elle émane d’un compte utilisateur “jetable” (Pomlk2) et de plusieurs adresses IP : toutes les éditions sont donc faites anonymement, même s’il est très facile d’identifier à quelle institution appartient l’adresse. Si un tel anonymat peut être évoqué pour mimer une prétendue démarche de “fausseur”, on ne comprend pas pourquoi l’équipe de modération Wikipédia n’est pas informée. Par conséquent, l’une des adresses IP utilisées par P. Barthélémy, appartenant aux adresses du Monde, est bloquée pour neuf mois pour vandalisme. Bel exploit.

Mais si ces éléments sont, somme toute, secondaires, arrêtons nous aux véritables problèmes :

7/ @PasseurSciences : pour un canular réussi (et il en a existé), il faut : un objectif, un objet d’études, une méthode. Rien de tout ça ici

— Alexandre Moatti (@A_Moatti) 13 février 2017

Quel est le lien avec les “fake news” et l’élection américaine ? Quelle méthodologie sous-tendant cette “expérience” ? Et quid de l’éthique ? Souvenez-vous, aussi bien les scientifiques que les journalistes en ont une : alors, on s’attendrait à ce que P. Barthélémy fasse preuve d’un excès de précautions et d’une rigueur exemplaire. Malheureusement, il n’en est rien.

Une “expérience” sans méthode

Puisque P. Barthélémy parle d’“expérience” et tente de se placer dans la position de celui qui crée du savoir précédemment inexistant, sa démarche peut être assimilée à celle d’un chercheur. Regardons-y avec les yeux de chercheur donc. Ce dernier a une approche (appelée hypothético-déductive) ordonnée et cadrée consistant à formuler des hypothèses sur le comportement d’un système et de développer des expériences permettant de valider l’une de ces hypothèses. Une hypothèse n’est pas une idée volatile qui nous passe par la tête et face à laquelle on reste dans un étonnement béat. Une hypothèse provient d’un comportement du système inhabituel. Mais pour savoir ce qui est inhabituel, on doit avoir une excellente connaissance préalable dudit système. Ce n’est qu’en ayant une démarche méthodologique, rigoureuse et qui s’inscrit dans un contexte de recherches que l’on peut véritablement tirer des conclusions sur l’impact de nos trouvailles.

Or, l’approche de P. Barthélémy n’a aucune de ces caractéristiques fondamentales. Elle émane d’une idée dans l’air du temps, en réaction à une conjoncture. Il n’y a ni hypothèse formulée (ou alors P. Barthélémy ne le dit pas clairement), ni connaissance poussée de l’écosystème Wikipédia. Les contributeurs et contributrices de Wikipédia, soit vous, nous, ne sont pas des capricieux qui s’arc-boutent dès que quelqu’un leur dit un mot de travers. Au contraire, il s’agit de personnes de richesses culturelles et de curiosité qui font de leur mieux et bénévolement pour cultiver le jardin qu’est l’encyclopédie libre Wikipédia. Promenez-vous sur les pages de discussions, vous verrez que ces bénévoles sont les premiers à débattre de la fiabilité, des processus pour assurer cette dernière et de pinailler parfois à l’usure pour que chaque phrase soit correcte et sourcée. Ainsi, chaque modification peut être suivie publiquement.

C’est faire fi de cet écosystème ouvert que de s’engager dans le vandalisme que P. Barthélémy a commis. Si P. Barthélémy connaissait un peu mieux la communauté et le fonctionnement de Wikipédia, il y aurait probablement réfléchi à deux fois avant de retweeter les invectives contre Wikipédia d’un ex-contributeur, banni pour plusieurs infractions, et s’exprimant en soutien aux agissements de P. Barthélémy. C’est également mal connaître les indicateurs dudit système, soit les possibilités de pouvoir conclure quoi que ce soit de cette “expérience” :

  1. Il est impossible de connaître la portée de ce canular.

P. Barthélémy indique que « plusieurs dizaines de personnes sont venues lire l’histoire de Léophane ». Il n’invoque aucune source à l’appui de cette estimation. D’après l’outil de Wikipédia traquant les vues,, il y aurait 172 consultations entre la création de l’article le 30 décembre 2016 et la révélation du canular.

Le nombre de lecteurs réels est bien inférieur. Très soucieuse du respect de la vie privée des utilisateurs, la Wikimédia Foundation ne donne aucune estimation du nombre de visiteurs uniques. Chaque contribution sur l’article (24 au total avant la suppression) correspond potentiellement à plusieurs pages vues (une pour la modification, une pour la sauvegarde,…). Le nombre de consultations se trouve ainsi étroitement corrélé au nombre de contributions tel que consigné dans l’historique :

Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)
Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)

Les 172 consultations incluent également des lecteurs non humains. Depuis 2015, le site distingue les robots sous réserve qu’ils se présentent comme tel (en l’indiquant dans leur “carte d’identité”, appelée user agent). Mais rien n’empêche un robot de falsifier son identité. Le nombre de lecteurs réels, qui ne se sont pas limités à survoler la page, est ainsi très faible et Pierre Barthélémy ne sait rien sur eux. Il n’a ainsi aucune donnée sur le profil socio-démographique des visiteurs de la page, sur les manières d’arriver là, ce qu’ils ont retenu de l’article,… Par contraste, les études scientifiques sur la réception des contenus médiatiques ou scientifiques font fréquemment appel à des échantillons contrôlés et parviennent ainsi à analyser précisément les modes de lectures (au-delà du “mince ils se sont trompés”).

Enfin, pour qu’un canular soit efficace, il faut qu’il ait été repris. Quelles métriques, quelles preuves avons-nous que ce soit le cas ? (On vous aide : aucune.)

  1. P. Barthélémy ne dispose d’aucun élément comparatif.

Usuellement on compare un comportement (diffusion de fake) à un autre (diffusion de non-fake). Les études scientifiques de la fiabilité de Wikipédia font ainsi fréquemment appel à des évaluations croisées avec des encyclopédies généralistes (comme Britannica) ou spécialisées et parviennent ainsi à établir relativement la qualité de Wikipédia selon plusieurs critères (part des erreurs factuelles, actualisation, complétude,…)

Dans l’approche de P. Barthélémy, il n’y a rien de tel. Il n’y a rien non plus quant au véhicule de cette diffusion (il parle seulement de Wikipédia et non pas de Wikipédia par rapport à d’autres sources). Toute personne qui a un jour tenté de définir l’impact et la causalité de deux actions connaît la difficulté quasi-insurmontable de la tâche. Ajouter le manque total de métriques prédéfinies pour rendre compte de cet aspect et voilà que cette observation mène (de nouveau) nulle part.

  1. Aucune représentativité de l’observation.

Si l’on admet que son “expérience” serait menée à terme sans être découverte, en quoi un seul cas permet d’extrapoler sur des dérives générales ? Au mieux, on aurait eu affaire à un mauvais article, au pire les conclusions de l’“expérience” seraient une autre forme de fake news en indiquant que toutes les observations se valent quelle que soit leur qualité. Et ne parlons même pas de la dérive potentielle d’une situation où un tel fait unique serait présenté comme résultant d’une démarche scientifique : cela s’appelle un argument d’autorité et son utilisation en sciences n’est pas appréciée.

Les facteurs influençant le comportement d’un système ne peuvent en aucun cas être considérés comme la figure de Dieu dans l’Ancien Testament : ça vous [tue/guérit/informe/rayer la mention inutile] en fonction du degré de foi que vous y attachez. La science et la foi sont deux choses distinctes, en science on ne choisit pas à la carte quelle donnée/quel fait prendre en compte. Mais dans le cadre d’un désert informationnel en matière de science, on ne peut pas combler ce vide d’actes de foi ou de désinformation. Parler de science, c’est parler également de sa technicité inhérente. Oui, c’est parfois chiant. Et oui, c’est également requis.

En conclusion donc, cette “expérience” a montré que n’importe qui, même un journaliste scientifique, peut aller sur un site web à édition ouverte et y introduire de fausses informations. Totalement novateur.

“Science sans conscience n’est que ruine de l’âme”

On pourrait vous sortir plein d’adages plus ou moins pontifiants. Ils pointeraient toujours vers le même problème : la démarche entreprise par P. Barthélémy semble faite sans aucune éthique. Voici les manquement éthiques que nous avons constatés, nous fondant aussi bien sur notre formation scientifique que sur les échanges avec des collègues. Des échanges que P. Barthélémy aurait des difficultés à ignorer, mais qui ont cependant été totalement occultés de son article :

  1. Manipulation à plusieurs niveaux.

Il y a un abus de confiance de la communauté des contributeurs Wikipédia. P. Barthélémy s’est longuement entretenu avec deux des administrateurs de Wikipédia en français et, malgré l’assurance de ses bonnes intentions, les actes en disent autrement. Ainsi, initialement P. Barthélémy parlait d’“une expérience […] sur la vérifiabilité des infos sur Internet à l’heure des fake news” ; lors de son échange avec Jules, admin Wikipédia : “[l]e but (« avoué ») de l’expérience était de mettre en lumière les limites de l’encyclopédie”. Finalement, avec la publication de l’article de P. Barthélémy, on lit un appel de “mise en quarantaine” a priori des contributions.

Cette transformation pose de nombreux problèmes : il s’agit de création avouée et élaborée de fausses informations et de vandalisme de pages pré-existantes mais aussi de non-prise en compte de l’historique de ce genre de débats. Cette mise en quarantaine a déjà fait débat et ce de nombreuses fois… depuis 2007 : sa mise en œuvre sur la Wikipédia Germanophone débouche sur des délais d’attentes considérables (deux semaines pour approuver une contribution) et a probablement contribué au déclin significatif de la participation depuis son activation en 2008. Un sondage proposant la mise en place d’un système similaire sur la Wikipédia francophone avait été très largement rejeté en 2009 (78% d’opposition), notamment sur la base de ces résultats empiriques. Par ailleurs, les réponses au tweet de P. Barthélémy sur la question sont sans exception en opposition.

Quelle était la finalité réelle de cette manipulation entreprise par P. Barthélémy ?

  1. Instrumentalisation et mépris des acteurs.

Non seulement il n’est pas clair quelle finalité P. Barthélémy poursuit, mais ses agissements ont été perçus comme une “déception” par Jules et des admins contactés qui ont le sentiment de participer malgré eux à une tentative de décrédibilisation de l’encyclopédie :

[avant publication de l’article de P. Barthélémy]

“J’ai eu le journaliste au téléphone (une heure et quinze minutes), il a souligné à de (très) nombreuses reprises que son intention n’était pas de dégrader Wikipédia, ni de faire un article racoleur du type : « Comment j’ai piraté Wikipédia » […] Il a précisé qu’il avait déjà lu la littérature sur la fiabilité de Wikipédia, mais qu’il voulait savoir ce qu’il en était en 2017, et lorsque je lui ai fait remarquer qu’il aurait pu chercher un cas réel et préexistant de canular ou de manipulation de l’information, il a eu un temps de silence et a indiqué qu’il n’y avait pas pensé. J’ai également souligné que pour nous, Wikipédiens, c’était dans tous les cas un vandalisme – que l’auteur soit journaliste et fasse une expérience ou bien que ce soit un collégien désœuvré n’y change rien.” — Jules 11 février 2017 à 21:12 (CET)

[après publication de l’article de P. Barthélémy]

“Même si, comme Enrevseluj, j’ai trouvé le journaliste assez ouvert au téléphone, je suis déçu par l’article : même si l’on pouvait s’y attendre, cela n’apporte vraiment rien de nouveau. N’importe quel contributeur est au courant qu’il est possible de créer ce type de canular, et il aurait suffit (sic) à M. Barthélémy d’interroger un Wikipédien pour avoir des exemples réels et préexistants de manipulation (ou de fake news, pour reprendre ce terme en vogue).” — Jules 12 février 2017 à 18:56 (CET)

(source)

Il n’y a qu’à remonter les tweets outragés de nombreux professionnels de la recherche pour se rendre également compte de l’image qu’une revendication de la part de P. Barthélémy donne de la pratique de la science : il suffit d’avoir une idée dans l’air du temps et d’aller vandaliser quelques pages web pour être chercheur donc ? Dans un pays où les chercheurs sont dévalorisés, leurs moyens financiers inexistants et où la médiation et la communication scientifiques sont en voie de disparition, avons-nous vraiment besoin d’une telle démarche de la part du “Passeur de Sciences” du Monde ?

  1. Absence totale de coopération et de débat.

Toute l’expérience est balisée de A à Z et (paradoxalement) P. Barthélémy exclut Wikipédia du débat en refusant, de manière parfois quelque peu condescendante, le débat sur Twitter, cependant demandé par plusieurs personnes. On pourrait par exemple voir un geste d’ouverture si P. Barthélémy proposait de faire le débat sur Wikipédia, soit là où le mal a été fait. Hélas, rien de tel. Ainsi, ce qui est inclus dans l’article est entièrement à la discrétion de P. Barthélémy qui ne permet qu’un débat se déroule ailleurs que sur son blog.

On est très loin de la démarche scientifique où tout élément d’une étude peut et devra être examiné par les pairs. On est dans un univers parallèle où P. Barthélémy pose les questions, les modifie, donne des réponses ou pas, et instrumentalise ce soi-disant débat pour appeler au changement de gouvernance de l’information chez Wikipédia en français. Enfin, se soumettre à cet impérieux caprice de débat sur le blog et seulement là relèverait, comme le souligne également l’historien Alexandre Moatti, “à cautionner la démarche”.

Mais dans ce foutoir de confusions, le risque le plus sérieux n’est même pas évoqué. En effet, on peut craindre une contamination générale de la “connaissance libre” dont Wikipédia n’est qu’une partie. Citons par exemple Wikidata et toute l’architecture du web sémantique, la contribution de laquelle fait d’ailleurs l’objet de problématiques de recherche primées. Le rôle des communautés a changé depuis quelques années et elles s’imposent de plus en plus comme des outils scientifiques de référence : certaines initiatives telles Wikidata s’éloignent ainsi de la vulgarisation pour développer des pratiques et structures beaucoup plus spécialisées.

Juge et partie

Divers aspects de l’article de P. Barthélémy, intitulé “Pourquoi et comment j’ai créé un canular sur Wikipédia”, posent problème en plus de ceux précédemment mentionnés. Le champ sémantique et les mots dont l’auteur se sert pour expliciter ses agissements créent ainsi une manière de penser et voir les acteurs de ce vandalisme sous une lumière quelque peu choquante et à coup sûr inquiétante. Si nous nous y arrêtons, c’est parce que “nommer, c’est faire exister” et parce que nous estimons qu’un journaliste, de surcroît le fondateur de la rubrique Sciences et Environnement au Monde, a une visibilité qui appelle à une grande responsabilité. Avec ce canular élaboré, P. Barthélémy a commis plusieurs impairs ; espérons que ce soient les derniers.

Barthélémy se pose ainsi dès le départ en victime d’un système qu’il respecte :

L’entrée Léophane n’existait pas sur Wikipédia et le personnage pouvait faire un candidat valable selon les critères de la célèbre encyclopédie en ligne. J’ai donc décidé de créer cette entrée en écrivant le peu que l’on connaissait sur ce savant et en inventant le reste. J’ai donc laissé libre cours à ma fantaisie, tout en lui conférant les apparences du plausible, à coups de références.

[…]

L’expérience proprement dite a commencé à la fin de décembre lorsque j’ai publié l’entrée, ce qui s’apparente à du « vandalisme sournois » selon les critères de Wikipédia.

Alors, qu’en est-il ? L’encyclopédie a des règles mais quand on les enfreint, ce n’est pas normal de se faire traiter de vandale ? C’est bien pratique comme positionnement. Cette dualité des propos et du positionnement de P. Barthélémy est caractéristique de toute sa démarche dans ce cas. Il ne se définit jamais comme journaliste, jamais comme scientifique. En se positionnant au-dehors du système qu’il souhaite “tester”, il souhaite également échapper à ses règles. Puisqu’on n’y est pas, on n’a pas de règles à respecter et donc on ne déroge à aucune règle. Logique, non ?

Dans son article en réaction, Autheuil relève bien cette dualité :

“Là où le bât blesse, à mes yeux, c’est que Pierre Barthélémy est à la fois celui qui a conçu et réalisé le test, ainsi que celui qui le relate et le porte à la connaissance du public. Les deux rôles doivent rester strictement séparés. Les journalistes ne doivent jamais construire eux mêmes les faits qui vont servir de base à leur travail d’analyse et de mise en perspective purement journalistique. Je comprend que la tentation soit grande, pour les journalistes, de se saisir de cet important problème des “fake news”. Mais ils doivent y résister, car sans le vouloir, en jouant sur les deux tableaux, ils affaiblissent la crédibilité des journalistes, ce qui renforce ceux qui cherchent à manipuler l’information.”

Barthélémy est journaliste. Qui plus est, journaliste scientifique. On en attend donc une démarche raisonnée et raisonnable et non pas une entreprise de torture des faits jusqu’à ce qu’ils avouent ce que l’on veut. En effet, en enfermant le débat et en occultant toutes les critiques faites depuis que le pot-aux-roses a été découvert, revient à travestir le vandalisme en démarche scientifique. Cela ressemble fort à la gestation d’un alternatif fact et contribue ainsi à créer ce que le journaliste du Monde prétend dénoncer.

Et si l’on transposait cette même démarche ?

“Vous êtes journaliste au Monde. Avez-vous tenté de faire des erreurs volontaires dans un sujet obscur destiné au journal papier ? sur le journal en ligne ? Avez-vous même tenté de faire un faux sur votre blog et voir s’il serait détecté ?

Je doute que ce soit bien vu. Il s’en trouvera pour dire que ça montre les failles d’un journal qui se veut sérieux, ou que vous transformez après coup le contenu erroné en fausse expérience, ou qu’à tout le moins ils ne pourront pas se fier au contenu à l’avenir faute de savoir si c’est une nouvelle expérience. Ne parlons même pas du risque d’un mauvais buzz où les gens n’entendent parler que de l’erreur mais pas de l’explication qui suit.”

L’éthique et les titres que l’on se donne veulent dire quelque chose. Alors plutôt que de répondre avec condescendance à ceux qui critiquent qu’ils ne savent rien du métier de journaliste, P. Barthélémy ferait bien de prendre exemple sur ses propres conseils à l’attention de Wikipédia : reconnaître ses erreurs, ses limites et s’améliorer.

Et maintenant alors ?

Notre motivation de prendre position en long et en large vient du fait que nous ne considérons pas cette manipulation élaborée comme un épiphénomène. Les contradictions et nombreux problèmes de la démarche, évoqués plus haut, découlent directement de la formulation actuelle du débat. Cela a déjà été pointé mais le discours sur les fake news repose sur une vision naïve de la fiabilité (qui se réduit à l’approbation d’informations « vraies » et au rejet d’informations « fausses »).

Une telle vision binaire et le recours à du vandalisme sournois par quelqu’un qui se définit comme “Passeur de Sciences”, c’est oublier également que les termes de « fake news » ou « post-truth » mélangent des pratiques relativement distinctes qui se juxtaposent plus qu’elles ne se confondent : propagande d’États, de groupes idéologiques ou d’entreprises, canulars, erreurs factuelles, etc. La polarisation de la société ne devrait pas être renforcée par de faux semblants et des apprentis sorciers.

Si certains propos peuvent paraître trop forts ou trop acides, alors imaginez quelle est notre consternation face à ce qu’il s’est passé. Pour reprendre les lois de Newton, à chaque force s’oppose une force d’intensité au moins équivalente. Il n’y a donc aucune animosité personnelle à y lire, mais l’expression d’un désarroi profond face à un journaliste à qui nous faisions confiance d’aborder, avec intégrité et intelligence, un sujet presque-oublié en France : la médiation scientifique.

Si l’on voulait, on pourrait suggérer de très nombreux sujets d’exploration autour de Wikipédia, aucun desquels n’implique la création de fausses informations :

  • Quelle participation et quelle qualité des contributions entre Wikipédia en français et en allemand ? Dans le cas allemand, la “quarantaine a priori” est utilisée.
  • Y a-t-il une résurgence des tentatives de vandalisme et de création de faux articles entre 2015 et 2016 ?
  • Wikipédia est-elle plus ou moins sensible que d’autres ressources d’informations aux discours de propagandes ou aux erreurs virales ?

On vous recommande cette vidéo hilarante et très à propos, par le journaliste John Oliver de la chaîne américaine HBO à propos de Trump et ses alternatif facts, élevés au rang de politiques publiques réelles en réponse à des problèmes exagérés ou carrément imaginaires.

Et puisque notre démarche est de co-construire la connaissance en respectant la véracité des informations et le sérieux de la démarche, nous invitons Pierre Barthélémy et toute personne le souhaitant à nous aider à compléter la page recensant les diverses critiques et études scientifiques traitant de Wikipédia, ses processus et ses communautés. Comme vous l’imaginez sans doute, il y a mille et une façons dignes, respectueuses et productives de renverser le cours du flux de fausses informations qui tente de nous submerger. Soyons-en les acteurs et non pas les pourfendeurs.

Les nouveaux modes d’éditorialisation du libre accès : l’étude critique de 2016 est là !

Je diffuse aujourd’hui mon principal projet de ces derniers mois, qui marque également l’aboutissement d’une réflexion engagée depuis plusieurs années sur Sciences communes : une étude critique sur les nouveaux modes d’éditorialisation des revues scientifiques en accès ouvert réalisée pour BSN — et très opportunément, cela tombe en pleine Open Access Week

couverture_rapport
Cliquez sur l’image pour accéder au rapport (hébergé sur scoms en attendant HAL)

L’étude n’est que la version « synthétique » d’une quarantaine de pages d’un ouvrage qui paraîtra dans quelques mois. On peut retrouver également certains éléments propres à l’ouvrage (non repris dans l’étude) dans la présentation que j’en ai tirée pour la BSN et que j’ai ressorti la semaine dernière pour le séminaire PragmaTIC :

Support de présentation de l’étude pour BSN

Le libre accès connaît aujourd’hui un tournant majeur. Il entre dans la loi : la Loi pour une République numérique prévoit un droit de republication des versions auteur ainsi qu’une exception au droit d’auteur pour faire de l’extraction automatisée de textes et de données (text & data mining, encore connu sous le sigle TDM). Au-delà de cette officialisation, le libre accès, sous toutes ses formes (archives ouvertes, revues, bases de données) est devenu un phénomène massif et incontournable, toutes disciplines, communautés et pays confondus.

De quel libre accès parle-t-on ?

La mise à disposition gratuite, voire sous licence libre, dissimule des choix éditoriaux, économiques et même politiques, radicalement distincts. Une partie du mouvement du libre accès est ainsi tentée par une mutation a minima : le journal flipping, soit une reconversion (to flip) des budgets consacrés aux abonnements en achats de « droits à publier » en libre accès, sans rien changer aux montants.

Cette reconversion maintient en l’état l’oligopole des géants de l’édition scientifique (bien présenté dans le dernier Datagueule), voire en étend la portée. Car un acteur comme Elsevier n’attend pas la généralisation du libre accès pour amorcer sa reconversion. Les acquisitions successives de Mendeley ou de l’archive ouverte SSRN (en attendant, peut-être, celles de ResearchGate ou Academia) témoignent de l’avènement de formes de contrôle et de captation inédites de l’activité scientifique : les interactions des chercheurs autour de leur publication alimentant un vaste recueil de métriques, revendues entre autres aux institutions universitaires. Nous assistons à l’émergence d’un nouveau modèle économique de l’édition scientifique assez largement inspiré de celui des grandes industries du web comme Facebook ou Google.

Une autre édition est possible

D’autres modèles existent : de par son ampleur-même, la conversion au libre accès autorise une réforme plus globale des conditions de diffusion de l’écrit scientifique. Les évolutions sont déjà engagées. C’est ce que rend visible la « cartographie » des pratiques et des initiatives émergentes qui se décline sur les quatre parties du rapport : outils d’édition, formes d’écritures, dispositifs d’évaluations et modèles économiques connaissent des transformations parfois radicales — et parfois convergentes. L’article n’est plus seulement ce un objet fixe et immuable une fois le processus de publication achevé mais connaît une multitude d’incarnation ultérieures (par exemple en se métamorphosant en données grâce aux techniques de text & data mining). L’évaluation ne s’arrête pas davantage au seuil de la revue : en s’ouvrant (open peer review), elle prend la forme d’une réception continue.

capture-decran-2016-10-27-a-16-18-45
Analyse de correspondance réalisée à partir des données d’une étude sur les pratiques d’écriture de 20 000 chercheurs : l’utilisation d’outils libre est étroitement liée à la pratique en libre accès (orange) tandis que des pratiques émergentes mettent davantage l’accent sur la réplication (bleu).

En 2016, la question n’est plus tant de susciter ou de développer des innovations, mais de les intégrer et de les combiner dans des infrastructures cohérentes. L’architecture du web permet de faire cohabiter et « dialoguer » des modèles très différents par le biais de standards communs. Pour soutenir cette « bibliodiversité », il est nécessaire de la donner à lire, de faciliter la circulation d’une forme à l’autre et d’une plateforme à l’autre. J’ai ainsi proposé une petite projection (connus par les initiés de BSN sous le nom de code de « slide 63 ») du rôle déterminant que pourraient désormais jouer les archives ouvertes au-delà du simple recueil de l’article en recensant la pluralité de ces incarnations : évaluations, réplications, extraction de données…

Projection d'une archive ouverte augmentée
Projection d’une archive ouverte augmentée (à partir d’un article déjà déposé dans HAL)

L’élaboration des infrastructures ne soulève pas des enjeux que « techniques ». Finalement un acteur comme Elsevier pourrait très bien jouer ce rôle (et commence à le faire). La différenciation s’opère sur un autre plan : celui, « politique », de la gouvernance. L’enjeu double est aussi bien d’empêcher le détournement de l’open access au profit de nouvelles enclosures que de développer des processus de prise décision plus efficaces et mieux adaptés à un contexte fortement évolutif. Le futur de l’édition scientifique passe ainsi peut-être par l’avènement de grandes plateformes auto-gérées. Celles-ci s’inscriraient la lignée de communs numériques comme Wikipédia ou OpenStreetMap, mais avec des modèles forcément différents, qui restent encore à inventer.

Bien qu’il m’ait été officiellement confié en janvier dernier, le rapport a été « préparé » depuis trois ans sur Sciences Communes. Le présent carnet a été créé en 2013 dans la perspective d’étudier et de référencer les « les nouvelles pratiques de réutilisation des publications et des données scientifiques ». Le rapport va aujourd’hui beaucoup plus loin que ce que j’imaginais alors : j’étais alors plutôt focalisé sur les questions de licences, tout en ayant en tête la perspective d’un écosystème élargi, né de la mobilité inédite des textes et données de la recherche (mon rapport particulier à l’open access, découvert alors que j’étais un simple contributeur sur Wikipédia dans l’incapacité d’accéder aux grandes bases d’articles sous paywall, n’y est pas étranger). Les dimensions de la « cartographie » du rapport sont en partie apparues dans le fil de ce carnet : la possibilité d’une captation de l’open access par des industries académiques 2.0, la nécessité d’une réponse politique, la longue « préhistoire » du libre accès…

Il y a une autre forme de continuité. Dans le rapport comme dans Sciences communes, les opportunités ouvertes par les nouvelles méthodes et formes d’écriture scientifique ne sont pas juste signalées mais mises en pratiques et exploitées. J’ai ainsi repris des données déposées sur Figshare ou Zenodo et j’ai développé des programmes d’extractions automatisés d’articles scientifiques (notamment pour situer le débat académique sur le terme d’open peer review) — tout comme, j’ai pu, par le passé, publier ici des « expériences » (1, 2, 3) qui démontraient, par l’exemple, l’opportunité de penser la publication scientifique comme une production croisée de textes, de données, de codes et de visualisations.

Réseau de similarité entre termes dans les blogs référencés dans l'Open Access Directory
Essai de text mining sur les blogs référencés dans l’Open Access Directory. Le réseau de similarité entre les termes met en évidence l’importance croissante des thématiques éditoriales (données, évaluation…) dans le mouvement sur libre accès

Et puis, ce travail est une forme de production collaborative par procuration. Si j’en suis techniquement le rédacteur, je ne peux pas laisser de côté toutes les influences, déterminantes, qu’il laisse percevoir : celles de mes « encadrants » (Serge Bauin, Emmanuelle Corne, Jacques Lafait et Pierre Mounier), celle de ma collaboratrice sur Sciences Communes Rayna Stamboliyska (qui a directement contribué à l’écriture de ce présent billet), celle de mes collègues de SavoirsCom1 (Lionel Maurel, Thelonious Moon, Mélanie Dulong de Rosnay — également contributrice sur Sciences Communes) et de tant d’autres, théoriciens ou acteurs du libre accès (Marin Dacos, Daniel Bourrion, Guillaume Cabanac, Marie Farge…)

Les données ouvertes et la recherche : quel état des lieux ?

Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl 🙂 ).

Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.

Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…

Que disent les chercheurs ?

Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.

Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.

La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».

Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.

La majorité des interrogés (n = 1 915) connaissent l'existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.
La majorité des interrogés (n = 1 915) connaissent l’existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.

Parmi les interrogés, une proportion importante a déjà fait des démarches d'ouverture de données.
Parmi les interrogés, une proportion importante a déjà fait des démarches d’ouverture de données.

Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu'une autre équipe de recherche a mises à disposition.
Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu’une autre équipe de recherche a mises à disposition.

Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu "pas du tout important" est pratiquement de 0 %.
Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu “pas du tout important” est pratiquement de 0 %.

Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu'une citation d'article, si ce n'est plus (10 % des interrogés).
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu’une citation d’article, si ce n’est plus (10 % des interrogés).

De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.

Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :

  • Une majorité des chercheurs (y compris des jeunes chercheurs) ont besoin d’accompagnement légal pour naviguer les complexités contractuelles de leurs financements. Ce besoin est exprimé aussi bien par les chercheurs ayant déjà publié des données en open data que par ceux qui ne l’ont jamais fait auparavant.

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le "niveau d'ouverture" desdites données.
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le “niveau d’ouverture” desdites données.

Le paysage des financements est très embrouillés : une majorité ne sait pas qui financera les démarches d'ouverture de données.
Le paysage des financements est très embrouillé : une majorité ne sait pas qui financera les démarches d’ouverture de données.

La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :

  • Le rôle des bibliothécaires a énormément évolué : ceux-ci se retrouvent au croisement des connaissances sur les données, le code et les cadres légaux ;
  • La perception de la publication scientifique a aussi énormément changé : un article n’est plus l’objet unique, statique, composé de texte gravé dans le marbre. Comme on l’a déjà dit par ailleurs sur ce blog, l’article scientifique est devenu la pub pour votre recherche ; ainsi, la routine éditoriale implique aujourd’hui la publication conjointe de l’article, des données produites dans le cadre de l’étude, du code utilisé pour les analyser et, dans certains cas, de fichiers multimédias annexes. La publication scientifique est donc une version de la connaissance du sujet pouvant évoluer.
  • Le volume a une importance (ou, plus prosaïquement, size matters) : si vous vous intéressez un peu au monde des données, vous ne serez pas étonné-e que l’attention (médiatique, financière) se porte le plus souvent sur le big data (les mégadonnées dont la volumétrie dépasse les terabytes). Cependant, les small data restent fermées : seulement 22 % des chercheurs indiquant produire des mégabytes partagent leurs données. Mais c’est aussi là que se cachent la diversité et les informations importantes mais trop souvent négligées, à savoir les résultats négatifs, les figures rejetées de l’article final, etc.

Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :

  1. Les métadonnées : il s’agit de ce que l’on appelle communément des données sur les données (date de création du fichier, son format, etc.). Dans la mesure où une publication devient une version d’enregistrement de la connaissance, une quantité invraisemblable de métadonnées vient avec cet objet : on a aussi bien celles générées par l’utilisateur que celles générées par le traitement automatique. Il y a par ailleurs de nombreux éléments du processus de recherche qui ne figurent pas (encore) au firmament des objets à ouvrir : les protocoles expérimentaux utilisés, les réglages des appareils, etc. La quantité de métadonnées accompagnant la publication de données et résultats scientifiques ne fera donc que croître et on se retrouve rapidement dépassé-e par les volumes à appréhender et gérer.
  2. La « curation » : autrement dit, le fait de choisir ce qui est pertinent pour un sujet donné. Faire de la veille implique de faire ces choix-là et passe par diverses étapes qui enlèvent ce qui est peu pertinent et qualifient les sources retenues pour une exploitation future. Mais si on a des outils plutôt corrects pour suivre les publications de nos pairs, comment gérer l’invraisemblable quantité de métadonnées dont je parlais juste ci-dessus ? Les auteurs soulignent ainsi le besoin de toujours créer des outils pour structurer les métadonnées et les travailler pour faciliter leur curation et (ré)utilisation ultérieures.
  3. La revue par les pairs : j’allais parler de Retraction Watch (même si les auteurs ne le font pas), de la publication de résultats négatifs ou neutres et de diverses autres initiatives telles que Software Carpentry, Run my Code, etc. mais je vais laisser pour une prochaine fois.

« L’économie politique de la recherche »

Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :

Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.

Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :

  1. Les données ouvertes (mouvement open data) sont une plateforme commune où les chercheurs, les institutions de recherche et les bailleurs de fonds peuvent échanger autour des difficultés pratiques de l’ouverture et la réutilisation des données issues de la recherche.
  2. Les données ouvertes contribuent à une discussion plus large autour de la transparence et de la légitimité des financements ainsi que à celle du retour sur investissement, piliers des politiques publiques de la recherche et préoccupations des bailleurs de fonds.
  3. Le mouvement open data s’aligne sur des défis plus globaux tels que les acteurs désormais incontournables de la recherche issus de centres scientifiques hors de la zone euro-américaine.
  4. Les données ouvertes sont un exemple de l’introduction de la recherche scientifique dans des logiques de marché. Assez pragmatiquement, ce point aborde la conception des données comme des objets politiques, sociaux et financiers. « L’idée même des données scientifiques comme artéfacts pouvant être vendus, échangés et réutilisés pour créer de nouvelles formes de valeur est indissolublement liée à la logique de marché où les données sont des objets d’échange ». De même, l’idée de libre circulation de données scientifiques pose des défis quant à la conception de compétition et propriété non seulement au sein de la communauté scientifique, mais aussi dans les interactions de celle-ci avec d’autres acteurs.

Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :

[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.

Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !

Comment fonctionne Content ID ?

C’est l’un des dispositifs clés de la future réforme européenne du droit d’auteur (dévoilée par la commission le 19 septembre). L’art. 13 prévoit de contraindre tous les services en ligne (“information society service” dans le jargon de la commission) à mettre en place des “mesures pour assurer l’application effective des accords avec les ayant-droit”. Ces mesures se traduiraient notamment (et essentiellement, en pratique) par l’usage de “technologies d’identification du contenu”.

La commission songe ici à un exemple emblématique : ContentID de YouTube. Mise en place graduellement depuis 2008, cette technologie scanne l’ensemble des vidéos soumises au service de Google. Dès qu’elle intègre, même approximativement, une œuvre protégée (préalablement envoyée à Google par ses ayants-droits), plusieurs options peuvent être activées au gré des choix de l’ayant-droit : suppression de la vidéo, monétisation forcée (au profit de l’ayant-droit) ou, inversement, impossibilité de monétiser (afin d’assurer qu’il n’y a qu’un usage non-marchand).

content_id
Ce à quoi ressemble la plupart des interactions entre les utilisateurs de YouTube et ContentID

Ce dispositif est problématique plusieurs niveaux. Ce qui frappe notamment, c’est l’asymétrie d’information entre les ayant-droit et les industries du web d’une part et le public d’autre part. Nul ne sait comment fonctionne ContentID. N’ayant pas peur des explications techniques « brutes », j’ai essayé d’effectuer plusieurs recherches sur le sujet. Et je retombe toujours sur des présentations vagues (à l’image de celle-ci qui sort dans les premiers, mais il n’y a rien de mieux lorsqu’on creuse…). Cette asymétrie d’information est totalement assumée par la Commission européenne. Toujours selon l’art. 13 :

Les services devront apporter des informations adéquates aux ayant-droits sur le fonctionnement et le déploiement des mesures, ainsi que, chaque fois que nécessaire, des mises à jour appropriées (adequate reporting) sur les modalités de la reconnaissance automatisé, l’usage des œuvres protégées et d’autres sujets…

Bref, tout est mis en œuvre pour que le public ne connaisse pas les recettes de cette cuisine interne. Il peut à la rigueur tenter de les deviner (ce que fait tout youtuberun tantinet actif, parfois tenté de jouer au jeu du chat et de la souris en maquillant les contenus protégés). Mais les ressorts fondamentaux de cette infrastructure demeurent hors de sa portée. Ou pas ?

Paradoxalement, les bases théoriques de Content ID sont bien accessibles en ligne : une technique aussi stratégique ne peut pas ne pas laisser de traces dans la littérature scientifique spécialisée. Seulement, cela implique de contourner une autre forme d’opacité : les terminologies spécialisées.

Les techniques de reconnaissance portent le joli nom de « Perceptual Hash ». Les recherches sur le sujet sont tellement obscures que l’on ne trouve quasiment rien sur Wikipédia (juste une brève ébauche en anglais, jamais traduite en d’autres langues) et encore moins dans la presse (trois misérables résultats sur Google Actualités qui n’évoquent le terme qu’en passant).

La disproportion entre l’importance conférée à ces techniques (sur lesquelles reposent de plus en plus régulation numériques du droit d’auteur) et leur dissémination dans la sphère publique et politique au sens large est totale. Cet article vise à initier un début de correctif. Tout en nous limitant à quelques aspects fondamentaux, nous verrons que la généralisation du « Perceptual Hash » a des conséquences considérables sur l’évolution de nos pratiques et représentations culturelles.

Je vais essentiellement m’appuyer ici sur deux thèses. Tout d’abord un classique : Implementation and Benchmarking of Perceptual Image Hash Functions de Christoph Zauner (qui est à l’origine de l’un des outils les plus utilisés : PHash). Puis, Using Perceptual Hash Algorithms to Identify Fragmented and Transformed Video Files d’Ola Kjelsrud, qui a fait moins date mais, étant soutenue en 2014 et portant sur un sujet très à la mode, la détection de vidéo, elle présente l’avantage d’être très bien à jour.

Aux origines de la reconnaissance

Les premières expériences théoriques à l’origine de ContentID remonte au début des années 2000. À cette date, les industries culturelles misaient sur une autre technologique, qui s’est avérée beaucoup plus fragile : le watermark. À chaque œuvre protégée est associée un signal caché, en principe résistant aux transformations successives (changement de format, compression, etc.). Déjà, il est difficile de créer des techniques véritablement résistantes aux altérations volontaires ou involontaires de l’utilisateur. Surtout, le watermark est une protection du « support » et non de l’œuvre. Rien n’empêche l’utilisateur de récupérer l’œuvre par d’autres moyens (en scannant des illustrations ou, s’agissant d’œuvres antérieures à l’apparition du watermark, en récupérant des copies non « marquées »).

Le Perceptual Hash repose sur une philosophie radicalement différente : l’identification doit partir de l’œuvre elle-même, indépendamment du support, en s’appuyant par là sur un critère fondamental de la protection au titre du droit d’auteur, l’originalité. L’intuition est la suivante. Si le droit d’auteur ne s’applique qu’à des œuvres authentiques (et non sur des œuvres dérivées ou reprenant simplement des procédés fondamentaux déjà largement utilisés ou compilant des faits « bruts »), cette authenticité doit pouvoir être décrite formellement et réidentifiée automatiquement.

Les techniques fondamentales ont été élaborées pour un autre objectif que la protection du droit d’auteur : la détection du format du fichier (concrètement, savoir si un fichier est un document word, excel, etc.). Un article de 2003, « Content-based file type detection algorithm », décrit un processus devenu classique : la distribution statistique des octets est compressée dans une signature (ou « fingerprint ») toujours de la même longueur (ce qui permet de comparer des documents de longueur différente). À cette date, les résultats sont primaires (entre un quart et la moitié des productions sont reconnues et appariées). L’utilisation d’une signature inaugure néanmoins l’une des constantes de cette technologie. ContentID repose sur l’extraction, l’archivage et la comparaison de signatures associées à chaque œuvre. Cette méthode permet de diminuer considérablement la taille des bases de données : au lieu de stocker la totalité des œuvres consignées par les ayant droit, il devient possible de compresser l’authenticité en la réduisant à une chaîne de quelques dizaines ou centaines de caractères.

Ces essais font rapidement l’objet de raffinements supplémentaires. Kjelsrud cite notamment deux évolutions majeures : la classification préalable des contenus (ou « clustering » : j’ai l’impression que cela permet de prendre en compte l’utilisation concordante d’éléments hétéroclites, telles qu’une image comprenant plusieurs objets de formes et de couleurs différentes) et l’intégration des « voisinages » entre les octets (le fait qu’un octet correspondant à une lettre ou à une couleur soit suivi par tel autre octet étant a priori une donnée signifiante pour comprendre l’organisation générale de l’œuvre). Actuellement, la plupart des recherches portent sur le format vidéo. La complexité s’accroît en effet considérablement : pour diminuer les temps de traitement, il est nécessaire de sélectionner des captures (frames) significatives — d’autant qu’une seule vidéo peut contenir plusieurs œuvres.

Une architecture conçue contre les utilisateurs

Au-delà de ces recherches fondamentales, l’implémentation concrète soulève de nombreuses difficultés, bien résumées par Christoph Zauner. Par contraste avec les techniques de compression similaires utilisées en cryptographies, les « Perceptual Hash » ne doivent pas être sensibles aux altérations, même potentiellement significatives. C’est tout le sens de l’invocation de la perception : il faut, dans la mesure du possible, prendre en compte les productions qu’un être humain percevrait comme étant similaire.

Là-dessus, peut-être poussés en cela par leurs commanditaires (généralement des industries culturelles), les concepteurs des Perceptual Hash ont effectué un choix technique fondamental qui a de profondes implications sociales et esthétiques : garantir autant que possible que la plupart des œuvres sont reconnues, au risque de générer des faux positifs (alors que la pratique courante, en matière de classification et de reconnaissance automatisée, privilégie plutôt l’inverse : éviter autant que possible les faux positifs quitte à ne pas tout reconnaître). Je cite ici Zauner (p. 5) :

Lorsque nous identifions des objets média, un petit nombre de faux positifs n’encombre pas le système. Au contraire, il est bien plus important que pour tout objet x, il devient impossible de construire un objet perceptuellement similaire x’ (…) Cela couvre notamment la création de x’ à partir de x à travers n’importe quel type d’opération (tel qu’un découpage dans le cas d’une image).

Même ce choix fondamental ne règle pas tout. Zauner ajoute à la suite de sa démonstration un graphe qui résume d’une manière fascinante les problématiques de l’authenticité esthétique à l’ère du web :zauner

Sauf lorsque l’œuvre originelle est intégralement reproduite, l’authenticité n’est jamais une donnée certaine. Elle se mesure en probabilité et il convient de définir au préalable les meilleurs seuils possibles pour intégrer autant que possible la plupart des œuvres dérivés, sans générer un nombre excessif de faux positif (tout en gardant à l’esprit que les faux positifs sont acceptables!). Dans le graphe, Zauner présente deux critère distinct : le rognage de l’image et la compression JPEG. Dans le cas du rognage, le degré d’authenticité descend rapidement ; pour la compression, le degré d’authenticité est conservé bien plus longtemps.

L’authenticité redevient-elle un absolu ?

Ce que l’on voit aussi au travers de ce graphe, c’est que la définition de l’authenticité est graduellement déléguée à des arbitrages informatisée « de principe », alors qu’elle relevait jusqu’à présent d’un jugement informel au cas par cas (qui pouvait, dans les cas les plus sérieux, relever d’une instance judiciaire et, de manière informelle, par l’intermédiaire des critiques d’art, du grand public, des pairs, etc.).

Il faut se garder absolument d’y voir un remplacement de l’humain par la machine. Comme nous avons pu le voir, la base théorique de ContentID n’est que trop humaine et repose sur des choix sociaux et économiques fondamentaux (en particulier de privilégier, dans le doute, les ayant-droits au détriment des utilisateurs). Seulement, on ne peut pas nier que le système de représentation de l’authenticité évolue radicalement.

À la limite, je serai presque tenté de parler d’un retour aux utopies classificatoires du XVIIe siècle, cet âge classique où l’on pensait naïvement déduire la valeur d’une œuvre de  grands principes fondamentaux, à ceci près que nous valorisons désormais des principes « moches » et pragmatiques tel que le degré de saturation d’une image plutôt que la présence de tel motif ou l’intention morale de l’artiste.

L’authentification automatisée… contre les robots-créateurs

Autant dire que cela n’annonce rien de bon pour la liberté de création artistique. La généralisation de ContentID s’accompagne en effet d’une privatisation du dépôt légal, désormais gérée de manière occulte par les industries du web et les industries culturelles sans que la masse des créateurs et des amateurs aient leur mot à dire. L’architecture du code contribue ainsi à saper certaines libertés garanties par les règles de la propriété intellectuelle (aux États-Unis, le Fair Use ; en France, la parodie ; dans certains pays, la citation audiovisuelle). Et au-delà, elle accorde une prime de dépôts aux grands acteurs, qui en étant les premiers à transmettre leur base de données protégées, peuvent potentiellement usurper des productions préexistantes.

Cela ne va pas s’arranger. Les Perceptual Hash présente à mon avis une faille majeure : la saturation de l’espace de nom. Pour pouvoir être opérationnel, un hash ne peut jamais être totalement précis. Il doit se cantonner à une synthèse “générique” de l’œuvre qui admette la possibilité d’œuvres dérivées. Les plans de la commission européenne pourraient entraîner une rupture du système : au-delà d’un certain d’œuvres enregistrées, le nombre de faux positifs (déjà significatif) ne peut que s’accroître considérablement. Bien que le nombre de combinaisons potentiellement authentiques soit très important, l’utilisation intensive du service et la démultiplication des œuvres recensées implique qu’à un moment donné les fausses duplications doivent se multiplier. Nous risquons d’épuiser rapidement le capital collectif d’œuvres authentiques (dans le cadre rigide admis par les Perceptual Hash).

Une autre évolution parallèle risque d’accélérer cette saturation : l’utilisation de robots pour créer les œuvres. En 2000, un spécialiste de la génération automatique des œuvres musicales avait tenté de faire protéger près d’un milliards d’œuvres potentielles auprès de la SACEM. À cette date, les œuvres générées étaient une qualité assez faible. Les potentialités offertes permettent de reconsidérer la question.

Bref, si vous voulez saborder ContentID avant même que la commission européenne parvienne à imposer un système similaire partout, il reste encore une option « nucléaire » : déposer des milliards de créations automatiques vidéo/audio sur YouTube.

Le deep learning est-il le futur du text mining ?

Deep learning : le terme symbolise la grande espérance technologique du moment (et, dans les milieux spécialisés, commence à reléguer le « big data » à l’arrière-plan, même si l’un se conçoit très souvent avec l’autre). Tout semble destiné à être révolutionné par les réseaux de neurone artificiels « profonds ». Depuis peu, les robots savent reconnaître les images, maîtrisent le jeu de go à la perfection, rédigent plus vite qu’un secrétaire… Ils commencent même à rêver. L’application Deep Dream a fait fureur l’année dernière avec ses étranges compositions oniriques.

Une création des "rêves profonds" : des oiseaux-arbres…
Une création des « rêves profonds » : des oiseaux-arbres…

Sons, images, règles de jeu : rien n’échappe à la déferlante. Et quid du texte ?

Alors que la pratique du text mining prend de l’ampleur, notamment grâce la disponibilité d’immenses corpus numérisés et un contexte légal un peu plus arrangeant, l’apprentissage profond n’a pas encore intégré la boîte à outil des lecteurs distants. Les techniques courantes utilisés pour classer et arpenter les textes recourent pour l’essentiel à des modèles élaborés dans les années 1970-1990 : analyse de correspondance, analyse sémantique latente, SVM… Dans le champ des humanités numériques, l’innovation est plutôt d’ordre « documentaire » : comment appliquer des algorithmes éprouvés à de grands ensembles de textes ? Et comment en tirer des enseignements pertinents pour l’étude stylistique, littéraire, sociologique… des textes ?

Par exemple, l’étude remarquable de Ted Underwood et Jordan Sellers sur les « standards littéraires » dans les revues anglaises du XIXe siècle repose sur un détournement : le classement automatisé ne permet pas seulement de déléguer à la machine un travail d’étiquetage ; il contribue à reconstituer ce qui « fait genre » en identifiant des marqueurs lexicaux porteurs d’une intention de discours.

Une nouvelle application introduite en 2013 par Tomas Mikolov et al. augure peut-être de l’arrivée prochaine du deep learning dans les études textuelles et littéraires : Word2Vec. Word2Vec est très loin d’être parfait (et ne constitue pas, à strictement parler du « deep » learning). Tout en ouvrant manifestement des perspectives inédites et prometteuses, il reste encore très difficile d’en tirer un usage concret. Plusieurs projets de recherches en humanité numériques ont commencé à élaborer des implémentations (par exemple, en traçant l’usage des termes spécialisés de matériaux textiles dans le magazine féminin Vogue).

Pour cette petite présentation, je vais tenter d’aller au-delà (je ne serai pas le premier : Ben Schmidt ou Ryan Heuser ont déjà publié de bons essais en ce sens…). Je précise d’emblée que j’apporterai plus d’interrogations que de solutions — mais bon, c’est le lot de l’expérimentation à l’état brut…

Mes tests porteront exclusivement sur un corpus contenant la totalité des chroniques du compositeur Hector Berlioz dans le Journal des débats entre 1834 et 1861 (au total près de 400 articles, un peu plus d’un millions de mots). Ce n’est pas un choix au hasard : c’est en faisant un peu d’exploration libre autour de ce corpus que j’ai été amené à prendre conscience d’une propriété très intéressante de Word2Vec. Toutes les manipulations ont été effectuées à partir de l’extension de Word2Vec pour le langage python, Gensim (qui contient également de nombreuses autres fonctions très intéressantes pour la pratique du text mining). Contrairement à d’autres essais similaires publiés sur Sciences communes, je n’ai pas publié le code même si on en retrouvera des bouts qui traînent de-ci de-là : je suis encore loin d’être parvenu à un programme un tantinet cohérent et structuré… Pour ceux qui souhaiteraient quand même jouer un peu avec les données d’origine, j’ai déposé le fichier généré par Word2Vec sur Github.

L’art de traduire les mots en vecteurs…

Comme son nom l’indique, Word2Vec transforme les mots en vecteurs (ou, en français courant, en listes de nombres). Dans mon corpus, « Beethoven » est devenu :

-0.073912 -0.077942 0.244746 -0.235633 -0.052089 -0.228696 -0.294700 0.224995 -0.220984 0.009802 0.113246 0.172214 0.116851 -0.014701 0.272866 0.256256 -0.181295 0.167663 0.384452 -0.357031 -0.232429 -0.185704 0.063136 -0.235764 -0.394459 -0.024006 0.294152 -0.244346 -0.175500 -0.030211 0.102827 -0.067870 -0.329649 -0.267827 -0.239693 0.300108 -0.242601 -0.005308 0.234772 0.148167 0.041641 0.205686 -0.006405 -0.153118 0.245944 -0.101422 -0.204146 -0.215763 0.219858 -0.365411 -0.269319 -0.161473 -0.270557 -0.066371 -0.090772 0.207627 -0.064222 0.384351 -0.049304 -0.003502 0.046460 -0.241773 0.252691 0.135745 0.183757 0.064836 0.234710 0.246344 0.049769 -0.353813 0.024466 0.359923 0.254209 0.256462 0.199013 -0.058624 -0.214481 -0.117650 -0.043015 -0.347653 -0.029410 0.026260 -0.309258 -0.162839 -0.114093 0.382022 0.356538 0.352163 0.031176 0.186652 0.002508 -0.074699 -0.424376 -0.240450 0.065470 0.064408 -0.104289 -0.097309 0.265224 -0.248547

En apparence cette liste ne veut rien dire. Il s’agit d’une « réduction » des relations contextuelles qui relie ce mot entre eux. À mon avis le meilleur analogue se trouve du côté des techniques de réduction de la taille des fichiers1 . Lorsqu’on convertit un texte en fichier ZIP on parvient à le rendre beaucoup moins volumineux. Par contre, le contenu ne veut plus rien dire (tout en étant manifestement bien là : il suffit de « dézipper » le fichier pour le retrouver).

Les vecteurs constituent en quelque sorte des fichiers super-ZIP : la situation initiale du terme a disparu (ce qui fait qu’on ne peut pas reconstituer le texte) ; par contre, elle porte potentiellement de nombreuses informations sur les relations que ce terme entretient avec d’autre terme. On parle alors de word embedding. Il n’y a pas vraiment de traduction officiel de cette expression apparue en 2003 (on peut à la rigueur parler d’intégration de mot). La principale distinction avec les méthodes usuelles de text mining et de traitement automatisé sur langage naturel se joue en effet sur la connexion entre le mot et l’ensemble du texte : par contraste avec les tableaux classiques mots vs. documents, le mot se trouve « relocalisé » et inscrit dans le prolongement immédiat de ses « voisins », et non dans le continuum d’un document entier. Aux dernières nouvelles, ces words embedding font fureur dans les conférences américaines de linguistique computationnelle — et ont complètement relégué les techniques plus classiques à l’arrière-plan.

Il est ainsi possible de retrouver les termes les plus proches de Beethoven :

listBeethoven = model.most_similar(positive=['beethoven'])
print listBeethoven

>>>>>> [('mozart', 0.7579751014709473), ('weber', 0.7569864988327026), ('haydn', 0.7024569511413574)]

Il n’y a que des noms de compositeurs. Nous entrons ici de plain-pied dans une spécificité de Word2Vec : les liens ne sont pas entre des éléments de discours proches (ce qui amènerait par exemple à rapprocher Beethoven de « Fidelio » ou de « symphonie ») mais entre des éléments qui sont employés de la même manière. Il y a une certaine manière de présenter Beethoven dans les chroniques de Berlioz qui fait écho plus généralement à une certaine manière de présenter des noms de musiciens, voir des noms tout court, dans la langue française du XIXe siècle. Les words embedding conservent, sous une forme opaque, une sorte de contexte idéel, de moyenne des interactions locales entre un mot et les autres mots du corpus. Il faut se représenter l’action du réseau de neurone comme celle d’un sculpteur qui à partir d’un bloc de marbre indistinct (tous les vecteurs correspondent en effet à des séries de nombres aléatoires) parviendrait à modeler la morphologie relative de chaque terme, en les confrontant successivement avec tous ses voisins2 .

Word2Vec permet d’aller plus loin : retrouver des relations d’analogie entre les différentes entités. Nous pouvons ainsi indiquer au programme que les termes « Beethoven » et « Fidelio » entretiennent une certaine relation (celle d’auteur à œuvre mais j’insiste sur le fait que nous ne précisons pas laquelle) et que nous souhaiterions avoir une liste de terme qui sont liés de la même manière à « Weber » :

listBeethoven = model.most_similar(positive=['beethoven', 'fidelio'], negative=['weber'])
print listBeethoven

>>>>> ['freyschütz', 0.6202365159988403), ('symphonie', 0.584333062171936)]

Ce que « Fidelio » est à « Beethoven », « Freischütz » l’est à « Weber » : leur opéra le plus connu3 . La combinaison que je présente ici est une variante personnalisée de l’exemple classique du roi et de la reine. Dans n’importe quel texte suffisamment étendu (généralement la totalité de la version anglophone de Wikipédia), Word2vec parviendra à résoudre l’équation suivante :

Man – King = Woman – ?
? = « Queen »

J’ai intentionnellement maintenu les termes en anglais car je ne suis pas certain que la même combinaison marcherait en français, où « homme » reste encore parfois employé dans un sens générique (et, au fond, assez sexiste) comprenant les deux sexes.

L’équation est plus « facile » à comprendre si on se rappelle que chaque mot constitue un « contexte d’apparition ». « Beethoven – Fidelio » représente en quelque sorte la situation du terme « Beethoven » une fois qu’on lui a retiré son affinité (ou ses relations) avec « Fidelio » :4. Par conséquent, lorsqu’on retire du contexte moyen d’apparition de « Beethoven » les configurations qui impliquent également l’apparition de l’opéra Fidelio (ce qui nous limiterait plutôt, par exemple, aux phrases où l’on discuterait des sonates de Beethoven) on effectue une opération analogue au retrait des phrases ayant trait à Freyschütz dans le contexte moyen d’apparition de « Weber ». Dans les deux cas, le retrait se traduit apparemment par l’occultation de cooccurrences prédites liées à l’évocation d’un opéra.

Il est aussi possible de se la représenter dans un graphique (en réduisant les nombreuses dimensions de la liste de nombre à deux dimensions permettant d’établir des coordonnées). L’image ci-dessous représente plusieurs projections « géographiques » dans l’article original de Mikolov et al. : les capitales sont reliées à leurs pays.

Mikolov

Vers une exploration de l’espace sémantique du texte ?

Pour produire un tel résultat, Word2Vec emploie une machinerie compliquée, qui repose notamment sur un réseau de neurone artificiel en partie aménagé pour traiter du texte. À chaque mot est associé une série de mots voisins (généralement de 5 à 10) qui forment le « contexte ». Dès qu’un mot apparaît, le réseau tente de prédire les mots voisins ; selon l’étendue de l’erreur, il met à jour la représentation condensée du mot (la liste de nombres) et les réglages internes (les « biais » propres à chaque neurone et les « poids » propres à chaque relation entre neurone)5 .

Word2Vec n’utilise qu’une version légère (ou « shallow ») des réseaux de neurone artificiel : concrètement il utilise peu de couches successives de neurones se transmettant l’information. Cette limitation technique lui permet de fonctionner très rapidement (l’entraînement sur le corpus Berlioz a pris à peine dix secondes). Par contre, la montée en abstraction est bridée : Word2Vec ne cherche pas vraiment à dégager de grands principes ou de grandes notions structurant ce qu’il lit (comme le ferait spontanément un lecteur humain). L’objectif principal reste d’aboutir à une représentation des contextes d’apparition des mots aussi correcte que possible sans vraiment s’attacher à faire émerger des méta-relations abstraites (même si, comme nous le verrons après, elles émergent quand même un peu).

Depuis 2013, Word2Vec a suscité un grand nombre de publications (l’article d’origine a été cité plus de 2000 fois…). Certaines ont démontré qu’il n’était pas nécessaire d’utiliser des réseaux de neurones artificiels au fonctionnement opaque pour trouver à peu près le même résultat. Le programme GLOVE développé par Stanford repose ainsi sur l’utilisation de cooccurrences entre les termes (le nombre de fois qu’un terme apparaît en concomitance avec un autre). En croisant les probabilités de cooccurrence, il devient possible de reproduire exactement le fonctionnement de Word2Vec — et ce manière bien plus lisible.

Présentant une approche similaire, un excellent article d’Omer Levy et Yoav Goldberg conclut que Word2Vec constitue avant tout « une excellente manière de préserver des motifs inhérents à une matrice de cooccurrence ». Sous l’effet de cette opacité ressentie, le champ de recherche des « words embedding » tend aujourd’hui à s’éloigner des réseaux de neurone. La dernière création du concepteur de Word2Vec pour Facebook, FastText (divulgué pas plus tard qu’il y a deux semaines) semble ainsi évacuer totalement cette piste6 .

Pour l’heure, à l’exception de FastText (que je n’ai pas encore testé : il faudrait que je mette à jour ma version de C++), les alternatives actuelles à Word2Vec présentent l’inconvénient d’être coûteuses en infrastructures et/ou en temps de traitement. Pour construire les matrices de cooccurrences géantes de GLOVE, il est nécessaire de disposer de beaucoup de mémoire vive. C’est jouable à l’échelle de grands projets disposant d’infrastructures distribuées — mais comme la plupart des digital humanists, je n’ai que mon petit portable.

Je vais donc tenter une autre approche : tenter de faire la même chose pour Word2Vec que ce qu’Underwood ont fait pour les régressions logistiques. Alors que l’outil est explicitement conçu dans une optique « moteur de recherche », je vais essayer de lui soutirer autre chose : faire émerger les principaux groupes d’entités et les liens qui les caractérisent, soit les tensions sous-jacentes à l’espace « sémantique » du texte.

J’insiste ici sur cet aspect sémantique : l’enjeu n’est pas de tracer un certain régime de discours ou un certain ensemble stylistique mais des classements ou des ontologies sous-jacentes d’une certaine production textuelle. Ainsi, dans le cas du corpus des critiques de Berlioz, il y aurait de toute évidence une famille des compositeurs et peut-être une famille des dénominations musicales spécialisées (ou peut-être pas…) et ces différentes familles seraient liées ou non entre elles.

Bref, nous utilisons ici Word2Vec à l’envers : il ne s’agit pas de retrouver des termes en fournissant des analogies mais de dégager les principales séries d’analogies inhérentes au texte, sans les soupçonner à priori. Par ce biais, il deviendrait possible d’identifier les classements et les ordres jugés implicitement important par le texte lui-même. Alors que l’analyse des entités nommées reste focalisée sur les groupements qui intéressent directement les industries de l’information (personne, lieu, organisation), nous pouvons très bien imaginer de retrouver des groupements beaucoup plus précis et/ou exotiques (les idéologies, les émotions, les termes économiques ou médicaux spécialisés, les ingrédients de cuisine ou, pourquoi pas, les positions sexuelles…) sans émettre de préjugés a priori sur ce qu’ils peuvent bien être. Dans une synthèse détaillée de l’utilisation des Words Embeddings pour les humanités (qui présente également au passage une extension de Word2Vec pour R) Ben Schmidt parvient aux même conclusions :

Less flexible data models like topic models lock you into one particular idea of what Catholicism, or food, or any other topic, might be. WEMs, on the other hand, explicitly enable searching for relations embedded in words. If there’s a binary, it’s open for exploration.

En ce qui me concerne, l’idée m’est venue par hasard. J’utilise depuis quelque temps Word2Vec pour reconstituer des « réseaux de discours » : je relie chaque couple de terme présentant une affinité positive supérieure à 0,7 (enfin, selon les cas, ça flotte entre 0,6 et 0,8). Au sens large, ils tendent à se regrouper par type de discours (ce qui est assez logique vu que le « contexte » ne s’étend pas au-delà de dix mots) et nous parvenons à générer des réseaux de termes qui correspondent assez bien à ce que trouvent par ailleurs les bons vieux algorithmes de topic modeling. Dans ma thèse, j’ai ainsi utilisé cette méthode pour présenter visuellement la distinction entre les deux principaux sous-genres de la chronique boursière française à ses débuts : une chronique d’économie politique fortement influencée par le saint-simonisme et une série d’énoncés très formalisés sur l’évolution des cours (les actions de X sont à Y, et ainsi de suite).

Réseau de discours à partir du corpus de chroniques boursières du Journal des débats de 1838 (en vert, le discours "saint-simonien", en rouge le discours "procédural")
Réseau de discours à partir du corpus de chroniques boursières du Journal des débats de 1838 (en vert, le discours « saint-simonien », en rouge le discours « procédural »)

Lorsque j’ai appliqué le même traitement au corpus Berlioz en janvier dernier, j’ai été soudainement frappé par un ensemble surprenant :

CompositeursÀ l’exception de l’anomalie « l’école » (mais qui est cependant instructive…) tous les compositeurs se retrouvent hébergés dans le même réseau qui est coupé du reste. J’ai ainsi pris conscience que mon réseau ne représentait des types de discours que par accident (au niveau méta où les familles de termes tendent elle-même à s’agréger dans des systèmes de discours où elles s’illustrent préférentiellement). Le véritable échelon est sémantique : celui des groupements d’entités qui fait pour un texte comme une critique musicale, l’ensemble « compositeur » forme une distinction pertinente (alors que ce ne serait clairement pas le cas pour la chronique boursière formée à la même époque).

Essai de dégagement des ensembles sémantiques

Depuis lors, j’ai été en partie obsédé par l’idée de dégager spontanément ces ensembles sémantiques. La principale difficulté vient de la multiplicité des relations « encodées » par Word2Vec. Le terme « roi » peut ainsi correspondre au versant masculin de reine, mais aussi au supérieur du duc ou du comte… Il est difficile d’être certain de dégager a priori les ensembles sémantiques les plus pertinents — soit reflètent le mieux les classifications/ontologies sous-jacentes du texte.

J’ai utilisé ici plusieurs « trucs » :

(1) Un contexte suffisamment élevé (de l’ordre de 10 mots). Plus le contexte est faible, plus le réseau de neurone va se focaliser sur des relations syntaxiques (singulier/pluriel, masculin/féminin, passé/présent) qui se concentrent généralement dans le voisinage immédiat du mot (articles, verbe, préposition) ; plus il est élevé, plus les relations sémantiques vont prendre le dessus. Pour notre workflow, les relations syntaxiques présentent assez peu d’intérêt : Word2Vec n’est pas très bon à ce jeu là et nous utilisons déjà un outil plus efficace en (2).

(2) Un étiquetage syntaxique en amont. À chaque terme nous associons un type grammatical (nom commun, adjectif, verbe, nom propre). Pour ce faire, nous avons employé l’application Talismane développée par Assaf Urielli qui obtient de bon résultats pour le français. Nous obtenons un très long tableau répertoriant pour chaque occurrence du mot, son lemme, son type grammatical et tout un tas d’information (personne, genre, temps, etc.).

(3) Découper Word2Vec. L’étiquetage syntaxique permet déjà d’opérer une meilleur lemmatisation que celle présente par défaut dans les extensions de R ou de python : au lieu d’avoir des bouts de mots parfois mal coupés qui génèrent des ambiguïtés, nous obtenons directement les formes « de référence » (verbes à l’infinitif par exemple). Surtout, une fois que nous avons fait tourné Word2Vec sur le corpus lemmatisés, nous pouvons sélectionner les termes en amont afin de limiter les croisements non désirés. Nous avons ainsi exclusivement travaillé sur les noms communs et les noms propres en excluant d’emblée tout le reste.

(4) Élaborer une matrice des « affinités » sur l’ensemble des termes sélectionnés. Pour pouvoir calculer les affinités entre deux listes de nombres correspondant à chaque mot, Word2Vec fait appel à la mesure de la « distance cosine » (en gros à 1, les listes sont totalement identiques et à -1 elles sont totalement différentes). Comme je voulais faire les calculs en masse sur l’ensemble des noms communs, j’ai préféré faire appel à R plutôt que Gensim : il y a une charmante fonction « cosine » dans l’extension « lsa » qui établit d’un coup la matrice des affinités croisées entre chaque mot. Pour les noms propres, nous obtenons à terme, un gros tableau réciproque avec 1805 entrées et autant de colonnes. Afin de diminuer la taille de cette grosse matrice, nous nous sommes limités aux termes apparaissant plus de cinq fois (de toute manière, en-deçà de cette limite, Word2Vec commence à peiner à raccrocher le terme à un contexte pérenne).

Matrice des affinités croisées
Matrice des affinités croisées

(5) Projeter les principales relations dans un réseau. Nous utilisons un autre truc de R : la fonction « melt » de l’extension « reshape2 » qui permet de faire « fondre » une matrice. Toutes les colonnes deviennent des noms de variable ; toutes les valeurs migrent dans une colonne unique. Bref, nous avons l’architecture de base d’un graphe de réseau avec une source, une cible et une valeur indicative de la relation.

Matrice_MeltIl suffit de rouvrir le document dans Gephi pour obtenir rapidement un réseau de bonne taille. Nous activons la reconnaissance des « clusters » et procédons au rapprochement des ensembles de nœuds liés… et voilà :ReseauBerlioz

Le graphe des noms communs comprend au total une petite dizaine de grands ensembles sémantiques. Nous allons successivement zoomer sur les principaux. Le gros ensemble du haut correspond clairement aux compte-rendu d’opéra (ce qui corrobore mon intuition que les ensembles sémantiques tendent à se recouper en ensembles stylistiques). Il se découpe en deux sous-ensembles : les personnages (en orange) et un magma plus indistinct comprenant les lieux les objets et, plus vaguement, des éléments d’intrigues (en rose). Même si on peut considérer que cette classification recoupe en partie les subdivisions classiques des analyses des entités nommées entre personnes et lieux, la tournure qu’elle prend est définitivement spécifique au corpus étudié : la nature des intrigues d’opéra est déterminante dans l’articulation entre les entités.ReseauBerliozOpera

Un peu plus loin, nous glissons sur un groupement plus inhabituel (que je qualifierai de « sentiments »). À nouveau il ne s’agit pas de sentiments en général, mais bien de « sentiments dans la perspective d’une description de la réception musicale vers le milieu du XIXe siècle ». D’où le primat accordé à des qualificatifs ayant une connotation musicale intrinsèque (même si elle peut dériver vers le « sentimental ») : « harmonique », « accentuation », « lenteur », « intonation », « hardiesse »…ReseauBerliozSentiment

Un dernier ensemble intéressant a trait à la description musicale. Il se subdivise à son tour en des sous-ensembles plus nettement sémantiques : l’un, en bleu, est axé sur la description musicale formelle (d’où les notes et les qualificatifs spécialisés), l’autre (en gris) s’oriente vers la performance musicale. Il tend d’ailleurs à s’éfiler vers un autre mini-réseau (non représenté ici) où se concentrent les formes d’institutions (philharmonies, etc.).ReseauBerliozMusique

Il est également possible de faire des « zooms » (même si ma méthode est pour l’instant un peu tortueuse : j’extrais la liste des mots intégrés dans les clusters de Gephi qui m’intéressent ; puis histoire d’approfondir un peu le réseau je reviens chercher des termes proches via Gensim). Pour les sentiments cela donne ceci :ReseauBerliozSentimentZoom

On voit que le groupe peut être à son tour subdivisé en plusieurs sous-groupe selon que le sentiment vise à rendre directement compte d’une idée musicale (c’est très net en violet, en haut) ou qu’il s’inscrit dans la cadre d’une phraséologie romantique plus générale (le groupe en bleu plus foncé autour de « mélancolie » viendrait bien dans ce cadre).

Quelques perspectives

Au terme de cette petite exploration, je suis assez convaincu que les vecteurs de mots vont s’imposer parmi l’une des mesures privilégiées pour qualifier et documenter les textes. Même s’ils apparaissent opaques, ces réductions présentent les mêmes avantages que les fichiers ZIP : ils permettent de transmettre en prenant une place très réduite un grand nombre d’informations sur un corpus. Certains digital humanists ont déjà commencé à envisager ce tournant : Ryan Heuser (du Literary Lab de Stanford) vient de publier un fichier référençant les vecteurs correspondant à 150 000 ouvrages anglais du XVIIIe siècle ; il pèse 40 mo (alors que l’étalon du corpus d’origine doit être de l’ordre de la centaine de gigaoctet).

Je serai prêt à parier que dans les dix prochaines années, les langages de références d’éditorialisation scientifique des textes (comme TEI) intègreront des balises spécialisés pour relier des termes aux vecteurs de mots correspondants.

D’ici là, plusieurs problèmes (qui sont autant de défis) restent à résoudre :

1) Pouvoir comparer des vecteurs de mots distincts. C’est évidemment sympathique de pouvoir distribuer des représentations légères de corpus volumineux mais ce serait bien mieux d’arriver à les croiser. Si jamais je déportais mon attention sur la presse anglaise du XVIIIe siècle (cela m’est déjà arrivé ponctuellement par le passé…) je serai sans doute très heureux de confronter mes résultats avec ceux obtenus par Ryan Heuser sur la littérature de la même époque (ce qui permettrait notamment de différencier les ensembles sémantiques privilégiés par des productions textuelles différentes). Et c’est envisageable… depuis un mois (quand on vous dit que la recherche sur le sujet avance vite). Depuis le 8 août, un nouvelle recherche sur l’évolution du vocabulaire dans les corpus de Google Books présente une méthode pour recroiser des word embeddings issues de corpus distinct (apparemment ça marche même lorsque la méthode est différente). La manipulation porte le doux nom de Procruste Orthogonal et n’a pas l’air très compliquée à implémenter. Les programmes du projet ont été publiés sur Github (et incluent notamment une version en Python à destination de corpus de plus petite taille).

Exemples de dérives sémantiques avec des word embeddings.
Exemples de dérives sémantiques avec des word embeddings.

Il y a un corollaire à cette difficulté : résoudre l’ambiguïté des termes. Comme les applications utilisées travaillent à partir de mots bruts, il n’y a pas de ressources externes pour résoudre les homonymies et, plus largement, les polysémies. L’information est néanmoins vraisemblablement présente dans les word embeddings : l’extension de Ben Schmidt pour R inclut ainsi une fonction pour effectuer un « rejet du vecteur » ; ainsi pour le mot anglais « bank » qui indique aussi bien une rive qu’une banque, il est possible de corriger les données du vecteurs qui s’oriente vers la finance, et vice versa, pour aboutir à terme à deux vecteurs distincts. Schmidt présente une application très intéressante de cette fonction : évaluer l’influence du genre sur la signification de qualificatifs. L’image ci-dessous, un ensemble d’adjectifs similaires à bossy selon que les contextes « féminins » (marqués par l’utilisation de « her » ou « she ») sont conservés ou non.unnamed-chunk-10-12) Automatiser autant que possible l’ensemble du processus. L’essai de méthode que j’ai tenté de développer est problématique à cet égard : on passe par plusieurs couches d’évaluation probabiliste avec le risque de détériorer à chaque fois davantage les résultats (soit sucessivement : Word2Vec —> Talismane (pour la sélection, pas toujours parfaite des catégories grammaticales) —> Gephi (pour la détection des clusters de mots). Et le jugement humain est toujours nécessaire en sortie pour identifier à quelle « famille » les groupes d’entités correspondent. Pour cette dernière étape, je réfléchis actuellement à deux pistes :

  • S’agissant des noms communs : confronter les termes à des ontologies comme Wordnet. Il devrait être possible d’indiquer a minima le champ lexical global des termes même si l’on perdra sans doute de l’information au passage (peu de chance de la dimension opéraique des clusters de lieu et de personne chez Berlioz soit réellement conservée).
  • Pour les noms de personne, sous réserve qu’ils soient suffisamment connus, Wikidata pourrait faire l’affaire. Avec suffisamment de termes, il devrait être possible de contourner les homonymies (s’il existe clairement plusieurs Weber, le Weber entouré de Beethoven, Liszt et Haydn est très probablement le musicien).

Si j’insiste autant sur l’automatisation, c’est que je pressens que les words embeddings vont surtout trouver leur utilité dans les corpus peu étudiés. Leur apport pour comprendre l’écriture musicale de Berlioz (déjà bien connue) reste assez limitée. Par contre, ils peuvent constituer des outils d’exploration déterminants pour des collections méconnues. Or, c’est ce type de texte qui va graduellement irriguer le web à grande échelle : les journaux et les périodiques commencent tout juste à rentrer en masse ; dès que la reconnaissance des caractères sera au point (et, à nouveau, on attend les réseaux de neurones au tournant) on pourra s’attaquer peut-être aux archives manuscrites.

3) Ouvrir les réseaux de neurones et lever une partie de l’opacité entourant leurs méthodes de sélection. S’agissant de Word2Vec plusieurs initiatives ont commencé à s’y employer (j’avais un moment mis la main sur une amusante visualisation interactive en Javascript mais je n’arrive plus à la retrouver…). Dans le fil de mes analyses du réseau Berlioz, je me suis amusé à tenter d’évaluer les « affinités » entre les dimensions (arbitraires) du vecteur. Je soupçonne que, en accord avec l’architecture classique d’un réseau de neurones, chaque dimension pourrait être rattachée à un plus grand ensemble. L’illustration ci-dessous représente le résultat d’une matrice d’affinité non pas entre les mots mais entre les dimensions : même si l’ensemble paraît assez désordonné les affinités tendent à se grouper en « régions » de plus grande ampleur (pour clarifier ces clusters, les classes ont été ordonnées selon une mesure d’ordered dissimilarity image (ODI) inclue dans l’extension factorExtra de R).

DistClasseNNOrderedPour approfondir la question, j’ai entrepris de sélectionner les mots qui avaient le plus haut coefficient au sein de certaines dimensions. Sans trop de surprise, on retrouve des thèmes cohérents (mais pas systématiquement). La dimension 8 stocke ainsi (en positif), une bonne partie du vocabulaire lié au champ lexical de « l’intrigue d’opéra » : main, amour, cœur, esprit, mort, ami, père, âme, fils, bruit, tour, côté, mariage, génie, frère… Par contre, l’axe positif/négatif de chaque dimension ne semble pas renvoyer à des sens concrets ou alors à la rigueur, selon une méthode parfois employée dans le topic modeling il fait allusion à des termes « repoussoirs » qui exclut l’activation de cette dimension. Au revers de la dimension 8, nous trouvons ainsi : mais, an, personne, en_outre, mois, dix, neuf, extrêmement, admirablement, rubini…

Si le réseau pouvait également nous envoyer directement des signaux de bas niveau, l’automatisation du processus deviendrait sans doute plus fiable : au lieu de reconstituer des « clusters » a posteriori sur Gephi on pourrait simplement récupérer ceux qui étaient déjà là a priori.

4) Et le deep learning ? Comme je le précisais déjà plus haut, Word2Vec ne représente que du shallow learning (de l’apprentissage léger avec peu d’étapes intermédiaires). Le deep learning appliqué au texte reste pour l’instant de l’ordre de la perspective inaboutie. le véritable défi consisterait à développer des interfaces adaptés. Pour les images, l’architecture actuellement utilisée (et initialement développée par Yann Le Cun) est très spécifique : l’unité de départ est un carré de x sur y pixels, soit littéralement un morceau d’image.

Word2Vec ne pioche pas véritablement de morceau de textes : s’il y a des bouts de contexte (les séries de 5 à 10 mots), l’ordre dans lequel les mots apparaissent n’a aucune importance. Une partie des recherches actuellement en cours visent à intégrer au moins la dimension du « paragraphe » comme entité signifiante ; FastText intègre de son côté un système parallèle de reconnaissance syntaxique (en conservant des subdivisions du mot de plus bas niveau, de 3 à 6 lettres).

Il serait sans doute souhaitable d’intégrer encore d’autres dimensions du texte, telles que la syntaxe (vu que les réseaux de neurone ne brillent pas spécialement dans ce domaine), les entités nommées (lorsqu’elles sont correctement étiquetées, comme le permet le langage TEI), les structures éditoriales (titre, page, chapitre, section…), le voisinages des images (avec, pourquoi pas, des systèmes de reconnaissance d’image et de texte fonctionnant en synergie), voire le vaste monde des métadonnées (ce qui prendrait tout son sens pour étudier des corpus composites comme la presse où cohabitent auteurs, sociabilités et régimes de discours éminemment distincts…).

Évidemment l’intégration de tous ces éléments requerrait des architectures bien plus complexes reposant par exemple sur l’articulation de plusieurs couches distinctes de neurones en entrer,. Et pour de ce texte « riche » des enseignements suffisamment cohérent, nous n’avons sans doute pas trop le choix que de gagner en « profondeur », de faire circuler l’information au travers d’un grand nombre de couches de neurones et, par généralisations successives, aboutir à des vecteurs de mots sans doute beaucoup plus riches et pertinents que ceux dont nous disposons aujourd’hui.

  1. En fait il s’agit d’un peu plus qu’un analogue : l’une des techniques fondamentales de réduction, le codage de Huffman, se retrouve dans Word2Vec afin de diminuer les temps de traitement pour les termes les plus courants
  2. Je ne vais pas rentrer dans ces détails, mais il convient de signaler que pour mener à bien ce processus de sculpture, Word2Vec peut utiliser deux modèles différents : le « sac de mots » (où un mot est prédit à partir de ses voisins) et le skip-gram (qui marche à l’inverse : un mot doit prédire ses voisins).
  3. En toute honnêteté, la liaison ne marche à tous les coups : ici j’ai utilisé un modèle avec un « contexte » de 5 mots (sur cette histoire de contexte, voir plus loin…) ; avec 10 mots, cela ne marchait plus. Cette variabilité des résultats est l’une des principales faiblesses de Word2Vec
  4. Je simplifie volontairement : il ne s’agit pas d’une soustraction simple
  5. Pour une description très détaillée du fonctionnement des réseaux de neurones artificiels je recommande l’excellent Neural Network and Deep Learning de Michael Nielsen. À noter que, le ratio de mot activés/mots passifs étant très faible pour chaque série contextuelle, Word2Vec emploie un modèle probabiliste : les 5 à 10 mots vont être confrontés à une série de mots prise au hasard. Comme l’opération est renouvelée à plusieurs reprises (on parle alors d’epochs), cette sélection aléatoire en vient à constituer une représentation valable du corpus en général…
  6. Ce n’est pas dit clairement mais dans le corps de l’article la nouvelle méthode est contrastée avec les réseaux de neurones
❌