Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

🔒
❌ À propos de FreshRSS
Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierSciences communes

Le deep learning est-il le futur du text mining ?

Deep learning : le terme symbolise la grande espérance technologique du moment (et, dans les milieux spécialisés, commence à reléguer le « big data » à l’arrière-plan, même si l’un se conçoit très souvent avec l’autre). Tout semble destiné à être révolutionné par les réseaux de neurone artificiels « profonds ». Depuis peu, les robots savent reconnaître les images, maîtrisent le jeu de go à la perfection, rédigent plus vite qu’un secrétaire… Ils commencent même à rêver. L’application Deep Dream a fait fureur l’année dernière avec ses étranges compositions oniriques.

Une création des "rêves profonds" : des oiseaux-arbres…
Une création des « rêves profonds » : des oiseaux-arbres…

Sons, images, règles de jeu : rien n’échappe à la déferlante. Et quid du texte ?

Alors que la pratique du text mining prend de l’ampleur, notamment grâce la disponibilité d’immenses corpus numérisés et un contexte légal un peu plus arrangeant, l’apprentissage profond n’a pas encore intégré la boîte à outil des lecteurs distants. Les techniques courantes utilisés pour classer et arpenter les textes recourent pour l’essentiel à des modèles élaborés dans les années 1970-1990 : analyse de correspondance, analyse sémantique latente, SVM… Dans le champ des humanités numériques, l’innovation est plutôt d’ordre « documentaire » : comment appliquer des algorithmes éprouvés à de grands ensembles de textes ? Et comment en tirer des enseignements pertinents pour l’étude stylistique, littéraire, sociologique… des textes ?

Par exemple, l’étude remarquable de Ted Underwood et Jordan Sellers sur les « standards littéraires » dans les revues anglaises du XIXe siècle repose sur un détournement : le classement automatisé ne permet pas seulement de déléguer à la machine un travail d’étiquetage ; il contribue à reconstituer ce qui « fait genre » en identifiant des marqueurs lexicaux porteurs d’une intention de discours.

Une nouvelle application introduite en 2013 par Tomas Mikolov et al. augure peut-être de l’arrivée prochaine du deep learning dans les études textuelles et littéraires : Word2Vec. Word2Vec est très loin d’être parfait (et ne constitue pas, à strictement parler du « deep » learning). Tout en ouvrant manifestement des perspectives inédites et prometteuses, il reste encore très difficile d’en tirer un usage concret. Plusieurs projets de recherches en humanité numériques ont commencé à élaborer des implémentations (par exemple, en traçant l’usage des termes spécialisés de matériaux textiles dans le magazine féminin Vogue).

Pour cette petite présentation, je vais tenter d’aller au-delà (je ne serai pas le premier : Ben Schmidt ou Ryan Heuser ont déjà publié de bons essais en ce sens…). Je précise d’emblée que j’apporterai plus d’interrogations que de solutions — mais bon, c’est le lot de l’expérimentation à l’état brut…

Mes tests porteront exclusivement sur un corpus contenant la totalité des chroniques du compositeur Hector Berlioz dans le Journal des débats entre 1834 et 1861 (au total près de 400 articles, un peu plus d’un millions de mots). Ce n’est pas un choix au hasard : c’est en faisant un peu d’exploration libre autour de ce corpus que j’ai été amené à prendre conscience d’une propriété très intéressante de Word2Vec. Toutes les manipulations ont été effectuées à partir de l’extension de Word2Vec pour le langage python, Gensim (qui contient également de nombreuses autres fonctions très intéressantes pour la pratique du text mining). Contrairement à d’autres essais similaires publiés sur Sciences communes, je n’ai pas publié le code même si on en retrouvera des bouts qui traînent de-ci de-là : je suis encore loin d’être parvenu à un programme un tantinet cohérent et structuré… Pour ceux qui souhaiteraient quand même jouer un peu avec les données d’origine, j’ai déposé le fichier généré par Word2Vec sur Github.

L’art de traduire les mots en vecteurs…

Comme son nom l’indique, Word2Vec transforme les mots en vecteurs (ou, en français courant, en listes de nombres). Dans mon corpus, « Beethoven » est devenu :

-0.073912 -0.077942 0.244746 -0.235633 -0.052089 -0.228696 -0.294700 0.224995 -0.220984 0.009802 0.113246 0.172214 0.116851 -0.014701 0.272866 0.256256 -0.181295 0.167663 0.384452 -0.357031 -0.232429 -0.185704 0.063136 -0.235764 -0.394459 -0.024006 0.294152 -0.244346 -0.175500 -0.030211 0.102827 -0.067870 -0.329649 -0.267827 -0.239693 0.300108 -0.242601 -0.005308 0.234772 0.148167 0.041641 0.205686 -0.006405 -0.153118 0.245944 -0.101422 -0.204146 -0.215763 0.219858 -0.365411 -0.269319 -0.161473 -0.270557 -0.066371 -0.090772 0.207627 -0.064222 0.384351 -0.049304 -0.003502 0.046460 -0.241773 0.252691 0.135745 0.183757 0.064836 0.234710 0.246344 0.049769 -0.353813 0.024466 0.359923 0.254209 0.256462 0.199013 -0.058624 -0.214481 -0.117650 -0.043015 -0.347653 -0.029410 0.026260 -0.309258 -0.162839 -0.114093 0.382022 0.356538 0.352163 0.031176 0.186652 0.002508 -0.074699 -0.424376 -0.240450 0.065470 0.064408 -0.104289 -0.097309 0.265224 -0.248547

En apparence cette liste ne veut rien dire. Il s’agit d’une « réduction » des relations contextuelles qui relie ce mot entre eux. À mon avis le meilleur analogue se trouve du côté des techniques de réduction de la taille des fichiers1 . Lorsqu’on convertit un texte en fichier ZIP on parvient à le rendre beaucoup moins volumineux. Par contre, le contenu ne veut plus rien dire (tout en étant manifestement bien là : il suffit de « dézipper » le fichier pour le retrouver).

Les vecteurs constituent en quelque sorte des fichiers super-ZIP : la situation initiale du terme a disparu (ce qui fait qu’on ne peut pas reconstituer le texte) ; par contre, elle porte potentiellement de nombreuses informations sur les relations que ce terme entretient avec d’autre terme. On parle alors de word embedding. Il n’y a pas vraiment de traduction officiel de cette expression apparue en 2003 (on peut à la rigueur parler d’intégration de mot). La principale distinction avec les méthodes usuelles de text mining et de traitement automatisé sur langage naturel se joue en effet sur la connexion entre le mot et l’ensemble du texte : par contraste avec les tableaux classiques mots vs. documents, le mot se trouve « relocalisé » et inscrit dans le prolongement immédiat de ses « voisins », et non dans le continuum d’un document entier. Aux dernières nouvelles, ces words embedding font fureur dans les conférences américaines de linguistique computationnelle — et ont complètement relégué les techniques plus classiques à l’arrière-plan.

Il est ainsi possible de retrouver les termes les plus proches de Beethoven :

listBeethoven = model.most_similar(positive=['beethoven'])
print listBeethoven

>>>>>> [('mozart', 0.7579751014709473), ('weber', 0.7569864988327026), ('haydn', 0.7024569511413574)]

Il n’y a que des noms de compositeurs. Nous entrons ici de plain-pied dans une spécificité de Word2Vec : les liens ne sont pas entre des éléments de discours proches (ce qui amènerait par exemple à rapprocher Beethoven de « Fidelio » ou de « symphonie ») mais entre des éléments qui sont employés de la même manière. Il y a une certaine manière de présenter Beethoven dans les chroniques de Berlioz qui fait écho plus généralement à une certaine manière de présenter des noms de musiciens, voir des noms tout court, dans la langue française du XIXe siècle. Les words embedding conservent, sous une forme opaque, une sorte de contexte idéel, de moyenne des interactions locales entre un mot et les autres mots du corpus. Il faut se représenter l’action du réseau de neurone comme celle d’un sculpteur qui à partir d’un bloc de marbre indistinct (tous les vecteurs correspondent en effet à des séries de nombres aléatoires) parviendrait à modeler la morphologie relative de chaque terme, en les confrontant successivement avec tous ses voisins2 .

Word2Vec permet d’aller plus loin : retrouver des relations d’analogie entre les différentes entités. Nous pouvons ainsi indiquer au programme que les termes « Beethoven » et « Fidelio » entretiennent une certaine relation (celle d’auteur à œuvre mais j’insiste sur le fait que nous ne précisons pas laquelle) et que nous souhaiterions avoir une liste de terme qui sont liés de la même manière à « Weber » :

listBeethoven = model.most_similar(positive=['beethoven', 'fidelio'], negative=['weber'])
print listBeethoven

>>>>> ['freyschütz', 0.6202365159988403), ('symphonie', 0.584333062171936)]

Ce que « Fidelio » est à « Beethoven », « Freischütz » l’est à « Weber » : leur opéra le plus connu3 . La combinaison que je présente ici est une variante personnalisée de l’exemple classique du roi et de la reine. Dans n’importe quel texte suffisamment étendu (généralement la totalité de la version anglophone de Wikipédia), Word2vec parviendra à résoudre l’équation suivante :

Man – King = Woman – ?
? = « Queen »

J’ai intentionnellement maintenu les termes en anglais car je ne suis pas certain que la même combinaison marcherait en français, où « homme » reste encore parfois employé dans un sens générique (et, au fond, assez sexiste) comprenant les deux sexes.

L’équation est plus « facile » à comprendre si on se rappelle que chaque mot constitue un « contexte d’apparition ». « Beethoven – Fidelio » représente en quelque sorte la situation du terme « Beethoven » une fois qu’on lui a retiré son affinité (ou ses relations) avec « Fidelio » :4. Par conséquent, lorsqu’on retire du contexte moyen d’apparition de « Beethoven » les configurations qui impliquent également l’apparition de l’opéra Fidelio (ce qui nous limiterait plutôt, par exemple, aux phrases où l’on discuterait des sonates de Beethoven) on effectue une opération analogue au retrait des phrases ayant trait à Freyschütz dans le contexte moyen d’apparition de « Weber ». Dans les deux cas, le retrait se traduit apparemment par l’occultation de cooccurrences prédites liées à l’évocation d’un opéra.

Il est aussi possible de se la représenter dans un graphique (en réduisant les nombreuses dimensions de la liste de nombre à deux dimensions permettant d’établir des coordonnées). L’image ci-dessous représente plusieurs projections « géographiques » dans l’article original de Mikolov et al. : les capitales sont reliées à leurs pays.

Mikolov

Vers une exploration de l’espace sémantique du texte ?

Pour produire un tel résultat, Word2Vec emploie une machinerie compliquée, qui repose notamment sur un réseau de neurone artificiel en partie aménagé pour traiter du texte. À chaque mot est associé une série de mots voisins (généralement de 5 à 10) qui forment le « contexte ». Dès qu’un mot apparaît, le réseau tente de prédire les mots voisins ; selon l’étendue de l’erreur, il met à jour la représentation condensée du mot (la liste de nombres) et les réglages internes (les « biais » propres à chaque neurone et les « poids » propres à chaque relation entre neurone)5 .

Word2Vec n’utilise qu’une version légère (ou « shallow ») des réseaux de neurone artificiel : concrètement il utilise peu de couches successives de neurones se transmettant l’information. Cette limitation technique lui permet de fonctionner très rapidement (l’entraînement sur le corpus Berlioz a pris à peine dix secondes). Par contre, la montée en abstraction est bridée : Word2Vec ne cherche pas vraiment à dégager de grands principes ou de grandes notions structurant ce qu’il lit (comme le ferait spontanément un lecteur humain). L’objectif principal reste d’aboutir à une représentation des contextes d’apparition des mots aussi correcte que possible sans vraiment s’attacher à faire émerger des méta-relations abstraites (même si, comme nous le verrons après, elles émergent quand même un peu).

Depuis 2013, Word2Vec a suscité un grand nombre de publications (l’article d’origine a été cité plus de 2000 fois…). Certaines ont démontré qu’il n’était pas nécessaire d’utiliser des réseaux de neurones artificiels au fonctionnement opaque pour trouver à peu près le même résultat. Le programme GLOVE développé par Stanford repose ainsi sur l’utilisation de cooccurrences entre les termes (le nombre de fois qu’un terme apparaît en concomitance avec un autre). En croisant les probabilités de cooccurrence, il devient possible de reproduire exactement le fonctionnement de Word2Vec — et ce manière bien plus lisible.

Présentant une approche similaire, un excellent article d’Omer Levy et Yoav Goldberg conclut que Word2Vec constitue avant tout « une excellente manière de préserver des motifs inhérents à une matrice de cooccurrence ». Sous l’effet de cette opacité ressentie, le champ de recherche des « words embedding » tend aujourd’hui à s’éloigner des réseaux de neurone. La dernière création du concepteur de Word2Vec pour Facebook, FastText (divulgué pas plus tard qu’il y a deux semaines) semble ainsi évacuer totalement cette piste6 .

Pour l’heure, à l’exception de FastText (que je n’ai pas encore testé : il faudrait que je mette à jour ma version de C++), les alternatives actuelles à Word2Vec présentent l’inconvénient d’être coûteuses en infrastructures et/ou en temps de traitement. Pour construire les matrices de cooccurrences géantes de GLOVE, il est nécessaire de disposer de beaucoup de mémoire vive. C’est jouable à l’échelle de grands projets disposant d’infrastructures distribuées — mais comme la plupart des digital humanists, je n’ai que mon petit portable.

Je vais donc tenter une autre approche : tenter de faire la même chose pour Word2Vec que ce qu’Underwood ont fait pour les régressions logistiques. Alors que l’outil est explicitement conçu dans une optique « moteur de recherche », je vais essayer de lui soutirer autre chose : faire émerger les principaux groupes d’entités et les liens qui les caractérisent, soit les tensions sous-jacentes à l’espace « sémantique » du texte.

J’insiste ici sur cet aspect sémantique : l’enjeu n’est pas de tracer un certain régime de discours ou un certain ensemble stylistique mais des classements ou des ontologies sous-jacentes d’une certaine production textuelle. Ainsi, dans le cas du corpus des critiques de Berlioz, il y aurait de toute évidence une famille des compositeurs et peut-être une famille des dénominations musicales spécialisées (ou peut-être pas…) et ces différentes familles seraient liées ou non entre elles.

Bref, nous utilisons ici Word2Vec à l’envers : il ne s’agit pas de retrouver des termes en fournissant des analogies mais de dégager les principales séries d’analogies inhérentes au texte, sans les soupçonner à priori. Par ce biais, il deviendrait possible d’identifier les classements et les ordres jugés implicitement important par le texte lui-même. Alors que l’analyse des entités nommées reste focalisée sur les groupements qui intéressent directement les industries de l’information (personne, lieu, organisation), nous pouvons très bien imaginer de retrouver des groupements beaucoup plus précis et/ou exotiques (les idéologies, les émotions, les termes économiques ou médicaux spécialisés, les ingrédients de cuisine ou, pourquoi pas, les positions sexuelles…) sans émettre de préjugés a priori sur ce qu’ils peuvent bien être. Dans une synthèse détaillée de l’utilisation des Words Embeddings pour les humanités (qui présente également au passage une extension de Word2Vec pour R) Ben Schmidt parvient aux même conclusions :

Less flexible data models like topic models lock you into one particular idea of what Catholicism, or food, or any other topic, might be. WEMs, on the other hand, explicitly enable searching for relations embedded in words. If there’s a binary, it’s open for exploration.

En ce qui me concerne, l’idée m’est venue par hasard. J’utilise depuis quelque temps Word2Vec pour reconstituer des « réseaux de discours » : je relie chaque couple de terme présentant une affinité positive supérieure à 0,7 (enfin, selon les cas, ça flotte entre 0,6 et 0,8). Au sens large, ils tendent à se regrouper par type de discours (ce qui est assez logique vu que le « contexte » ne s’étend pas au-delà de dix mots) et nous parvenons à générer des réseaux de termes qui correspondent assez bien à ce que trouvent par ailleurs les bons vieux algorithmes de topic modeling. Dans ma thèse, j’ai ainsi utilisé cette méthode pour présenter visuellement la distinction entre les deux principaux sous-genres de la chronique boursière française à ses débuts : une chronique d’économie politique fortement influencée par le saint-simonisme et une série d’énoncés très formalisés sur l’évolution des cours (les actions de X sont à Y, et ainsi de suite).

Réseau de discours à partir du corpus de chroniques boursières du Journal des débats de 1838 (en vert, le discours "saint-simonien", en rouge le discours "procédural")
Réseau de discours à partir du corpus de chroniques boursières du Journal des débats de 1838 (en vert, le discours « saint-simonien », en rouge le discours « procédural »)

Lorsque j’ai appliqué le même traitement au corpus Berlioz en janvier dernier, j’ai été soudainement frappé par un ensemble surprenant :

CompositeursÀ l’exception de l’anomalie « l’école » (mais qui est cependant instructive…) tous les compositeurs se retrouvent hébergés dans le même réseau qui est coupé du reste. J’ai ainsi pris conscience que mon réseau ne représentait des types de discours que par accident (au niveau méta où les familles de termes tendent elle-même à s’agréger dans des systèmes de discours où elles s’illustrent préférentiellement). Le véritable échelon est sémantique : celui des groupements d’entités qui fait pour un texte comme une critique musicale, l’ensemble « compositeur » forme une distinction pertinente (alors que ce ne serait clairement pas le cas pour la chronique boursière formée à la même époque).

Essai de dégagement des ensembles sémantiques

Depuis lors, j’ai été en partie obsédé par l’idée de dégager spontanément ces ensembles sémantiques. La principale difficulté vient de la multiplicité des relations « encodées » par Word2Vec. Le terme « roi » peut ainsi correspondre au versant masculin de reine, mais aussi au supérieur du duc ou du comte… Il est difficile d’être certain de dégager a priori les ensembles sémantiques les plus pertinents — soit reflètent le mieux les classifications/ontologies sous-jacentes du texte.

J’ai utilisé ici plusieurs « trucs » :

(1) Un contexte suffisamment élevé (de l’ordre de 10 mots). Plus le contexte est faible, plus le réseau de neurone va se focaliser sur des relations syntaxiques (singulier/pluriel, masculin/féminin, passé/présent) qui se concentrent généralement dans le voisinage immédiat du mot (articles, verbe, préposition) ; plus il est élevé, plus les relations sémantiques vont prendre le dessus. Pour notre workflow, les relations syntaxiques présentent assez peu d’intérêt : Word2Vec n’est pas très bon à ce jeu là et nous utilisons déjà un outil plus efficace en (2).

(2) Un étiquetage syntaxique en amont. À chaque terme nous associons un type grammatical (nom commun, adjectif, verbe, nom propre). Pour ce faire, nous avons employé l’application Talismane développée par Assaf Urielli qui obtient de bon résultats pour le français. Nous obtenons un très long tableau répertoriant pour chaque occurrence du mot, son lemme, son type grammatical et tout un tas d’information (personne, genre, temps, etc.).

(3) Découper Word2Vec. L’étiquetage syntaxique permet déjà d’opérer une meilleur lemmatisation que celle présente par défaut dans les extensions de R ou de python : au lieu d’avoir des bouts de mots parfois mal coupés qui génèrent des ambiguïtés, nous obtenons directement les formes « de référence » (verbes à l’infinitif par exemple). Surtout, une fois que nous avons fait tourné Word2Vec sur le corpus lemmatisés, nous pouvons sélectionner les termes en amont afin de limiter les croisements non désirés. Nous avons ainsi exclusivement travaillé sur les noms communs et les noms propres en excluant d’emblée tout le reste.

(4) Élaborer une matrice des « affinités » sur l’ensemble des termes sélectionnés. Pour pouvoir calculer les affinités entre deux listes de nombres correspondant à chaque mot, Word2Vec fait appel à la mesure de la « distance cosine » (en gros à 1, les listes sont totalement identiques et à -1 elles sont totalement différentes). Comme je voulais faire les calculs en masse sur l’ensemble des noms communs, j’ai préféré faire appel à R plutôt que Gensim : il y a une charmante fonction « cosine » dans l’extension « lsa » qui établit d’un coup la matrice des affinités croisées entre chaque mot. Pour les noms propres, nous obtenons à terme, un gros tableau réciproque avec 1805 entrées et autant de colonnes. Afin de diminuer la taille de cette grosse matrice, nous nous sommes limités aux termes apparaissant plus de cinq fois (de toute manière, en-deçà de cette limite, Word2Vec commence à peiner à raccrocher le terme à un contexte pérenne).

Matrice des affinités croisées
Matrice des affinités croisées

(5) Projeter les principales relations dans un réseau. Nous utilisons un autre truc de R : la fonction « melt » de l’extension « reshape2 » qui permet de faire « fondre » une matrice. Toutes les colonnes deviennent des noms de variable ; toutes les valeurs migrent dans une colonne unique. Bref, nous avons l’architecture de base d’un graphe de réseau avec une source, une cible et une valeur indicative de la relation.

Matrice_MeltIl suffit de rouvrir le document dans Gephi pour obtenir rapidement un réseau de bonne taille. Nous activons la reconnaissance des « clusters » et procédons au rapprochement des ensembles de nœuds liés… et voilà :ReseauBerlioz

Le graphe des noms communs comprend au total une petite dizaine de grands ensembles sémantiques. Nous allons successivement zoomer sur les principaux. Le gros ensemble du haut correspond clairement aux compte-rendu d’opéra (ce qui corrobore mon intuition que les ensembles sémantiques tendent à se recouper en ensembles stylistiques). Il se découpe en deux sous-ensembles : les personnages (en orange) et un magma plus indistinct comprenant les lieux les objets et, plus vaguement, des éléments d’intrigues (en rose). Même si on peut considérer que cette classification recoupe en partie les subdivisions classiques des analyses des entités nommées entre personnes et lieux, la tournure qu’elle prend est définitivement spécifique au corpus étudié : la nature des intrigues d’opéra est déterminante dans l’articulation entre les entités.ReseauBerliozOpera

Un peu plus loin, nous glissons sur un groupement plus inhabituel (que je qualifierai de « sentiments »). À nouveau il ne s’agit pas de sentiments en général, mais bien de « sentiments dans la perspective d’une description de la réception musicale vers le milieu du XIXe siècle ». D’où le primat accordé à des qualificatifs ayant une connotation musicale intrinsèque (même si elle peut dériver vers le « sentimental ») : « harmonique », « accentuation », « lenteur », « intonation », « hardiesse »…ReseauBerliozSentiment

Un dernier ensemble intéressant a trait à la description musicale. Il se subdivise à son tour en des sous-ensembles plus nettement sémantiques : l’un, en bleu, est axé sur la description musicale formelle (d’où les notes et les qualificatifs spécialisés), l’autre (en gris) s’oriente vers la performance musicale. Il tend d’ailleurs à s’éfiler vers un autre mini-réseau (non représenté ici) où se concentrent les formes d’institutions (philharmonies, etc.).ReseauBerliozMusique

Il est également possible de faire des « zooms » (même si ma méthode est pour l’instant un peu tortueuse : j’extrais la liste des mots intégrés dans les clusters de Gephi qui m’intéressent ; puis histoire d’approfondir un peu le réseau je reviens chercher des termes proches via Gensim). Pour les sentiments cela donne ceci :ReseauBerliozSentimentZoom

On voit que le groupe peut être à son tour subdivisé en plusieurs sous-groupe selon que le sentiment vise à rendre directement compte d’une idée musicale (c’est très net en violet, en haut) ou qu’il s’inscrit dans la cadre d’une phraséologie romantique plus générale (le groupe en bleu plus foncé autour de « mélancolie » viendrait bien dans ce cadre).

Quelques perspectives

Au terme de cette petite exploration, je suis assez convaincu que les vecteurs de mots vont s’imposer parmi l’une des mesures privilégiées pour qualifier et documenter les textes. Même s’ils apparaissent opaques, ces réductions présentent les mêmes avantages que les fichiers ZIP : ils permettent de transmettre en prenant une place très réduite un grand nombre d’informations sur un corpus. Certains digital humanists ont déjà commencé à envisager ce tournant : Ryan Heuser (du Literary Lab de Stanford) vient de publier un fichier référençant les vecteurs correspondant à 150 000 ouvrages anglais du XVIIIe siècle ; il pèse 40 mo (alors que l’étalon du corpus d’origine doit être de l’ordre de la centaine de gigaoctet).

Je serai prêt à parier que dans les dix prochaines années, les langages de références d’éditorialisation scientifique des textes (comme TEI) intègreront des balises spécialisés pour relier des termes aux vecteurs de mots correspondants.

D’ici là, plusieurs problèmes (qui sont autant de défis) restent à résoudre :

1) Pouvoir comparer des vecteurs de mots distincts. C’est évidemment sympathique de pouvoir distribuer des représentations légères de corpus volumineux mais ce serait bien mieux d’arriver à les croiser. Si jamais je déportais mon attention sur la presse anglaise du XVIIIe siècle (cela m’est déjà arrivé ponctuellement par le passé…) je serai sans doute très heureux de confronter mes résultats avec ceux obtenus par Ryan Heuser sur la littérature de la même époque (ce qui permettrait notamment de différencier les ensembles sémantiques privilégiés par des productions textuelles différentes). Et c’est envisageable… depuis un mois (quand on vous dit que la recherche sur le sujet avance vite). Depuis le 8 août, un nouvelle recherche sur l’évolution du vocabulaire dans les corpus de Google Books présente une méthode pour recroiser des word embeddings issues de corpus distinct (apparemment ça marche même lorsque la méthode est différente). La manipulation porte le doux nom de Procruste Orthogonal et n’a pas l’air très compliquée à implémenter. Les programmes du projet ont été publiés sur Github (et incluent notamment une version en Python à destination de corpus de plus petite taille).

Exemples de dérives sémantiques avec des word embeddings.
Exemples de dérives sémantiques avec des word embeddings.

Il y a un corollaire à cette difficulté : résoudre l’ambiguïté des termes. Comme les applications utilisées travaillent à partir de mots bruts, il n’y a pas de ressources externes pour résoudre les homonymies et, plus largement, les polysémies. L’information est néanmoins vraisemblablement présente dans les word embeddings : l’extension de Ben Schmidt pour R inclut ainsi une fonction pour effectuer un « rejet du vecteur » ; ainsi pour le mot anglais « bank » qui indique aussi bien une rive qu’une banque, il est possible de corriger les données du vecteurs qui s’oriente vers la finance, et vice versa, pour aboutir à terme à deux vecteurs distincts. Schmidt présente une application très intéressante de cette fonction : évaluer l’influence du genre sur la signification de qualificatifs. L’image ci-dessous, un ensemble d’adjectifs similaires à bossy selon que les contextes « féminins » (marqués par l’utilisation de « her » ou « she ») sont conservés ou non.unnamed-chunk-10-12) Automatiser autant que possible l’ensemble du processus. L’essai de méthode que j’ai tenté de développer est problématique à cet égard : on passe par plusieurs couches d’évaluation probabiliste avec le risque de détériorer à chaque fois davantage les résultats (soit sucessivement : Word2Vec —> Talismane (pour la sélection, pas toujours parfaite des catégories grammaticales) —> Gephi (pour la détection des clusters de mots). Et le jugement humain est toujours nécessaire en sortie pour identifier à quelle « famille » les groupes d’entités correspondent. Pour cette dernière étape, je réfléchis actuellement à deux pistes :

  • S’agissant des noms communs : confronter les termes à des ontologies comme Wordnet. Il devrait être possible d’indiquer a minima le champ lexical global des termes même si l’on perdra sans doute de l’information au passage (peu de chance de la dimension opéraique des clusters de lieu et de personne chez Berlioz soit réellement conservée).
  • Pour les noms de personne, sous réserve qu’ils soient suffisamment connus, Wikidata pourrait faire l’affaire. Avec suffisamment de termes, il devrait être possible de contourner les homonymies (s’il existe clairement plusieurs Weber, le Weber entouré de Beethoven, Liszt et Haydn est très probablement le musicien).

Si j’insiste autant sur l’automatisation, c’est que je pressens que les words embeddings vont surtout trouver leur utilité dans les corpus peu étudiés. Leur apport pour comprendre l’écriture musicale de Berlioz (déjà bien connue) reste assez limitée. Par contre, ils peuvent constituer des outils d’exploration déterminants pour des collections méconnues. Or, c’est ce type de texte qui va graduellement irriguer le web à grande échelle : les journaux et les périodiques commencent tout juste à rentrer en masse ; dès que la reconnaissance des caractères sera au point (et, à nouveau, on attend les réseaux de neurones au tournant) on pourra s’attaquer peut-être aux archives manuscrites.

3) Ouvrir les réseaux de neurones et lever une partie de l’opacité entourant leurs méthodes de sélection. S’agissant de Word2Vec plusieurs initiatives ont commencé à s’y employer (j’avais un moment mis la main sur une amusante visualisation interactive en Javascript mais je n’arrive plus à la retrouver…). Dans le fil de mes analyses du réseau Berlioz, je me suis amusé à tenter d’évaluer les « affinités » entre les dimensions (arbitraires) du vecteur. Je soupçonne que, en accord avec l’architecture classique d’un réseau de neurones, chaque dimension pourrait être rattachée à un plus grand ensemble. L’illustration ci-dessous représente le résultat d’une matrice d’affinité non pas entre les mots mais entre les dimensions : même si l’ensemble paraît assez désordonné les affinités tendent à se grouper en « régions » de plus grande ampleur (pour clarifier ces clusters, les classes ont été ordonnées selon une mesure d’ordered dissimilarity image (ODI) inclue dans l’extension factorExtra de R).

DistClasseNNOrderedPour approfondir la question, j’ai entrepris de sélectionner les mots qui avaient le plus haut coefficient au sein de certaines dimensions. Sans trop de surprise, on retrouve des thèmes cohérents (mais pas systématiquement). La dimension 8 stocke ainsi (en positif), une bonne partie du vocabulaire lié au champ lexical de « l’intrigue d’opéra » : main, amour, cœur, esprit, mort, ami, père, âme, fils, bruit, tour, côté, mariage, génie, frère… Par contre, l’axe positif/négatif de chaque dimension ne semble pas renvoyer à des sens concrets ou alors à la rigueur, selon une méthode parfois employée dans le topic modeling il fait allusion à des termes « repoussoirs » qui exclut l’activation de cette dimension. Au revers de la dimension 8, nous trouvons ainsi : mais, an, personne, en_outre, mois, dix, neuf, extrêmement, admirablement, rubini…

Si le réseau pouvait également nous envoyer directement des signaux de bas niveau, l’automatisation du processus deviendrait sans doute plus fiable : au lieu de reconstituer des « clusters » a posteriori sur Gephi on pourrait simplement récupérer ceux qui étaient déjà là a priori.

4) Et le deep learning ? Comme je le précisais déjà plus haut, Word2Vec ne représente que du shallow learning (de l’apprentissage léger avec peu d’étapes intermédiaires). Le deep learning appliqué au texte reste pour l’instant de l’ordre de la perspective inaboutie. le véritable défi consisterait à développer des interfaces adaptés. Pour les images, l’architecture actuellement utilisée (et initialement développée par Yann Le Cun) est très spécifique : l’unité de départ est un carré de x sur y pixels, soit littéralement un morceau d’image.

Word2Vec ne pioche pas véritablement de morceau de textes : s’il y a des bouts de contexte (les séries de 5 à 10 mots), l’ordre dans lequel les mots apparaissent n’a aucune importance. Une partie des recherches actuellement en cours visent à intégrer au moins la dimension du « paragraphe » comme entité signifiante ; FastText intègre de son côté un système parallèle de reconnaissance syntaxique (en conservant des subdivisions du mot de plus bas niveau, de 3 à 6 lettres).

Il serait sans doute souhaitable d’intégrer encore d’autres dimensions du texte, telles que la syntaxe (vu que les réseaux de neurone ne brillent pas spécialement dans ce domaine), les entités nommées (lorsqu’elles sont correctement étiquetées, comme le permet le langage TEI), les structures éditoriales (titre, page, chapitre, section…), le voisinages des images (avec, pourquoi pas, des systèmes de reconnaissance d’image et de texte fonctionnant en synergie), voire le vaste monde des métadonnées (ce qui prendrait tout son sens pour étudier des corpus composites comme la presse où cohabitent auteurs, sociabilités et régimes de discours éminemment distincts…).

Évidemment l’intégration de tous ces éléments requerrait des architectures bien plus complexes reposant par exemple sur l’articulation de plusieurs couches distinctes de neurones en entrer,. Et pour de ce texte « riche » des enseignements suffisamment cohérent, nous n’avons sans doute pas trop le choix que de gagner en « profondeur », de faire circuler l’information au travers d’un grand nombre de couches de neurones et, par généralisations successives, aboutir à des vecteurs de mots sans doute beaucoup plus riches et pertinents que ceux dont nous disposons aujourd’hui.

  1. En fait il s’agit d’un peu plus qu’un analogue : l’une des techniques fondamentales de réduction, le codage de Huffman, se retrouve dans Word2Vec afin de diminuer les temps de traitement pour les termes les plus courants
  2. Je ne vais pas rentrer dans ces détails, mais il convient de signaler que pour mener à bien ce processus de sculpture, Word2Vec peut utiliser deux modèles différents : le « sac de mots » (où un mot est prédit à partir de ses voisins) et le skip-gram (qui marche à l’inverse : un mot doit prédire ses voisins).
  3. En toute honnêteté, la liaison ne marche à tous les coups : ici j’ai utilisé un modèle avec un « contexte » de 5 mots (sur cette histoire de contexte, voir plus loin…) ; avec 10 mots, cela ne marchait plus. Cette variabilité des résultats est l’une des principales faiblesses de Word2Vec
  4. Je simplifie volontairement : il ne s’agit pas d’une soustraction simple
  5. Pour une description très détaillée du fonctionnement des réseaux de neurones artificiels je recommande l’excellent Neural Network and Deep Learning de Michael Nielsen. À noter que, le ratio de mot activés/mots passifs étant très faible pour chaque série contextuelle, Word2Vec emploie un modèle probabiliste : les 5 à 10 mots vont être confrontés à une série de mots prise au hasard. Comme l’opération est renouvelée à plusieurs reprises (on parle alors d’epochs), cette sélection aléatoire en vient à constituer une représentation valable du corpus en général…
  6. Ce n’est pas dit clairement mais dans le corps de l’article la nouvelle méthode est contrastée avec les réseaux de neurones

Les données ouvertes et la recherche : quel état des lieux ?

Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl 🙂 ).

Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.

Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…

Que disent les chercheurs ?

Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.

Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.

La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».

Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.

La majorité des interrogés (n = 1 915) connaissent l'existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.
La majorité des interrogés (n = 1 915) connaissent l’existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.

Parmi les interrogés, une proportion importante a déjà fait des démarches d'ouverture de données.
Parmi les interrogés, une proportion importante a déjà fait des démarches d’ouverture de données.

Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu'une autre équipe de recherche a mises à disposition.
Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu’une autre équipe de recherche a mises à disposition.

Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu "pas du tout important" est pratiquement de 0 %.
Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu “pas du tout important” est pratiquement de 0 %.

Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu'une citation d'article, si ce n'est plus (10 % des interrogés).
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu’une citation d’article, si ce n’est plus (10 % des interrogés).

De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.

Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :

  • Une majorité des chercheurs (y compris des jeunes chercheurs) ont besoin d’accompagnement légal pour naviguer les complexités contractuelles de leurs financements. Ce besoin est exprimé aussi bien par les chercheurs ayant déjà publié des données en open data que par ceux qui ne l’ont jamais fait auparavant.

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le "niveau d'ouverture" desdites données.
Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le “niveau d’ouverture” desdites données.

Le paysage des financements est très embrouillés : une majorité ne sait pas qui financera les démarches d'ouverture de données.
Le paysage des financements est très embrouillé : une majorité ne sait pas qui financera les démarches d’ouverture de données.

La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :

  • Le rôle des bibliothécaires a énormément évolué : ceux-ci se retrouvent au croisement des connaissances sur les données, le code et les cadres légaux ;
  • La perception de la publication scientifique a aussi énormément changé : un article n’est plus l’objet unique, statique, composé de texte gravé dans le marbre. Comme on l’a déjà dit par ailleurs sur ce blog, l’article scientifique est devenu la pub pour votre recherche ; ainsi, la routine éditoriale implique aujourd’hui la publication conjointe de l’article, des données produites dans le cadre de l’étude, du code utilisé pour les analyser et, dans certains cas, de fichiers multimédias annexes. La publication scientifique est donc une version de la connaissance du sujet pouvant évoluer.
  • Le volume a une importance (ou, plus prosaïquement, size matters) : si vous vous intéressez un peu au monde des données, vous ne serez pas étonné-e que l’attention (médiatique, financière) se porte le plus souvent sur le big data (les mégadonnées dont la volumétrie dépasse les terabytes). Cependant, les small data restent fermées : seulement 22 % des chercheurs indiquant produire des mégabytes partagent leurs données. Mais c’est aussi là que se cachent la diversité et les informations importantes mais trop souvent négligées, à savoir les résultats négatifs, les figures rejetées de l’article final, etc.

Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :

  1. Les métadonnées : il s’agit de ce que l’on appelle communément des données sur les données (date de création du fichier, son format, etc.). Dans la mesure où une publication devient une version d’enregistrement de la connaissance, une quantité invraisemblable de métadonnées vient avec cet objet : on a aussi bien celles générées par l’utilisateur que celles générées par le traitement automatique. Il y a par ailleurs de nombreux éléments du processus de recherche qui ne figurent pas (encore) au firmament des objets à ouvrir : les protocoles expérimentaux utilisés, les réglages des appareils, etc. La quantité de métadonnées accompagnant la publication de données et résultats scientifiques ne fera donc que croître et on se retrouve rapidement dépassé-e par les volumes à appréhender et gérer.
  2. La « curation » : autrement dit, le fait de choisir ce qui est pertinent pour un sujet donné. Faire de la veille implique de faire ces choix-là et passe par diverses étapes qui enlèvent ce qui est peu pertinent et qualifient les sources retenues pour une exploitation future. Mais si on a des outils plutôt corrects pour suivre les publications de nos pairs, comment gérer l’invraisemblable quantité de métadonnées dont je parlais juste ci-dessus ? Les auteurs soulignent ainsi le besoin de toujours créer des outils pour structurer les métadonnées et les travailler pour faciliter leur curation et (ré)utilisation ultérieures.
  3. La revue par les pairs : j’allais parler de Retraction Watch (même si les auteurs ne le font pas), de la publication de résultats négatifs ou neutres et de diverses autres initiatives telles que Software Carpentry, Run my Code, etc. mais je vais laisser pour une prochaine fois.

« L’économie politique de la recherche »

Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :

Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.

Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :

  1. Les données ouvertes (mouvement open data) sont une plateforme commune où les chercheurs, les institutions de recherche et les bailleurs de fonds peuvent échanger autour des difficultés pratiques de l’ouverture et la réutilisation des données issues de la recherche.
  2. Les données ouvertes contribuent à une discussion plus large autour de la transparence et de la légitimité des financements ainsi que à celle du retour sur investissement, piliers des politiques publiques de la recherche et préoccupations des bailleurs de fonds.
  3. Le mouvement open data s’aligne sur des défis plus globaux tels que les acteurs désormais incontournables de la recherche issus de centres scientifiques hors de la zone euro-américaine.
  4. Les données ouvertes sont un exemple de l’introduction de la recherche scientifique dans des logiques de marché. Assez pragmatiquement, ce point aborde la conception des données comme des objets politiques, sociaux et financiers. « L’idée même des données scientifiques comme artéfacts pouvant être vendus, échangés et réutilisés pour créer de nouvelles formes de valeur est indissolublement liée à la logique de marché où les données sont des objets d’échange ». De même, l’idée de libre circulation de données scientifiques pose des défis quant à la conception de compétition et propriété non seulement au sein de la communauté scientifique, mais aussi dans les interactions de celle-ci avec d’autres acteurs.

Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :

[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.

Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !

Les nouveaux modes d’éditorialisation du libre accès : l’étude critique de 2016 est là !

Je diffuse aujourd’hui mon principal projet de ces derniers mois, qui marque également l’aboutissement d’une réflexion engagée depuis plusieurs années sur Sciences communes : une étude critique sur les nouveaux modes d’éditorialisation des revues scientifiques en accès ouvert réalisée pour BSN — et très opportunément, cela tombe en pleine Open Access Week

couverture_rapport
Cliquez sur l’image pour accéder au rapport (hébergé sur scoms en attendant HAL)

L’étude n’est que la version « synthétique » d’une quarantaine de pages d’un ouvrage qui paraîtra dans quelques mois. On peut retrouver également certains éléments propres à l’ouvrage (non repris dans l’étude) dans la présentation que j’en ai tirée pour la BSN et que j’ai ressorti la semaine dernière pour le séminaire PragmaTIC :

Support de présentation de l’étude pour BSN

Le libre accès connaît aujourd’hui un tournant majeur. Il entre dans la loi : la Loi pour une République numérique prévoit un droit de republication des versions auteur ainsi qu’une exception au droit d’auteur pour faire de l’extraction automatisée de textes et de données (text & data mining, encore connu sous le sigle TDM). Au-delà de cette officialisation, le libre accès, sous toutes ses formes (archives ouvertes, revues, bases de données) est devenu un phénomène massif et incontournable, toutes disciplines, communautés et pays confondus.

De quel libre accès parle-t-on ?

La mise à disposition gratuite, voire sous licence libre, dissimule des choix éditoriaux, économiques et même politiques, radicalement distincts. Une partie du mouvement du libre accès est ainsi tentée par une mutation a minima : le journal flipping, soit une reconversion (to flip) des budgets consacrés aux abonnements en achats de « droits à publier » en libre accès, sans rien changer aux montants.

Cette reconversion maintient en l’état l’oligopole des géants de l’édition scientifique (bien présenté dans le dernier Datagueule), voire en étend la portée. Car un acteur comme Elsevier n’attend pas la généralisation du libre accès pour amorcer sa reconversion. Les acquisitions successives de Mendeley ou de l’archive ouverte SSRN (en attendant, peut-être, celles de ResearchGate ou Academia) témoignent de l’avènement de formes de contrôle et de captation inédites de l’activité scientifique : les interactions des chercheurs autour de leur publication alimentant un vaste recueil de métriques, revendues entre autres aux institutions universitaires. Nous assistons à l’émergence d’un nouveau modèle économique de l’édition scientifique assez largement inspiré de celui des grandes industries du web comme Facebook ou Google.

Une autre édition est possible

D’autres modèles existent : de par son ampleur-même, la conversion au libre accès autorise une réforme plus globale des conditions de diffusion de l’écrit scientifique. Les évolutions sont déjà engagées. C’est ce que rend visible la « cartographie » des pratiques et des initiatives émergentes qui se décline sur les quatre parties du rapport : outils d’édition, formes d’écritures, dispositifs d’évaluations et modèles économiques connaissent des transformations parfois radicales — et parfois convergentes. L’article n’est plus seulement ce un objet fixe et immuable une fois le processus de publication achevé mais connaît une multitude d’incarnation ultérieures (par exemple en se métamorphosant en données grâce aux techniques de text & data mining). L’évaluation ne s’arrête pas davantage au seuil de la revue : en s’ouvrant (open peer review), elle prend la forme d’une réception continue.

capture-decran-2016-10-27-a-16-18-45
Analyse de correspondance réalisée à partir des données d’une étude sur les pratiques d’écriture de 20 000 chercheurs : l’utilisation d’outils libre est étroitement liée à la pratique en libre accès (orange) tandis que des pratiques émergentes mettent davantage l’accent sur la réplication (bleu).

En 2016, la question n’est plus tant de susciter ou de développer des innovations, mais de les intégrer et de les combiner dans des infrastructures cohérentes. L’architecture du web permet de faire cohabiter et « dialoguer » des modèles très différents par le biais de standards communs. Pour soutenir cette « bibliodiversité », il est nécessaire de la donner à lire, de faciliter la circulation d’une forme à l’autre et d’une plateforme à l’autre. J’ai ainsi proposé une petite projection (connus par les initiés de BSN sous le nom de code de « slide 63 ») du rôle déterminant que pourraient désormais jouer les archives ouvertes au-delà du simple recueil de l’article en recensant la pluralité de ces incarnations : évaluations, réplications, extraction de données…

Projection d'une archive ouverte augmentée
Projection d’une archive ouverte augmentée (à partir d’un article déjà déposé dans HAL)

L’élaboration des infrastructures ne soulève pas des enjeux que « techniques ». Finalement un acteur comme Elsevier pourrait très bien jouer ce rôle (et commence à le faire). La différenciation s’opère sur un autre plan : celui, « politique », de la gouvernance. L’enjeu double est aussi bien d’empêcher le détournement de l’open access au profit de nouvelles enclosures que de développer des processus de prise décision plus efficaces et mieux adaptés à un contexte fortement évolutif. Le futur de l’édition scientifique passe ainsi peut-être par l’avènement de grandes plateformes auto-gérées. Celles-ci s’inscriraient la lignée de communs numériques comme Wikipédia ou OpenStreetMap, mais avec des modèles forcément différents, qui restent encore à inventer.

Bien qu’il m’ait été officiellement confié en janvier dernier, le rapport a été « préparé » depuis trois ans sur Sciences Communes. Le présent carnet a été créé en 2013 dans la perspective d’étudier et de référencer les « les nouvelles pratiques de réutilisation des publications et des données scientifiques ». Le rapport va aujourd’hui beaucoup plus loin que ce que j’imaginais alors : j’étais alors plutôt focalisé sur les questions de licences, tout en ayant en tête la perspective d’un écosystème élargi, né de la mobilité inédite des textes et données de la recherche (mon rapport particulier à l’open access, découvert alors que j’étais un simple contributeur sur Wikipédia dans l’incapacité d’accéder aux grandes bases d’articles sous paywall, n’y est pas étranger). Les dimensions de la « cartographie » du rapport sont en partie apparues dans le fil de ce carnet : la possibilité d’une captation de l’open access par des industries académiques 2.0, la nécessité d’une réponse politique, la longue « préhistoire » du libre accès…

Il y a une autre forme de continuité. Dans le rapport comme dans Sciences communes, les opportunités ouvertes par les nouvelles méthodes et formes d’écriture scientifique ne sont pas juste signalées mais mises en pratiques et exploitées. J’ai ainsi repris des données déposées sur Figshare ou Zenodo et j’ai développé des programmes d’extractions automatisés d’articles scientifiques (notamment pour situer le débat académique sur le terme d’open peer review) — tout comme, j’ai pu, par le passé, publier ici des « expériences » (1, 2, 3) qui démontraient, par l’exemple, l’opportunité de penser la publication scientifique comme une production croisée de textes, de données, de codes et de visualisations.

Réseau de similarité entre termes dans les blogs référencés dans l'Open Access Directory
Essai de text mining sur les blogs référencés dans l’Open Access Directory. Le réseau de similarité entre les termes met en évidence l’importance croissante des thématiques éditoriales (données, évaluation…) dans le mouvement sur libre accès

Et puis, ce travail est une forme de production collaborative par procuration. Si j’en suis techniquement le rédacteur, je ne peux pas laisser de côté toutes les influences, déterminantes, qu’il laisse percevoir : celles de mes « encadrants » (Serge Bauin, Emmanuelle Corne, Jacques Lafait et Pierre Mounier), celle de ma collaboratrice sur Sciences Communes Rayna Stamboliyska (qui a directement contribué à l’écriture de ce présent billet), celle de mes collègues de SavoirsCom1 (Lionel Maurel, Thelonious Moon, Mélanie Dulong de Rosnay — également contributrice sur Sciences Communes) et de tant d’autres, théoriciens ou acteurs du libre accès (Marin Dacos, Daniel Bourrion, Guillaume Cabanac, Marie Farge…)

De Trump à Léophane : d’une débâcle journalistique à une victoire désinformationnelle ?

[Analyse écrite à quatre mains]

Le 1er février, Le Monde lançait en fanfare un outil de vérification de l’information, Decodex. Dix jours plus tard, une adresse IP du journal s’est retrouvée bloquée pendant neuf mois sur Wikipédia pour… avoir introduit de fausses informations sur l’encyclopédie libre. Le journaliste scientifique du Monde, Pierre Barthélémy, a en effet créé (et laissé en place pendant plusieurs semaines) un article presque entièrement faux, consacré à un philosophe grec méconnu, Léophane. Le but de Pierre Barthélémy : faire “une expérience pour un article sur la vérifiabilité des infos sur Internet à l’heure des fake news”.

Quel lien entre la controverse autour de Decodex et les agissements de P. Barthélémy ? Certes ces deux événements ne sont pas directement liées. Mais les deux s’inscrivent dans un contexte particulier : le sentiment d’évoluer dans une « ère post-vérité » où l’exactitude des informations est sans importance et où toutes les sources se valent quelles que soient leurs approches de qualité des informations. Le point de départ de Decodex — aider les lecteurs du Monde à “se repérer face à une vague toujours plus forte de fausses informations” — et la prétendue exploration de P. Barthélémy semblent ainsi complémentaires. Nous ne commenterons pas ici la démarche de Decodex.

Nous avons demandé un droit de réponse au Monde spécifiquement après la publication d’un article par P. Barthélémy où il détaille son approche. Notre positionnement est multiple : scientifiques, éditorialistes et contributeurs à Wikipédia, nous identifions de graves problèmes dans la démarche de P. Barthélémy. Ces manquements sont aussi bien en amont qu’en aval de la publication de son article. La gravité des faits commis par P. Barthélémy et le manque apparent d’évaluation de l’impact de ses agissements s’ajoutent à l’outrage qui est le nôtre et celui de collègues, constaté à travers diverses discussions ces derniers jours.

Quels problèmes cette démarche pose-t-elle ?

On lit dans son article que P. Barthélémy place clairement sa démarche sous des auspices politiques : “L’idée m’est venue à l’automne dernier, lors de la campagne présidentielle américaine, marquée du sceau de la « post-vérité » et des « fake news ».” En décembre 2016, le journaliste crée donc une entrée sur Léophane. Il s’agit d’un obscur philosophe grec ayant véritablement existé. Pourtant, la page sur Léophane contient un mélange d’informations vraies et inventées. Barthélémy imagine que le personnage élabore une “méthode thérapeutique fondée sur les couleurs” et décède de l’épidémie de peste d’Athènes. Il s’appuie par contre sur une des meilleures estimations de sa chronologie (naissance en -470 et décès en 430 av. J-C) et relaie en détail sa contribution la mieux documentée à l’histoire naturelle (la détermination du sexe de l’enfant par la position des testicules).

Même pour un connaisseur, ce mélange faux-vrai est difficile à dénouer. Les sources antiques et les études modernes sur Léophane sont très limitées. De l’aveu d’un spécialiste, Lorenzo Perilli, “il est ignoré dans tous les ouvrages de référence que j’ai pu consulter”. Seule la consultation des sources apportées par Barthélémy aurait permis de “falsifier” ses contributions. Or, elles ne sont pas en libre accès : contributeurs bénévoles, les wikipédiens n’ont généralement pas accès aux revues ou aux publications sous paywall, diffusées à des tarifs prohibitifs.

En outre et de manière à rendre son canular encore plus ressemblant à la vérité, P. Barthélémy introduit des références à Léophane sur des articles Wikipédia mieux exposés (Hippocrate, Théophraste). Ces liens sont censés servir de preuves de la véracité du Léophane tel que narré par P. Barthélémy.

On est ainsi face à la création délibérée de fausses informations et le vandalisme de diverses ressources sur l’encyclopédie en ligne. Si l’on y regarde de plus près, une telle démarche est irrespectueuse quant au travail entièrement bénévole des modérateurs, administrateurs et contributeurs de Wikipédia. Ceux-là ont ainsi raison de se sentir dénigrés et pris pour des “rats de laboratoire”. La démarche de P. Barthélémy est d’autant plus incompréhensible qu’elle émane d’un compte utilisateur “jetable” (Pomlk2) et de plusieurs adresses IP : toutes les éditions sont donc faites anonymement, même s’il est très facile d’identifier à quelle institution appartient l’adresse. Si un tel anonymat peut être évoqué pour mimer une prétendue démarche de “fausseur”, on ne comprend pas pourquoi l’équipe de modération Wikipédia n’est pas informée. Par conséquent, l’une des adresses IP utilisées par P. Barthélémy, appartenant aux adresses du Monde, est bloquée pour neuf mois pour vandalisme. Bel exploit.

Mais si ces éléments sont, somme toute, secondaires, arrêtons nous aux véritables problèmes :

7/ @PasseurSciences : pour un canular réussi (et il en a existé), il faut : un objectif, un objet d’études, une méthode. Rien de tout ça ici

— Alexandre Moatti (@A_Moatti) 13 février 2017

Quel est le lien avec les “fake news” et l’élection américaine ? Quelle méthodologie sous-tendant cette “expérience” ? Et quid de l’éthique ? Souvenez-vous, aussi bien les scientifiques que les journalistes en ont une : alors, on s’attendrait à ce que P. Barthélémy fasse preuve d’un excès de précautions et d’une rigueur exemplaire. Malheureusement, il n’en est rien.

Une “expérience” sans méthode

Puisque P. Barthélémy parle d’“expérience” et tente de se placer dans la position de celui qui crée du savoir précédemment inexistant, sa démarche peut être assimilée à celle d’un chercheur. Regardons-y avec les yeux de chercheur donc. Ce dernier a une approche (appelée hypothético-déductive) ordonnée et cadrée consistant à formuler des hypothèses sur le comportement d’un système et de développer des expériences permettant de valider l’une de ces hypothèses. Une hypothèse n’est pas une idée volatile qui nous passe par la tête et face à laquelle on reste dans un étonnement béat. Une hypothèse provient d’un comportement du système inhabituel. Mais pour savoir ce qui est inhabituel, on doit avoir une excellente connaissance préalable dudit système. Ce n’est qu’en ayant une démarche méthodologique, rigoureuse et qui s’inscrit dans un contexte de recherches que l’on peut véritablement tirer des conclusions sur l’impact de nos trouvailles.

Or, l’approche de P. Barthélémy n’a aucune de ces caractéristiques fondamentales. Elle émane d’une idée dans l’air du temps, en réaction à une conjoncture. Il n’y a ni hypothèse formulée (ou alors P. Barthélémy ne le dit pas clairement), ni connaissance poussée de l’écosystème Wikipédia. Les contributeurs et contributrices de Wikipédia, soit vous, nous, ne sont pas des capricieux qui s’arc-boutent dès que quelqu’un leur dit un mot de travers. Au contraire, il s’agit de personnes de richesses culturelles et de curiosité qui font de leur mieux et bénévolement pour cultiver le jardin qu’est l’encyclopédie libre Wikipédia. Promenez-vous sur les pages de discussions, vous verrez que ces bénévoles sont les premiers à débattre de la fiabilité, des processus pour assurer cette dernière et de pinailler parfois à l’usure pour que chaque phrase soit correcte et sourcée. Ainsi, chaque modification peut être suivie publiquement.

C’est faire fi de cet écosystème ouvert que de s’engager dans le vandalisme que P. Barthélémy a commis. Si P. Barthélémy connaissait un peu mieux la communauté et le fonctionnement de Wikipédia, il y aurait probablement réfléchi à deux fois avant de retweeter les invectives contre Wikipédia d’un ex-contributeur, banni pour plusieurs infractions, et s’exprimant en soutien aux agissements de P. Barthélémy. C’est également mal connaître les indicateurs dudit système, soit les possibilités de pouvoir conclure quoi que ce soit de cette “expérience” :

  1. Il est impossible de connaître la portée de ce canular.

P. Barthélémy indique que « plusieurs dizaines de personnes sont venues lire l’histoire de Léophane ». Il n’invoque aucune source à l’appui de cette estimation. D’après l’outil de Wikipédia traquant les vues,, il y aurait 172 consultations entre la création de l’article le 30 décembre 2016 et la révélation du canular.

Le nombre de lecteurs réels est bien inférieur. Très soucieuse du respect de la vie privée des utilisateurs, la Wikimédia Foundation ne donne aucune estimation du nombre de visiteurs uniques. Chaque contribution sur l’article (24 au total avant la suppression) correspond potentiellement à plusieurs pages vues (une pour la modification, une pour la sauvegarde,…). Le nombre de consultations se trouve ainsi étroitement corrélé au nombre de contributions tel que consigné dans l’historique :

Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)
Nombre de contributions et de vues sur l’article Léophane (du 30 décembre 2016 au 8 février 2017)

Les 172 consultations incluent également des lecteurs non humains. Depuis 2015, le site distingue les robots sous réserve qu’ils se présentent comme tel (en l’indiquant dans leur “carte d’identité”, appelée user agent). Mais rien n’empêche un robot de falsifier son identité. Le nombre de lecteurs réels, qui ne se sont pas limités à survoler la page, est ainsi très faible et Pierre Barthélémy ne sait rien sur eux. Il n’a ainsi aucune donnée sur le profil socio-démographique des visiteurs de la page, sur les manières d’arriver là, ce qu’ils ont retenu de l’article,… Par contraste, les études scientifiques sur la réception des contenus médiatiques ou scientifiques font fréquemment appel à des échantillons contrôlés et parviennent ainsi à analyser précisément les modes de lectures (au-delà du “mince ils se sont trompés”).

Enfin, pour qu’un canular soit efficace, il faut qu’il ait été repris. Quelles métriques, quelles preuves avons-nous que ce soit le cas ? (On vous aide : aucune.)

  1. P. Barthélémy ne dispose d’aucun élément comparatif.

Usuellement on compare un comportement (diffusion de fake) à un autre (diffusion de non-fake). Les études scientifiques de la fiabilité de Wikipédia font ainsi fréquemment appel à des évaluations croisées avec des encyclopédies généralistes (comme Britannica) ou spécialisées et parviennent ainsi à établir relativement la qualité de Wikipédia selon plusieurs critères (part des erreurs factuelles, actualisation, complétude,…)

Dans l’approche de P. Barthélémy, il n’y a rien de tel. Il n’y a rien non plus quant au véhicule de cette diffusion (il parle seulement de Wikipédia et non pas de Wikipédia par rapport à d’autres sources). Toute personne qui a un jour tenté de définir l’impact et la causalité de deux actions connaît la difficulté quasi-insurmontable de la tâche. Ajouter le manque total de métriques prédéfinies pour rendre compte de cet aspect et voilà que cette observation mène (de nouveau) nulle part.

  1. Aucune représentativité de l’observation.

Si l’on admet que son “expérience” serait menée à terme sans être découverte, en quoi un seul cas permet d’extrapoler sur des dérives générales ? Au mieux, on aurait eu affaire à un mauvais article, au pire les conclusions de l’“expérience” seraient une autre forme de fake news en indiquant que toutes les observations se valent quelle que soit leur qualité. Et ne parlons même pas de la dérive potentielle d’une situation où un tel fait unique serait présenté comme résultant d’une démarche scientifique : cela s’appelle un argument d’autorité et son utilisation en sciences n’est pas appréciée.

Les facteurs influençant le comportement d’un système ne peuvent en aucun cas être considérés comme la figure de Dieu dans l’Ancien Testament : ça vous [tue/guérit/informe/rayer la mention inutile] en fonction du degré de foi que vous y attachez. La science et la foi sont deux choses distinctes, en science on ne choisit pas à la carte quelle donnée/quel fait prendre en compte. Mais dans le cadre d’un désert informationnel en matière de science, on ne peut pas combler ce vide d’actes de foi ou de désinformation. Parler de science, c’est parler également de sa technicité inhérente. Oui, c’est parfois chiant. Et oui, c’est également requis.

En conclusion donc, cette “expérience” a montré que n’importe qui, même un journaliste scientifique, peut aller sur un site web à édition ouverte et y introduire de fausses informations. Totalement novateur.

“Science sans conscience n’est que ruine de l’âme”

On pourrait vous sortir plein d’adages plus ou moins pontifiants. Ils pointeraient toujours vers le même problème : la démarche entreprise par P. Barthélémy semble faite sans aucune éthique. Voici les manquement éthiques que nous avons constatés, nous fondant aussi bien sur notre formation scientifique que sur les échanges avec des collègues. Des échanges que P. Barthélémy aurait des difficultés à ignorer, mais qui ont cependant été totalement occultés de son article :

  1. Manipulation à plusieurs niveaux.

Il y a un abus de confiance de la communauté des contributeurs Wikipédia. P. Barthélémy s’est longuement entretenu avec deux des administrateurs de Wikipédia en français et, malgré l’assurance de ses bonnes intentions, les actes en disent autrement. Ainsi, initialement P. Barthélémy parlait d’“une expérience […] sur la vérifiabilité des infos sur Internet à l’heure des fake news” ; lors de son échange avec Jules, admin Wikipédia : “[l]e but (« avoué ») de l’expérience était de mettre en lumière les limites de l’encyclopédie”. Finalement, avec la publication de l’article de P. Barthélémy, on lit un appel de “mise en quarantaine” a priori des contributions.

Cette transformation pose de nombreux problèmes : il s’agit de création avouée et élaborée de fausses informations et de vandalisme de pages pré-existantes mais aussi de non-prise en compte de l’historique de ce genre de débats. Cette mise en quarantaine a déjà fait débat et ce de nombreuses fois… depuis 2007 : sa mise en œuvre sur la Wikipédia Germanophone débouche sur des délais d’attentes considérables (deux semaines pour approuver une contribution) et a probablement contribué au déclin significatif de la participation depuis son activation en 2008. Un sondage proposant la mise en place d’un système similaire sur la Wikipédia francophone avait été très largement rejeté en 2009 (78% d’opposition), notamment sur la base de ces résultats empiriques. Par ailleurs, les réponses au tweet de P. Barthélémy sur la question sont sans exception en opposition.

Quelle était la finalité réelle de cette manipulation entreprise par P. Barthélémy ?

  1. Instrumentalisation et mépris des acteurs.

Non seulement il n’est pas clair quelle finalité P. Barthélémy poursuit, mais ses agissements ont été perçus comme une “déception” par Jules et des admins contactés qui ont le sentiment de participer malgré eux à une tentative de décrédibilisation de l’encyclopédie :

[avant publication de l’article de P. Barthélémy]

“J’ai eu le journaliste au téléphone (une heure et quinze minutes), il a souligné à de (très) nombreuses reprises que son intention n’était pas de dégrader Wikipédia, ni de faire un article racoleur du type : « Comment j’ai piraté Wikipédia » […] Il a précisé qu’il avait déjà lu la littérature sur la fiabilité de Wikipédia, mais qu’il voulait savoir ce qu’il en était en 2017, et lorsque je lui ai fait remarquer qu’il aurait pu chercher un cas réel et préexistant de canular ou de manipulation de l’information, il a eu un temps de silence et a indiqué qu’il n’y avait pas pensé. J’ai également souligné que pour nous, Wikipédiens, c’était dans tous les cas un vandalisme – que l’auteur soit journaliste et fasse une expérience ou bien que ce soit un collégien désœuvré n’y change rien.” — Jules 11 février 2017 à 21:12 (CET)

[après publication de l’article de P. Barthélémy]

“Même si, comme Enrevseluj, j’ai trouvé le journaliste assez ouvert au téléphone, je suis déçu par l’article : même si l’on pouvait s’y attendre, cela n’apporte vraiment rien de nouveau. N’importe quel contributeur est au courant qu’il est possible de créer ce type de canular, et il aurait suffit (sic) à M. Barthélémy d’interroger un Wikipédien pour avoir des exemples réels et préexistants de manipulation (ou de fake news, pour reprendre ce terme en vogue).” — Jules 12 février 2017 à 18:56 (CET)

(source)

Il n’y a qu’à remonter les tweets outragés de nombreux professionnels de la recherche pour se rendre également compte de l’image qu’une revendication de la part de P. Barthélémy donne de la pratique de la science : il suffit d’avoir une idée dans l’air du temps et d’aller vandaliser quelques pages web pour être chercheur donc ? Dans un pays où les chercheurs sont dévalorisés, leurs moyens financiers inexistants et où la médiation et la communication scientifiques sont en voie de disparition, avons-nous vraiment besoin d’une telle démarche de la part du “Passeur de Sciences” du Monde ?

  1. Absence totale de coopération et de débat.

Toute l’expérience est balisée de A à Z et (paradoxalement) P. Barthélémy exclut Wikipédia du débat en refusant, de manière parfois quelque peu condescendante, le débat sur Twitter, cependant demandé par plusieurs personnes. On pourrait par exemple voir un geste d’ouverture si P. Barthélémy proposait de faire le débat sur Wikipédia, soit là où le mal a été fait. Hélas, rien de tel. Ainsi, ce qui est inclus dans l’article est entièrement à la discrétion de P. Barthélémy qui ne permet qu’un débat se déroule ailleurs que sur son blog.

On est très loin de la démarche scientifique où tout élément d’une étude peut et devra être examiné par les pairs. On est dans un univers parallèle où P. Barthélémy pose les questions, les modifie, donne des réponses ou pas, et instrumentalise ce soi-disant débat pour appeler au changement de gouvernance de l’information chez Wikipédia en français. Enfin, se soumettre à cet impérieux caprice de débat sur le blog et seulement là relèverait, comme le souligne également l’historien Alexandre Moatti, “à cautionner la démarche”.

Mais dans ce foutoir de confusions, le risque le plus sérieux n’est même pas évoqué. En effet, on peut craindre une contamination générale de la “connaissance libre” dont Wikipédia n’est qu’une partie. Citons par exemple Wikidata et toute l’architecture du web sémantique, la contribution de laquelle fait d’ailleurs l’objet de problématiques de recherche primées. Le rôle des communautés a changé depuis quelques années et elles s’imposent de plus en plus comme des outils scientifiques de référence : certaines initiatives telles Wikidata s’éloignent ainsi de la vulgarisation pour développer des pratiques et structures beaucoup plus spécialisées.

Juge et partie

Divers aspects de l’article de P. Barthélémy, intitulé “Pourquoi et comment j’ai créé un canular sur Wikipédia”, posent problème en plus de ceux précédemment mentionnés. Le champ sémantique et les mots dont l’auteur se sert pour expliciter ses agissements créent ainsi une manière de penser et voir les acteurs de ce vandalisme sous une lumière quelque peu choquante et à coup sûr inquiétante. Si nous nous y arrêtons, c’est parce que “nommer, c’est faire exister” et parce que nous estimons qu’un journaliste, de surcroît le fondateur de la rubrique Sciences et Environnement au Monde, a une visibilité qui appelle à une grande responsabilité. Avec ce canular élaboré, P. Barthélémy a commis plusieurs impairs ; espérons que ce soient les derniers.

Barthélémy se pose ainsi dès le départ en victime d’un système qu’il respecte :

L’entrée Léophane n’existait pas sur Wikipédia et le personnage pouvait faire un candidat valable selon les critères de la célèbre encyclopédie en ligne. J’ai donc décidé de créer cette entrée en écrivant le peu que l’on connaissait sur ce savant et en inventant le reste. J’ai donc laissé libre cours à ma fantaisie, tout en lui conférant les apparences du plausible, à coups de références.

[…]

L’expérience proprement dite a commencé à la fin de décembre lorsque j’ai publié l’entrée, ce qui s’apparente à du « vandalisme sournois » selon les critères de Wikipédia.

Alors, qu’en est-il ? L’encyclopédie a des règles mais quand on les enfreint, ce n’est pas normal de se faire traiter de vandale ? C’est bien pratique comme positionnement. Cette dualité des propos et du positionnement de P. Barthélémy est caractéristique de toute sa démarche dans ce cas. Il ne se définit jamais comme journaliste, jamais comme scientifique. En se positionnant au-dehors du système qu’il souhaite “tester”, il souhaite également échapper à ses règles. Puisqu’on n’y est pas, on n’a pas de règles à respecter et donc on ne déroge à aucune règle. Logique, non ?

Dans son article en réaction, Autheuil relève bien cette dualité :

“Là où le bât blesse, à mes yeux, c’est que Pierre Barthélémy est à la fois celui qui a conçu et réalisé le test, ainsi que celui qui le relate et le porte à la connaissance du public. Les deux rôles doivent rester strictement séparés. Les journalistes ne doivent jamais construire eux mêmes les faits qui vont servir de base à leur travail d’analyse et de mise en perspective purement journalistique. Je comprend que la tentation soit grande, pour les journalistes, de se saisir de cet important problème des “fake news”. Mais ils doivent y résister, car sans le vouloir, en jouant sur les deux tableaux, ils affaiblissent la crédibilité des journalistes, ce qui renforce ceux qui cherchent à manipuler l’information.”

Barthélémy est journaliste. Qui plus est, journaliste scientifique. On en attend donc une démarche raisonnée et raisonnable et non pas une entreprise de torture des faits jusqu’à ce qu’ils avouent ce que l’on veut. En effet, en enfermant le débat et en occultant toutes les critiques faites depuis que le pot-aux-roses a été découvert, revient à travestir le vandalisme en démarche scientifique. Cela ressemble fort à la gestation d’un alternatif fact et contribue ainsi à créer ce que le journaliste du Monde prétend dénoncer.

Et si l’on transposait cette même démarche ?

“Vous êtes journaliste au Monde. Avez-vous tenté de faire des erreurs volontaires dans un sujet obscur destiné au journal papier ? sur le journal en ligne ? Avez-vous même tenté de faire un faux sur votre blog et voir s’il serait détecté ?

Je doute que ce soit bien vu. Il s’en trouvera pour dire que ça montre les failles d’un journal qui se veut sérieux, ou que vous transformez après coup le contenu erroné en fausse expérience, ou qu’à tout le moins ils ne pourront pas se fier au contenu à l’avenir faute de savoir si c’est une nouvelle expérience. Ne parlons même pas du risque d’un mauvais buzz où les gens n’entendent parler que de l’erreur mais pas de l’explication qui suit.”

L’éthique et les titres que l’on se donne veulent dire quelque chose. Alors plutôt que de répondre avec condescendance à ceux qui critiquent qu’ils ne savent rien du métier de journaliste, P. Barthélémy ferait bien de prendre exemple sur ses propres conseils à l’attention de Wikipédia : reconnaître ses erreurs, ses limites et s’améliorer.

Et maintenant alors ?

Notre motivation de prendre position en long et en large vient du fait que nous ne considérons pas cette manipulation élaborée comme un épiphénomène. Les contradictions et nombreux problèmes de la démarche, évoqués plus haut, découlent directement de la formulation actuelle du débat. Cela a déjà été pointé mais le discours sur les fake news repose sur une vision naïve de la fiabilité (qui se réduit à l’approbation d’informations « vraies » et au rejet d’informations « fausses »).

Une telle vision binaire et le recours à du vandalisme sournois par quelqu’un qui se définit comme “Passeur de Sciences”, c’est oublier également que les termes de « fake news » ou « post-truth » mélangent des pratiques relativement distinctes qui se juxtaposent plus qu’elles ne se confondent : propagande d’États, de groupes idéologiques ou d’entreprises, canulars, erreurs factuelles, etc. La polarisation de la société ne devrait pas être renforcée par de faux semblants et des apprentis sorciers.

Si certains propos peuvent paraître trop forts ou trop acides, alors imaginez quelle est notre consternation face à ce qu’il s’est passé. Pour reprendre les lois de Newton, à chaque force s’oppose une force d’intensité au moins équivalente. Il n’y a donc aucune animosité personnelle à y lire, mais l’expression d’un désarroi profond face à un journaliste à qui nous faisions confiance d’aborder, avec intégrité et intelligence, un sujet presque-oublié en France : la médiation scientifique.

Si l’on voulait, on pourrait suggérer de très nombreux sujets d’exploration autour de Wikipédia, aucun desquels n’implique la création de fausses informations :

  • Quelle participation et quelle qualité des contributions entre Wikipédia en français et en allemand ? Dans le cas allemand, la “quarantaine a priori” est utilisée.
  • Y a-t-il une résurgence des tentatives de vandalisme et de création de faux articles entre 2015 et 2016 ?
  • Wikipédia est-elle plus ou moins sensible que d’autres ressources d’informations aux discours de propagandes ou aux erreurs virales ?

On vous recommande cette vidéo hilarante et très à propos, par le journaliste John Oliver de la chaîne américaine HBO à propos de Trump et ses alternatif facts, élevés au rang de politiques publiques réelles en réponse à des problèmes exagérés ou carrément imaginaires.

Et puisque notre démarche est de co-construire la connaissance en respectant la véracité des informations et le sérieux de la démarche, nous invitons Pierre Barthélémy et toute personne le souhaitant à nous aider à compléter la page recensant les diverses critiques et études scientifiques traitant de Wikipédia, ses processus et ses communautés. Comme vous l’imaginez sans doute, il y a mille et une façons dignes, respectueuses et productives de renverser le cours du flux de fausses informations qui tente de nous submerger. Soyons-en les acteurs et non pas les pourfendeurs.

Les bibliothèques numériques sont-elles représentatives ?

Au terme de 20 ans de programmes de numérisation, les bibliothèques numériques atteignent des dimensions colossales : il y a 4 millions de documents en libre accès sur Gallica et 5 millions sur son équivalent américain, Hathi Trust.

Et pourtant “colossal” ne veut pas dire “représentatif”. Certains référendums en ligne illustrent bien cette nuance : tout en récolant parfois beaucoup plus de réponses que les sondages classiques, ils sont notoirement moins fiables. Ils mesurent surtout la propension de certains groupes politiques à se mobiliser pour y répondre — quand ils ne sont pas complètement détournés par des votes multiples, avec ou sans robots…

Si elle n’est pas détournée par des groupes de pression, la numérisation n’est non plus une activité purement “aléatoire”.  Elle découle la conjonction de choix documentaires, déterminés par plusieurs contraintes ou opportunités externes : “prestige” ressenti du corpus, état de conservation, articulation avec des projets de recherche, intégration dans des dispositifs d’indexation antérieurs — sans compter les restrictions budgétaires qui amplifient tout le reste…

Cet enjeu méthodologique de la représentativité déborde complètement du cadre des humanités numériques. La recherche par mots-clés dans les bibliothèques numériques s’est généralisée, devenant pour de nombreuses études une porte d’entrée par défaut. Sans même tenter de quantifier les occurrences, la consultation prioritaire des documents qui “remontent” dans le moteur de recherche affecte notre perception de l’objet ou du corpus étudié — même si cela n’exclut en rien des des retours critiques ultérieurs.

Transformer le Catalogue de la BNF en une collection de fichiers csv

Dans le cas de Gallica, une excellente ressource permet de lever un coin de voile : Data BNF. Dans la continuité du mouvement d’ouverture des données culturelles, une grande partie des métadonnées de la BNF est aujourd’hui disponible sous une licence ouverte.

Le format utilisé (du web sémantique en RDF) se prête bien à l’indexation de relations complexes. Typiquement, un livre peut avoir plusieurs auteurs, qui peuvent avoir contribué à plusieurs livres — sachant qu’il existe tout un dégradé de “contributions”, de la rédaction de l’ensemble du livre, à celle de sa préface, en passant par la coordination d’un ensemble textes dans le même ouvrage.

Exemple d’entrée RDF d’une édition dans Data BNF

Ce format complexe ne se prête pas très bien à l’analyse de données sur un ordinateur personnel (raison pour laquelle, la BNF met à disposition un point SPARQL) Notamment, les fichiers sont très volumineux (20 gigaoctets pour l’ensemble des “éditions” : soit bien au-dessus des capacités standards de mémoire vive) et rangés de manière arbitraire (apparemment l’ordre dans lequel les documents ont été rentrés dans le catalogue de la BNF).

Avec un petit script en python, j’ai procédé à l’extraction des principales métadonnées de toutes les éditions antérieures à 1900. Chaque édition a été rangé dans un document en csv correspondant à une année. La collection complète peut être téléchargée par ici : elle compile les métadonnées de 1665095 éditions et “pèse” 400 mégaoctets (100 mégaoctets en version compressée). Chaque année peut être ouverte dans un tableur classique de type excel, même si l’application risque de tousser un peu à mesure que l’on se rapproche de l’année 1900.

Extrait de la collection de fichiers csv

À noter qu’il s’agit ici des éditions et non des œuvres : un même écrit peut figurer à plusieurs reprises. Il existe bien un recensement des œuvres en RDF mais il est pour l’instant très incomplet. Pour l’instant les auteurs ne sont pas mentionnés : c’est au programme d’une version future — il faudrait que je croise les documents csv avec le fichier RDF des “contributions” et celui des “auteurs”. Enfin, j’ai laissé les années telles qu’indiquées et les documents antérieurs à 1000 sont manipuler avec précaution : la BNF utilise apparemment des abréviations (19…) en cas d’imprécision.

Une couverture variable selon les époques

Il y aurait beaucoup d’enseignements à tirer de cette collection mais nous nous limiterons ici : quelle est la représentativité de Gallica au regard du catalogue de la BNF ? Toujours avec un petit script en python, nous pouvons extraire le nombre d’éditions du catalogue de la BNF disposant également d’un lien sur Gallica (qui correspond à la propriété rdarelationships:electronicReproduction en RDF).

Au total, 17,56% des éditions sont numérisées sur Gallica. C’est loin d’être négligeable : il ne s’agit que d’une seule bibliothèque.  En prenant en compte la totalité des publications disponibles sur l’ensemble des bibliothèques numériques, nous ne sommes peut-être plus très loin de cet objectif utopique : accéder à la totalité des documents imprimés dans le domaine public.

Cette proportion n’est pas uniforme dans le temps. Le graphe ci-dessous témoigne de variations substantielles : de 3% en 1530 (24 éditions numérisées sur 785) à… 31% en 1731 (813 éditions numérisées sur 2574) :

Editions du Catalogue de la BNF numérisées dans Gallica

Ces variations ne sont pas purement arbitraires. La tendance globale (représentée ici avec une courbe de régression en méthode Loess) témoigne de l’existence de trois “périodes” distinctes : des taux initialement bas en hausse constante pendant les XVe, XVIe et XVIIe siècles ; un palier élevé, supérieur à 20%, pendant tout le XVIIIe siècle ; un déclin continu amorcé à partir de la Révolution française.

Il n’y a sans doute pas d’explication simple à ces tendances mais je serai tenté d’y voir la conjonction de deux phénomènes : les documents anciens sont probablement plus coûteux à numériser (notamment en raison de leur fragilité) ; à mesure que l’on se rapproche de 1900, la production documentaire s’accroît fortement (et l’on commence à voir poindre les incertitudes sur le droit d’auteur). Entre ces deux écueils, le XVIIIe siècle constituerait un optimum de représentativité.

Sauf que… Nous avons jusqu’ici considéré le Catalogue de la BNF comme une référence absolu (à laquelle se mesurait plus ou moins bien Gallica). Rien n’est si simple : le Catalogue hérite lui-même d’une longue histoire assez passionnante, qui se confond avec celle du dépôt légal. Bien que théoriquement établi au XVIe siècle, le dépôt légal est très mal appliqué en pratique jusqu’au début du XIXe siècle : le progrès des techniques d’indexation permet alors d’établir cette remarquable base de données périodique qu’est la Bibliographie de la France.

Nombre d’éditions dans le Catalogue de la BNF

Si le catalogue s’approche d’un niveau d’exhaustivité idéal pendant les XIXe et XXe siècle, rien n’est moins sûr en-deçà. Une rapide inspection de l’année la plus représentative, 1731, instille le doute. Parmi les documents numérisés, nous trouvons beaucoup de cartes et d’arrêts du conseil d’État. Ils n’est pas totalement exclu que ces éditions n’ont été intégrées au Catalogue de la BNF qu’à l’occasion de leur inclusion dans Gallica…

Titre des éditions numérisées sur Gallica en 1731
Titre des éditions numérisées sur Gallica en 1731

Dans la mesure où elle entraîne une redéfinition des notions de “texte” ou d’éditions, la numérisation concourt peut-être à “créer” (ou du moins “instaurer”) des documents. Dans une bibliothèque, un arrêt n’est qu’une feuille volante qui ne va pas nécessairement être signalé dans les catalogues. Dans un système informatique, il devient un document comme un autre.

Gallica préfère les textes longs

Il existe une autre manière de mesurer la représentativité avec les données dont nous disposons : par le nombre moyen de page. Cette donnée figure souvent (mais pas toujours)  dans champ “description” et peut être extraite systématiquement à l’aide d’une expression régulière (ici avec R) :

scan_years %>%
 mutate(page_number = str_match(description, "(\\d+) ?p\\.")[,2]) %>%
 filter(!is.na(page_number)) %>%
 mutate(page_number = as.numeric(page_number))

Sur la période 1815-1870, le nombre moyen de pages des éditions numérisées est presque systématiquement plus élevé. Le différentiel avec les éditions non numérisées atteint même 30-40 pages pendant le Second Empire.

Les documents numérisés sur Gallica ont une pagination plus élevée

Cette préférence structurelle pour le texte long pourrait découler d’une préférence pour les grandes monographies. D’expérience, je retrouve bien plus souvent des textes romanesques, des traités scientifiques ou des annuaires que de petits opuscules ou pamphlets.

Comment “construire” la représentativité ?

Je pourrai poursuivre cet exercice avec d’autres données (notamment les éditeurs ou les lieux de publication, en attendant les auteurs), mais il deviendrait vite un peu frustrant. Deux informations essentielles manquent toujours à l’appel : les “genres” et les “sujets” abordés. La BNF dispose certes d’un référentiel prévu à cet effet, le RAMEAU. Il reste très peu employé pour les documents antérieurs à 1900 : dans le point SPARQL de Data BNF, quasiment aucun “roman” n’apparaît avant 1850. Or, manifestement, les variations constatées dans le temps ou sur le nombre de pages découlent au moins pour partie de prédilections plus ou moins explicites en faveur de tels ou tels corpus.

La représentativité reste encore aujourd’hui à “construire”. Elle ne peut uniquement s’adosser à des outils documentaires préexistants (qui sont eux même faillibles et incomplets) : il faut également repartir des textes eux-mêmes.

C’est là l’intuition fondamentale de la lecture distante. Chaque texte porte en quelque sorte sa “carte d’identité” : le lexique employé constitue une série d’indices stylistiques ou sémantiques permettant de classer et d’indexer le document. Une équipe de recherche américaine, coordonnée notamment par Ted Underwood, est ainsi parvenue à “cataloguer” automatiquement 13 millions d’ouvrages (dans le domaine public et sous droit d’auteur) d’Hathi Trust à partir du décompte du lexique. À partir de ces corpus libre accès, il devient envisageable, par exemple, d’observer la sédimentation sur le temps d’un genre littéraire comme la science fiction :

Probabilité d'attribution à la science fiction (Underwood, The Life Cycle of Genres)
Probabilité d’attribution à la science fiction (Underwood, The Life Cycle of Genres)

Ces nouvelles approches ne nécessitent pas seulement de lever des barrières techniques mais aussi légales. La revendication de droits de propriété intellectuelle sur des textes dans le domaine public (ou copyfraud) s’accompagnent bien souvent de restrictions contre le téléchargement.

Gallica restreint ainsi l’usage commercial des documents numérisés. Il n’existe pas d’API ou de dumps (soit de collections textuelles complètes) de Gallica : l’application Pyllica que j’avais développé avec Julien Schuh contourne cette difficulté en extrayant directement les pages web1 . À contrario, les métadonnées sont disponibles sous licence ouverte sur data BNF (et peuvent être téléchargées en une seule fois).

Néanmoins les bibliothèques numériques réduisent graduellement ces restrictions indues, en partie pour tenir compte de ces nouveaux enjeux. Alors que le copyfraud tend à s’insinuer dans la loi (notamment au travers de la Loi Valter), les bibliothèques passent graduellement à “une libre diffusion du domaine public numérisé” (ce qu’illustre notamment la conversion récente de la Bibliothèque de l’INHA à la Licence ouverte). Pour mes projets de recherche sur la presse quotidienne nationale, j’ai la chance de disposer du corpus Europeana Newspaper (disponible sous forme de dumps complets sous licence CC0).

Dans ce contexte, la levée de ces barrières et enclosures devient un enjeu scientifique majeur. La plupart des publications du domaine public sont peut-être aujourd’hui disponibles en ligne mais nous ne le savons pas. Pour être visibles et correctement indexés, ces immenses corpus doivent devenir mobiles : circuler librement d’un projet de recherche à l’autre, d’une infrastructure à l’autre et être continuellement enrichis au gré de ces passages.

  1. Pyllica va d’ailleurs bientôt recevoir une mise à jour substantielle : stay tuned

L’exception Text & Data Mining sans décret d’application…

L’information vient d’être relayée sur Twitter (et n’a apparemment pas encore fait l’objet de publication par ailleurs) : le conseil d’État a rejeté le décret encadrant l’exception au droit d’auteur pour la fouille de texte et de données (Text & Data Mining) à des fins scientifiques.

Ce rejet n’est pas définitif : la loi prévoit de toute manière un décret (“Un décret fixe les conditions dans lesquelles l’exploration des textes et des données est mise en œuvre”). En attendant, cela limite considérablement l’application concrète de l’exception.

Que peut-on faire en attendant ?

Le principe de base demeure : il n’est pas illégal, au regard du code de la propriété intellectuelle, de constituer des “copies ou reproductions numériques réalisées à partir d’une source licite, en vue de l’exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale.”

Par exemple, j’ai extrait automatiquement plusieurs centaines articles de presse pour un projet de recherche sur le débat européen autour de la Liberté de panorama (notamment à partir de la base de données Europresse, à laquelle mon université est abonnée). J’étais alors potentiellement dans l’illégalité si je n’en faisais pas un usage strictement privé (par exemple en communiquant les copies à des collaborateurs). Aujourd’hui ce ne serait a priori plus le cas.

Par contre, en l’absence de décret d’application, les propriétaires des contenus ne sont tenus en rien de fournir ces corpus aux chercheurs ; ils ont même toute latitude de bloquer les extractions automatiques (en invoquant la nécessité de “protéger” le site des requêtes excessives). En somme, l’exception lève le risque juridique lié à l’utilisation de copies licites pour la fouille de donnée ; elle ne permet pas de récupérer ces copies (qui requièrent des arrangements contractuels au cas par cas).

Que prévoyait le décret ?

Le décret d’application visait à corriger cette déficience. La dernière version en date (republiée pour l’occasion sur Sciences Communes) correspond à un texte de compromis. La préservation de la “sécurité” des infrastructures face à des requêtes multiples ne peut servir d’argument pour entraver excessivement l’extraction : les détenteurs des droits (généralement des éditeurs) peuvent “appliquer des mesures destinées à assurer la sécurité, la stabilité et l’intégrité des réseaux et bases de données, dès lors qu’elles n’excèdent pas ce qui est nécessaire pour atteindre ces objectifs”.

Les établissements de recherche sont de plus habilités à conserver “sans limitation de durée les copies techniques produites dans le cadre de l’exploration de textes et de données”. L’objectif est d’éviter de mener d’effectuer des extractions multiples (alors que des corpus peuvent avoir déjà été constitués).

Qu’est-ce qui va suivre ?

Pour l’instant, l’argumentaire du Conseil d’État n’a pas encore été publié. Il sera intéressant de voir quelles dispositions du décret ont motivé le rejet (et, par contraste, quelles dispositions sont appelées à être reprises dans un futur décret).

Il semblerait également qu’une voie intermédiaire entre arrangement contractuel et cadre général soit également envisagée, sous la forme de “protocoles d’accords” intégrés dans les contrats entre les institutions de recherche et les éditeurs. Tout ceci risque de complexifier grandement la mise en œuvre de l’exception (rien ne garantit que les protocoles soient rendus publics, ni qu’ils soient systématiquement identique d’un contrat à l’autre…).

À plus long terme, une exception similaire est très sérieusement envisagée au niveau européen. Le principe d’un droit de fouille de textes et de données semble faire l’objet d’un relatif consensus : le débat porte davantage sur son extension au-delà du monde de la recherche (pour tous les usages non-commerciaux, voire pour des usages commerciaux). Le rapport Comodini, qui correspond déjà à un texte de compromis entre les différentes options retenues par le parlement européen, propose ainsi d’étendre le périmètre de l’exception à “l’innovation” (Amendement n°3) et non uniquement à la “recherche scientifique”.

Reconstituer les genres romanesque sur Gallica : essai de classification automatisée de 1500 romans (1815-1850)

Au XIXe siècle, 40 235 éditions de roman ont été publiées en français d’après le Catalogue de la BNF, la plupart correspondant à des éditions uniques. De cette immense production, guère plus d’un centième est aujourd’hui connu et couramment étudié. Cette sélection radicale occulte d’importants développements de l’histoire culturelle. Près de la moitié des romanciers étaient des romancières de 1800 à 1830 : leurs œuvres ont été totalement oubliées et sont seulement en train d’être redécouvertes grâce à des projets comme deuxième texte.

Aujourd’hui, un tiers de ces éditions sont aujourd’hui numérisées sur Gallica. Peut-être près de la moitié sont disponibles en ligne toutes bibliothèques numériques confondues.

Si ce patrimoine oublié redevient accessible, il n’est pas « visible » pour autant. Il est difficile de se retrouver dans ce maquis : contrairement à d’autres productions éditoriales, le roman est historiquement peu documenté. Les textes historiques ou médicaux de la BNF sont catégorisés dans des centaines de cotes ou de classifications Dewey avec un degré de précision parfois surprenant — on peut ainsi retrouver tous les traités d’Hygiène chevaline ou toutes les biographie des prix de vertus.

Pour les romans, il n’existe aucune subdivision : il n’est pas possible de chercher toutes les fictions du XIXe siècle se situant au Japon ou dans un futur proche ou lointain. Même des genres fondamentaux, comme le roman historique ou le roman d’aventures sont introuvables.

Les nouveaux outils des humanités numériques pourraient combler ce manque. J’ai créé une application permettant d’explorer les genres de 1500 éditions de roman parues entre 1800 et 1850, selon quatre classifications canoniques à l’époque (roman historique, roman de mœurs, roman chrétien, roman sentimental) et deux classifications plus diffuses (drame, robinsonade/roman d’aventures). Des probabilités de classification sont assignées à chaque texte.

Liste des romans les plus emblématiques de chaque genre. Le menu déroulant sur la gauche permet de sélectionner un seul genre. Les liens ramènent directement sur Gallica.

L’application a pour effet indirect de faire remonter des textes méconnus. Les romans historiques les plus « roman historique » ne sont pas de Dumas mais Wat-Tyler ou dix jours de révolte ou La chute d’un grand homme doté d’un sous-titre évocateur et intrigant : Des princes norwégiens, des ruines de Rothembourg, de l’aveugle de Valence et d’une nuit au fort de Derpt.

Cette prédilection est logique : la classification met en avant les textes qui surjouent leur appartenance générique et leur maîtrise de « codes » stylistique socialement reconnu. Par contraste, Dumas procède davantage à un mélange des genres — tout en ayant une composante “roman historique” forte, la Reine Margot est plutôt classée en drame.

Les classifications retenues pour la Reine Margot d’Alexandre: le Drame l’emporte finalement sur le roman historique. Les classifications peuvent être visualisées pour tous les titres du corpus à partir du second panel.

Les coulisses de la classification

L’application s’appuie sur une classification du texte intégral des romans dite « non supervisée ». Concrètement, les récurrences dans le vocabulaire employé d’un roman à l’autre suggère des recoupements possibles. Les six classifications du modèle tendent ainsi à privilégier les mots suivants :

Termes privilégiés par le modèle de classification automatisée des romans de 1815 à 1850.

On voit se dessiner dans chacune de ces catégories des proto-romans, une sorte de canevas idéal et moyen de se que serait le roman d’aventures (un navire accostant l’île au trésor), le drame (le docteur engagea le duel à l’ombre de la cheminée) ou le roman de mœurs (la veuve propriétaire se rendant à l’opéra).

Je privilégie rarement cette approche. Moyennant un important travail en amont, la classification dite « supervisée » offre des résultats plus fiables. Ici le modèle ne crée pas ses propres catégories (qui doivent ensuite faire l’objet d’une interprétation) mais tente de les reconstruire à partir d’un corpus manuellement annoté. C’est l’approche que nous avons mis en œuvre au sein du projet ANR Numapresse pour classer automatiquement les genres journalistiques dans l’ensemble des exemplaires parus du Matin ou du Petit Parisien de 1900 à 1940.

Pour l’instant, cette méthode reste difficilement applicable aux romans du XIXe siècle : bien que les genres ou « classes » du roman soient communément discutées, je n’ai pas trouvé pour l’instant de listes ou de recensions contemporaines suffisamment larges et exhaustives pour construire un modèle (je suis d’ailleurs preneur de suggestions…)

Étrangement, cette approche serait faisable pour le XVIIIe siècle : on y trouve sans difficulté des listes détaillées de roman par genre. Dès 1719 on trouve des tables détaillées des « romans historiques » alors même que l’expression n’était quasiment pas employées. Les 240 volumes de l’anthologie La Bibliothèque universelle des romans, parue de 1775 à 1789 à se livrent même à une véritable frénésie classificatoire digne de l’Encyclopédie :

Les sujets traités par la B.U.R. se divisent en huit classes inspirées de celles de Lenglet Dufresnoy : les traductions des anciens romans grecs et latins ; les romans de chevalerie (…) ; les romans historiques (…) ; les romans d’amour, y compris beaucoup d’ouvrages contemporains dès 1780 ; les romans de spiritualité, de morale et de politique ; les romans satiriques, comiques et bourgeois ; les nouvelles historiques et les contes ; et les romans merveilleux. L’intention de traiter méthodiquement les huit classes se transforma à partir du cinquième volume, ces limites ne répondant ni aux textes disponibles ni aux désirs du public. La notation de la classe devient de plus en plus irrégulière dans les volumes qui restent, pour disparaître presque complètement dans les deux dernières années. On sent aussi des difficultés d’organisation dans certaines décisions de classement plus ou moins arbitraires1

Il y aurait sans doute des choses à dire que l’usage ou l’abandon des classifications appliquées à la littérature. Pourquoi la Bibliothèque universelle s’évertue-t-elle à maintenir tout un système de classe en révision constante alors que son continuateur de 1839, la Revue des romans, renonce d’emblée à tout essai de catégorisation ?

La classification non supervisée ne devait être qu’un test préliminaire ; elle a donné des résultats étonnamment bons. Spontanément, la quasi-totalité des titres dotés d’un sous-titre « roman historique » ou d’un sous-titre « roman de mœurs » se retrouvent rattachés à une seule des six catégories. Sans avoir aucune donnée méta-textuelle, en s’appuyant uniquement sur le contenu effectif des romans, le modèle est parvenu à déduire des appartenances globalement justifiées.

Les romans portant le sous-titre « roman historique » se retrouvent généralement classés tous ensemble — alors que le modèle n’en savait rien…

Ce n’est pas tant un succès de l’intelligence artificielle que la conséquence de la codification déjà avancée des genres romanesques au cours de la première moitié du XIXe siècle. Les catégories répertoriées, par exemple, dans l’Histoire de la littérature de Godefroy n’étaient pas que des délimitations purement théoriques : elles avaient une opérationnalité pour les autrices et les auteurs, ainsi que pour les lectrices et les lecteurs.

Tous les genres ne sont cependant pas égaux en terme de reconnaissance sociale. Sur l’ensemble de la production romanesque recensée dans le Catalogue de la BNF, l’on décompte 140 sous-titres « romans historiques » ou 46 sous-titres « romans de mœurs » ; le « roman sentimental » et le « roman chrétien » sont quasiment absents ; le « drame » et la « robinsonade » demeurent de simples propositions de recoupements du modèle, justifiée dans le second cas par la montée en puissance du roman d’aventure pendant la deuxième moitié du siècle. Le catalogue ne conserve généralement que les sous-titre utilisés dans l’œuvre elle-même mais j’ai pu constater que les maisons d’édition ajoutaient fréquemment des sous-titres généricisés à des fins promotionnelles.

Vers une reconstitution de la dynamique des genres ?

Si les six classifications que j’ai proposées ici fonctionnent correctement, elles n’épuisent absolument pas la totalité des catégorisations fondées. D’autres essais ont ainsi fait remonter des genres plus confidentiels, comme le roman maritime (occasionnellement utilisé en sous-titre) qui va ultérieurement se fondre comme la robinsonade dans le roman d’aventures. Le genre non plus romanesque mais personnel est un également facteur déterminant de la délimitation du genre. La Revue des romans ne retient en introduction qu’une unique distinction entre les romans « de femmes » et d’hommes qui rejoue, de manière caricaturale, les assignations de genre et les ségrégations sociales en vigueur dans la France de 1839 :

Par le roman, les femmes sont intervenues dans la littérature avec la grâce et la délicatesse qu’elles savent mettre à toute chose ; le choix des sujets, les sentiments, la sensibilité, même le vague de l’expression, ont été pour elles des moyens de succès ; mais dans leurs productions il faut aussi choisir. Les hommes font du roman un cadre pour tous les tableaux : l’histoire avec ses scènes tragiques, le drame bourgeois avec ses émotions, la comédie avec son langage railleur, la farce avec son gros rire, y trouvent leur place ; la terreur et la pitié, la critique de mœurs, le merveilleux, le positif, les sciences même, dans leurs détails les plus minutieux ou dans leurs résultats les plus sommaires, en un mot, le monde est le domaine du romancier.

Un autre essai de classification que j’ai mené avec Mathieu Letourneux sur un corpus de romans policiers publiés depuis 2000 portait également sur la contribution des structures éditoriales à la formation de sous-genres : il est possible de prédire l’appartenance des textes à une dizaine de collections éditoriales du policier.

La numérisation de masse et, sous réserve d’être utilisés avec un regard critique, les outils de classification automatisés éclairent ainsi d’un jour nouveau la dynamique du genre littéraire avec ses fusions et ses décantations stylistiques et, surtout, ses interactions profondes avec les réalités sociales contemporaines (des rapports de genre à la structuration économique du champ de l’édition). Cela reste très largement un work in progress, notamment dans la mesure où des pans entiers de la production romanesque restent à numériser et que les choix de numérisation ne reflètent pas nécessairement la diversité du champ éditorial.

Plus prosaïquement, ces approches nouvelles permettent de trouver des romans oubliés et de varier les plaisirs de lecture. En attendant des croisements plus ambitieux par thèmes, mon premier essai de classification fait émerger tout un tas de titres intrigants qui n’ont probablement quasiment plus eu de lecteurs entre leur parution et leur résurrection numérique sur Gallica…

  1. Fabio Marinai, « La Bibliothèque Universelle des romans », Dictionnaire des journaux, 1660-1789, http://dictionnaire-journaux.gazettes18e.fr/journal/0172-bibliotheque-universelle-des-romans

#DHIHA8 Humanités numériques : et si nous avions créé une nouvelle discipline ?

D’après Émilien Ruiz, les humanités numériques se trouvent “à la croisée des chemins”. Cette communauté transdisciplinaire a émergé depuis plus de 10 ans, soit suffisamment de temps pour que les pratiques du futur deviennent celles du présent. Ou pas…

Car si les humanités numériques se sont ancrées institutionnellement, les promesses de renouveau scientifique et pédagogique restent encore à l’état de perspectives plus ou moins lointaines : « à ce stade, il me semble pourtant qu’il est possible de parler d’un demi-échec ». Les enseignements du numérique demeurent périphériques. Il y a eu une inflexion réelle dans les pratiques de recherche, les bases de données et les corpus en ligne devenant de plus en plus des outils “normaux” et attendus, mais avec finalement peu d’incidence sur les méthodes et sur les manières d’aborder et de construire l’objet de recherche. Au plus une révolution de l’indexation scientifique, mais certainement pas une révolution scientifique.

Émilien remarque avec justesse que ce bilan en demi-teinte a eu une incidence sur la définition-même des humanités numériques. La dimension quantitative et “computationnelle” a été progressivement reléguée au second plan, au profit d’une approche communicationnelle mettant l’accent sur l’éditorialisation et la diffusion des résultats. Les humanités numériques apparaissent davantage comme une étape supplémentaire dans le cycle de la recherche, sans altérer en profondeur l’existant.

À ce stade, l’on peut légitimement se demander si l’ambition principale des humanités numériques ne devraient pas être de “disparaître”. Réagissant au constat d’Émilien, Paul Bertrand appelle à la « fin nécessaire et heureuse des humanités numériques », appelées à se dissoudre dans les disciplines existantes. Si l’on se limite au versant communicationnel et éditorial des humanités numériques, cette réaction est amplement justifiée. Créer un site ou un carnet de recherche, alimenter une base de données, formater et visualiser un corpus devraient effectivement faire partie de l’outillage ordinaire des disciplines.

Mes recherches en cours m’amènent de plus en plus à faire le constat inverse : toutes les humanités numériques ne sont pas solubles. Ou plutôt, dans ce mouvement volontairement vague et informe, quelque chose a émergé qui change notre rapport aux objets, au savoir. Quelque chose qui ne représente qu’une partie des humanités numériques mais qui resterait même si toutes les pratiques estampillées DH venaient à se normaliser et à rentrer dans le giron de leurs disciplines d’origine. Quelque chose qui réactualise la dimension quantitative marginalisée mais en faisant autre chose que “l’histoire quantitative”.

Cette approche n’a pas vraiment de nom, ou plutôt, les labels existants ne sont pas satisfaisants : il est tantôt question de « computational literature studies » (sauf que cela ne se limite absolument à la littérature), de « lecture distante » (sauf qu’une part essentiel de la recherche actuelle porte sur des objets qui ne sont pas lus mais vus) ou de cultural analytics (expression qui se traduit terriblement mal en français et, sans doute, dans d’autres langues européennes). On pourrait aussi tenter une définition purement SHS, sans jamais faire allusion à l’informatique et parler, par exemple, de poétique historique des formes culturelles.

À défaut de nom, l’approche se caractérise par une intégration croissante de pratiques, de concepts, d’outils et de méthodes, plus ou moins marquées selon les contextes. Aux États-Unis il existe une revue dédiée qui fédère une petite communauté très active, le Journal of Cultural Analytics. En France les initiatives demeurent encore assez isolées.

De la numérisation à l’identification des régularités…

Le point de départ fondamental, c’est la numérisation de masse. Les bibliothèques numériques contiennent aujourd’hui une part substantielle des productions imprimées voire écrites. Je dispose ainsi d’environ un quart des éditions de romans de 1800 à 1900 (soit la totalité de ceux qui ont été numérisés par Gallica). Dans le cadre du projet Numapresse, nous commençons à réunir une bonne partie de la presse quotidienne nationale.

Les romans numérisés de la période 1815-1850 classés automatiquement par genre.

Si nous sommes encore loin de l’idéal d’une numérisation totale (qui ne relève néanmoins plus de l’utopie à moyen terme), il y a aujourd’hui suffisamment de ressources accessibles pour mettre en évidence des phénomènes culturels réguliers qui débordent totalement des narrations historiques courantes. Il existe des récurrences dans les manières d’écrire, dans les arrangements éditoriaux des textes, dans les figures visuelles (d’où d’ailleurs la notion de “stéréotype”).

Par exemple, à partir du début du XIXe siècle, la presse française introduit un objet éditorial, le feuilleton, sorte de supplément interne au journal, où va notamment se nicher le roman-feuilleton. Ce qui est moins connu et qui a été rendu pleinement visible par la numérisation de collections très variées, c’est que la forme feuilleton va s’exporter dans une bonne partie de l’Europe continentale et sans doute au-delà mais pas dans les pays anglo-saxon.

Ces régularités constituent autant un standard documentaire qu’un fait social : à un certain moment, il va de soi que l’on va composer un texte d’une certaine façon, l’illustrer d’une certaine manière, à partir du moment où l’on souhaite aborder tel thématique et s’adresser à tel public.

À partir du moment où il est question de “régularités” et de “récurrences” il devient envisageable d’utiliser des méthodes quantitatives. On peut compter les feuilletons tout comme on peut compter les titres de romans qui mentionnent un genre précis, par exemple “roman de mœurs”, dans leur titre. Et à partir de ces décomptes l’on peut commencer à observer des tendances temporelles et/ou des répartitions géographiques.

Compter à la main de tels objets est une activité plutôt rébarbative même si elle a été pratiquée dans certains domaines (comme les media studies). La numérisation rend possible de déléguer cette activité à des outils automatisés. Dans certains cas, les calculs sont triviaux : compter des occurrences, agréger des publications, dessiner un graphe de tendance… Rapidement, il devient nécessaire d’utiliser des outils plus complexes.

Historiciser par algorithme

Certaines régularités peuvent en effet apparaître évidentes à un œil humain, a fortiori un peu familier du contexte culturel d’origine du document. Je sais reconnaître le feuilleton d’un journal presque instantanément. Créer une définition du feuilleton ou de la note de bas-de-page qui soit compréhensible pour un outil automatisé est une tâche beaucoup plus ardue — on parle aussi d’opérationnalisation. Cela suppose de réfléchir sur un regard qui semble de prime abord spontané : « qu’est-ce que je vois précisément lorsque je distingue un feuilleton ? ».

Il est possible de fournir des règles précises pour repérer les objets (c’est ce que l’on appelle une approche « rule-based ») ou au contraire de laisser l’outil informatique extrapoler les règles à partir de corpus annotés. La seconde approche a été par exemple retenue pour une tentative d’identification automatisée des notes de bas de page dans des corpus anglo-saxon du XVIIIe — une pratique éditoriale notablement différentes des notes actuelles, caractérisées par l’emploi de signes spécifiques en lieu et place des numéros.

Essai de modélisation de la note de bas de page dans Detecting Footnotes in 32 millions of pages ECCO.

J’ai eu recours à la première approche par règle pour extraire automatiquement les romans-feuilleton du Journal des débats. Le texte journalistique était alors suffisamment standardisé pour se contenter d’une définition relativement triviale (un texte, en bas du journal déparé par une marge importante — la grande barre sombre ne survit pas au processus de numérisation/ocr).

Essai de modélisation du feuilleton à partir des “marges” laissées par l’absence du séparateur dans les données de l’OCR.

J’ai d’ailleurs pu constater que cette approche cesse de fonctionner correctement à partir du début du XXe siècle, signe parmi d’autres que l’économie générale des formes journalistiques était en train de changer profondément. Mes travaux actuels visent à aller plus loin que l’identification d’une seule forme journalistique pour reconstituer l’architecture éditoriale générale de la presse quotidienne au XIXe siècle (et, idéalement, au XXe siècle), en anticipant notamment les articulations régulières en forme et sémantique du texte — par exemple, les signatures sont toujours justifiées à droite et les titres sont toujours centrés.

Essai de modélisation éditoriale de la presse quotidienne à partir de la reconnaissance des colonnes et de la justification du texte.

J’ai beaucoup insisté sur la “modélisation éditoriale” car elle constitue un exemple très parlant visuellement, mais les mêmes principes peuvent être appliquées à d’autres formes culturelles. C’est évidemment le cas depuis déjà quelques temps pour les textes, notamment à la suite des recherches pionnières de Ted Underwood sur l’usage critique et « détourné » des classifications supervisées pour interroger la construction historique de la généricité. Il est de nouveau question de partir d’une définition plus ou moins naïve de certaines catégories textuelles pour repérer les phases de formation d’un genre et l’évolution de sa composition lexicale.

Les probabilités d’attribution d’une classification anachronique des romans politiques permettent d’interroger la formation lexicale du genre (Underwood, The Life Cycle of Genres)

L’interrogation critique des modèles de classification permet de sortir d’une approche d’indexation pure pour soulever des questionnements scientifiques : où ces formes se sont-elles développées ? comment se généralisent-elles et à quels moment ? dans quel contexte éditorial ?

Le développement de la page de cinéma dans le Petit Parisien (classification automatisée de tous les exemplaires parus de 1900 à 1940)

Cette “lecture distante” peut également porter sur des régularités plus élémentaires : figures de styles, tournures, articulation récurrents de concepts. Certaines recherches plus expérimentales utilisent ainsi de nouvelles techniques de linguistique computationelle, les Word Embeddings, pour cartographier des usages poétiques sous-jacents de vastes corpus.

Degré d’anthropomorphisme de certains terme dans la poésie anglaise du XVIIIe siècle (Ryan Heuser). La “Personified Abstraction Zone” renvoie aux figures allégoriques.

Le potentiel de la classification est peut-être encore plus important pour les formes visuelles. Contrairement aux textes les images ne sont pas préalablement indexées dans les bibliothèques patrimoniales. Sauf à disposer d’un paratexte explicite elles restent généralement introuvables, et même dans ces cas-là, il est difficile d’identifier précisément des régularités visuelles, qui ne relèvent pas forcément du sujet figuré mais aussi du mode de figuration. Les nouvelles techniques de classification automatisée rendent tout simplement possible une poétique historique de l’image à grande échelle.

Les illustrations de la page de cinéma du Matin de 1927-1940 (3e panel de l’application). Tous les portraits en médaillon composent un cluster rose en bas à gauche, ce qui rend possible d’historiciser la forme.

Les méthodes informatisées s’intègrent d’autant plus naturellement dans ce projet que les régularités se déploient fréquemment sur une échelle temporelle ample. L’histoire éditoriale de la forme feuilleton commence vers la toute-fin du XVIIIe siècle et s’achève vers les années 1970 et 1980 en France (les occurrences les plus tardives que j’ai pu identifier se trouvent dans des périodiques régionaux des années 1970). Aux États-Unis la plupart des chercheurs en cultural analytics ont empiriquement acquis une expertise chronologique ample — souvent de 1800 voire 1700 à aujourd’hui.

Part des personnages féminins dans 93000 ouvrages de fictions anglais parus de 1800 à 2007 (Ted Underwood, The Gender Balance of Fiction). Ce type de recherche n’est pas contraint par les délimitations chronologiques usuelles.

Où suis-je ?

En bref, depuis quelques années, une bonne partie de mon travail de recherche consiste à “opérationnaliser” des objets éditoriaux et des concepts . Et je serais bien en peine de dire précisément à quelle discipline correspond cette activité. Ce n’est pas de l’histoire, de la littérature, de la sociologie, de l’histoire de l’art, de la linguistique ou de l’informatique mais quelque chose qui croise ces disciplines et un peu plus encore.

L’enjeu fondamental des nouvelles méthodes de lecture distante ou de cultural analytics va au-delà de l’intégration de l’outil numérique dans des pratiques de recherches préexistantes qui ne sont pas appelées à changer en profondeur. Il s’agit bel et bien de proposer une redéfinition des frontières scientifiques, principalement au sein des sciences humaines et sociales, via, notamment, l’articulation paradoxale et constante entre observation minutieuse des réalités poétiques, éditoriales et documentaires et, d’autre part, l’ambition d’historicisation à grande échelle de formes culturelles.

Les transformations les plus marquantes, de mon point-de-vue, concerne les pratiques quotidiennes de la recherche. La programmation implique inévitable une textualisation et une explicitation des regards de recherche et des méthodes de travail. Il ne suffit pas de repérer instantanément que le feuilleton est en bas de page ou que les signatures sont systématiquement alignées à droite, il faut l’exprimer clairement en pourcentage de page ou en pourcentage de colonnes.

L’ampleur des corpus analysé et le recours à la programmation implique également de repenser l’organisation de la journée. Au-delà d’une certaine taille l’automatisation n’est pas instantanée : elle peut prendre plusieurs heures voire plusieurs jours. Je constate ainsi que je suis de plus en plus amené à anticiper les tâches à accomplir pour qu’elles tournent en mon absence (notamment pendant la nuit).

Disons-le clairement ces pratiques de recherche sont encore marginales, même au sein des humanités numériques. Je suis de plus en plus convaincus qu’elles sont appelées à se généraliser. Certes, les outils sont encore mal adaptés, les compétences manquent à l’appel, les corpus plus ou moins disponibles et dans un état plus ou moins hétérogènes, mais il y a un facteur plus important : c’est très tentant. Lorsqu’on s’intéresse aux collections patrimoniales et aux archives au sens large l’on est inévitablement confronté à tout ce savoir latent que je viens de décrire. L’on se familiarise avec les règles éditoriales, les marqueurs lexicaux de la généricité (que nous avons inévitablement assimilés lorsque nous procédons par lecture flottante) ou les stéréotypes visuels que l’on se résigne à cantonner dans un vague arrière-plan culturel sans pouvoir imaginer de décrire systématiquement une telle masse documentaire en dehors de quelques échantillons ponctuels.

De la “psychose” à la crise : le coronavirus dans la presse française.

« S’est-il passé autre chose ? » La crise sanitaire du coronavirus absorbe toute l’attention médiatique, alors que les mesures de confinement affectent la vie quotidienne de la moitié de l’humanité. C’est d’emblée un événement hors norme dans mon domaine de recherche, l’histoire des médias. Hors période de guerre, l’agenda médiatique n’est quasiment jamais bousculé à ce point.

Plusieurs projets ont déjà été entrepris pour collecter « en direct » des informations, archives et données sur la crise ce dont témoigne la compilation des ressources historiques de Frédéric Clavert. De mon côté j’ai spontanément commencé à réunir un large corpus de la presse quotidienne française nationale et régionale couvrant la réception médiatique de l’épidémie depuis ses premières manifestations en Chine début janvier jusqu’au 21 mars inclus.

Je n’avais pas initialement d’objectif précis, juste une volonté de comprendre un aspect de la crise à l’échelle de mon domaine de compétence. Cette exploration préliminaire a fait émerger un résultat paradoxal : l’un des discours les plus médiatisé est un discours critique de la médiatisation et du sensationnalisme des médias appelant à “relativiser” l’ampleur de l’épidémie réduite à une simple psychose irrationnelle.

De l’analyse scientifique à la crise sociale : les étapes de la réception médiatique

Le corpus comprend actuellement 35 258 articles avec une occurrence de “coronavirus” dans Europresse1 . J’ai pris la décision pour l’instant d’exclure la presse spécialisée et, surtout, la presse en ligne : la couverture d’Europresse y est nettement moins bonne. Il faudrait une autre étude et d’autres moyens — probablement une extraction automatisée de Google News qui n’est malheureusement pas l’environnement le plus accueillant pour les projets de text mining.

Pour analyser ce corpus j’ai mis à profit les méthodes de « lectures distantes » expérimentées à une très grande échelle par le projet ANR Numapresse pour les archives de presse du XIXe et du XXe siècle. Nous avons notamment appliqué des outils de classifications automatisés par genre à l’ensemble de la presse quotidienne nationale numérisée par Gallica de 1820 à 1940. Il devient possible de suivre l’évolution quantitative d’un genre journalistique sur une très longue période et d’extraire automatiquement des sous-corpus comme les pages cinéma hebdomadaires. Ces données nouvelles ont été notamment mises à profit pour un livre sur la viralité médiatique avant Internet que je publie prochainement avec Marie-Ève Thérenty et Julien Schuh aux Éditions du CNRS.

J’ai développé un nouveau modèle de classification approprié au corpus en annotant manuellement un millier d’articles selon douze thématiques ou angles journalistiques qui caractérisent les différentes dimensions de la crise de l’organisation de la quarantaine aux problèmes d’approvisionnement.

La classification automatisée permet de distinguer clairement différentes phases de réception du virus. Les premiers articles relaient des analyses scientifiques d’un virus « mystérieux » à l’origine d’une épidémie alors lointaine. Les premiers cas apparaissent à la fin janvier. Tout au long du mois de février les médias font état de la progression de l’épidémie en France et à l’étranger ainsi que des inquiétudes croissantes des milieux économiques (à noter le cycle “hebdomadaire” des nouvelles économiques qui font généralement relâche le week-end). En mars, la couverture médiatique change profondément alors que la société française s’achemine inévitablement vers un confinement de masse : mesures de quarantaine, difficultés d’approvisionnement et, surtout, annulation d’événements en cascade. À cette date, l’épidémie est devenue un événement total qui s’insinue dans toutes les colonnes de la presse des grands titres de la une au carnet du jour.

La classification automatisée simplifie surtout la réalisation d’études « qualitatives » en permettant de rapidement focaliser le corpus sur un certain aspect de la crise. Par exemple il est possible de récupérer uniquement les articles ayant trait à l’organisation interne des hôpitaux ou, inversement, d’exclure d’emblée certaines thématiques qui ne seraient pas pertinentes (comme les nombreuses annulation d’événements sportifs et culturels à partir de mars).

Quand la hantise de la contagion médiatique devient contagieuse

Les premiers articles scientifiques parus dès janvier informent correctement sur la nature de l’épidémie : « Les chiffres actuels indiquent que la mortalité de ce virus serait de 3 à 4 %. » (La Tribune, 25 janvier), « sa létalité ne serait « que » de 3 % des personnes malade » (Les Échos, 27 janvier).

Ce constat factuel, toujours valable, est rapidement dépassé par un discours ambivalent fréquemment porté par certains professionnels de la santé : le virus est bien moins meurtrier en chiffre absolu que la grippe saisonnière qui tue en moyenne 10 000 à 12 000 personnes (sans doute un peu moins cette année avec la démocratisation de mesures de barrières puis la généralisation du confinement).

De circulation en circulation, le discours de relativisation est dépouillé de ses éléments contextuels (« jusqu’à présent »). Il se transforme en vérité générale : « le docteur **** appelle à ne pas céder à la psychose face au coronavirus et rappelle que la grippe est, à ce jour, beaucoup plus mortelle » (Le Progrès de Fécamp, 27 février : les noms des personnes non célèbres ont été anonymisées), « si on déployait la même arithmétique médiatisée et anxiogène pour la simple grippe saisonnière, qu’entendrait-on ? » (Le Télégramme, 7 mars). Les experts sollicités pointent le décalage entre la « surréaction » suscitée par le coronavirus et l’attentisme qui entoure le retour périodique de la grippe : « l’urgentiste Patrick Pelloux appelle lui à raison garder » (Santé, 27 janvier), « le docteur **** est plus inquiet des dégâts causés par la grippe » (La Croix, 31 janvier), « les équipes du SAMU rappellent que la grippe reste bien plus menaçante » (Le Monde, 30 janvier), « les pharmacies sont plus inquiètes pour la grippe que pour le coronavirus » (La Dordogne Libre, 26 février), [pour Michel Cymes] « il n’y a pas de psychose à avoir. Ce n’est qu’une grippe. » (Aujourd’hui en France, 3 mars).

La sur-préparation de la grippe H1N1 en 2009 est largement vue comme un piège à éviter : « l’épidémie de grippe H1N1 et ses nombreux ratés » (Libération 28 janvier), « on en a trop fait dans le cas de la grippe A H1N1 avec des stocks de vaccin ou d appareils » (Ouest-France, 30 janvier); Le risque d’une réaction excessive est encore pointé à la veille du passage en stade 3 et de l’instauration du confinement : « Le bilan est parfois décorrélé des peurs. La panique provoquée par la pandémie de grippe A (H1N1) en 2009-2010 — et par la réaction catastrophique des pouvoirs publics de l’époque — ne se reflète pas dans les chiffres : moins de 1 400 cas graves en réanimation et 312 décès. » (Sud Ouest, 13 mars).

Ce discours laisse des traces. De nombreux lecteurs et témoins de la presse régionale s’en approprient les termes : « je n’y crois pas à tout ce qu’ils racontent La grippe saisonnière fait davantage de morts que leur coro » (La Dépêche du Midi, 11 mars), « C’est beaucoup de cinéma. C’est moins grave que la grippe. » (témoignage dans Ouest-France, 14 mars).

La mise en place progressive du confinement à la mi-mars suscite immédiatement des incompréhensions et témoigne de l’ampleur du décalage entre le récit médiatique et la réalité de la pandémie : « On ne ferme pas le monde entier pour une simple grippe » (La Montagne, 14 mars), « On nous dit que c’est une grippe un peu plus virulente et on prend des mesures historiques » (Midi Libre, 14 mars), « La grippe n’a jamais provoqué la fermeture des bars, alors qu’elle tue davantage. Pourquoi une telle décision? » (témoignage d’un commerçant dans L’Union du 15 mars), « Quand je les ai informés des annonces d’Édouard Philippe, ils étaient ébahis. Ils ont fait des remarques du genre : La grippe, ça fait 10.000 morts. À la prochaine épidémie de grippe aussi ils ferment les restos ? » (La République du Centre, 15 mars).

Pourquoi parler de psychose ?

Un terme revient comme un leitmotiv pour décrire l’emportement médiatique face à l’épidémie : la psychose (953 articles du corpus). L’expression commence à être utilisée fin janvier. Elle est largement disséminée pendant la période allant du développement de l’épidémie en France à l’instauration du confinement.

La psychose est décelée d’abord en Chine : « la psychose gagne Hong Kong » (La Dépêche du Midi, 25 janvier). Elle apparaît rapidement en France avec de premières ruptures de stocks dans les pharmacies : « le début de psychose qui aurait provoqué une ruée sur les masques de protection » (La Nouvelle République du Centre-Ouest, 29 janvier).

La psychose apparaît comme une maladie dans la maladie qui pourrait bien causer plus de dangers que le virus lui-même : « Un véritable phénomène de psychose collective qui a un nom de code coronavirus » (Midi Libre, 30 janvier). Pour un médecin « l’on en parle peut-être trop, au risque de favoriser la psychose » (Le Progrès de Fécamp, 27 février). La psychose est intrinsèquement lié à un discours de maintien de l’ordre réduisant la société à une population instinctive et irrationnelle : « La population s’affole un peu. Cette psychose est maintenue par certains médias au niveau national » (Nord Éclair, 3 mars). Dans ce contexte, l’enjeu essentiel pour les autorités (et plus indirectement pour une partie de la presse) « est aussi de maîtriser la psychose des gens » (Aujourd’hui en France, 26 janvier). Sans surprise, l’expression « psychose » est largement attesté dans la couverture médiatique des problèmes d’approvisionnement (10% des articles classés dans notre corpus) et des mesures de quarantaine (5,3% des articles).

La notion de psychose collective n’a plus de base scientifique solide aujourd’hui. Ce schéma d’explication a été progressivement abandonné par les spécialistes en sociologie des médias et media studies. Il a par contre un sens politique bien précis. Les premières occurrences de « psychose collective » apparaissent au début du XXe siècle sous la plume d’intellectuels conservateurs comme Paul Bourget2 ou Gustave le Bon dans la perspective d’une critique frontale des régimes démocratiques et de la légitimité de l’élection au suffrage universel.

Paradoxalement le discours de la psychose collective prépare son exact envers : la critique de l’irresponsabilité d’une foule incapable de se maîtriser et d’appliquer correctement les mesures de confinement. En moins d’une semaine l’état d’urgence sanitaire s’est considérablement renforcé remettant en cause de nombreux principes fondamentaux des libertés publiques et facilitant la généralisation de techniques de contrôles inédites. Exploitation données de connexion téléphoniques, surveillance par drone, reconnaissance faciale : face à la situation d’urgence tous les moyens paraissent bons pour imposer de force la distanciation sociale à des populations a priori désobéissantes et sujettes à des psychoses incontrôlables.

au nom de l’effet cliquet qui régit la vie de nos institutions contemporaines, il n’est pas absurde de se demander si ces décisions sanitaires, une fois mises en œuvre, perdureront dans le temps comme un vulgaire état d’urgence3 .

Le discours de la psychose prend un autre sens dans le contexte actuel. Il est fréquemment associé à la dénonciation des « fake news » et plus largement à une vision militarisée (weaponization) et verticalisée de la communication4 . À la « guerre sanitaire » lancée par le gouvernement répond une forme de guerre médiatique où les individus sont de nouveau assimilés à une population civile à contrôler et protéger malgré elle.

En amont, une fracture communicationnelle ?

Le traitement médiatique d’un événement hors norme est évidemment un exercice complexe. Dès janvier, Sud-Ouest anticipe la position très délicate de la presse dans un billet réflexif sous le titre (approprié) « contagion médiatique »

Si les médias n’en parlent pas, on les soupçonne de cacher des choses, s’ils en font leurs gros titres, on leur reproche d’affoler la population. Toute la difficulté dans ce genre d’événements est de rendre compte des faits sans dramatiser en prenant en compte une réalité relativement récente.

L’analyse du corpus suggère que la couverture « directe » de la crise n’est pas parvenue à trouvé le juste équilibre : la gravité de la pandémie a été excessivement relativisée quasiment jusqu’à l’instauration des mesures de confinement. Néanmoins, c’est aussi dans la presse que les dysfonctionnements du dispositif de gestion de crise commencent à être mis au jour.

Les premiers signes de pénurie de fourniture médicale apparaissent dès la fin janvier : des pharmacies se retrouvent à court de masques. Le 26 janvier le Midi Libre fait état de « quarante-huit heures de folies » : « On est en rupture de stock. Les gens les achètent par boîtes entières. C’est irrationnel ». La pénurie se répand très vite dans toute la France (Angers, Lyon, Toulouse, Bordeaux…) et affecte rapidement d’autres produits comme les gels hydroalcooliques. La ministre de la santé doit faire une communication officielle : « nous avons des dizaines de masques en stock en cas d’épidémie » (Le Monde, 28 janvier).

Les informateurs locaux sont tout de suite moins optimistes. Un pharmacien constate que, même s’il n’y a pas encore une réelle pénurie les « stocks ne sont pas grands » (Charente Libre, 29 janvier). À Lyon, un industriel spécialisé dans ce type de produit s’avoue incapable de suivre la demande : « Si les chinois ne rouvrent pas leurs usines cela risque d’être compliqué » (Le Progrès, 2 février). Le Monde publiera finalement une enquête détaillée un mois plus tard : la France n’a pas de « plan b » en cas de pénurie de médicament, faute d’accès aux fournisseurs chinois.

Les sources locales s’interrogent également sur le degré de préparation réel des institutions médicales. Faute de retours de leur hiérarchie des soignants doivent aller à la pêche aux informations sur Internet : « La nuit dernière, nous avons appris la confirmation d’un cas via les réseaux sociaux, poursuit une autre infirmière. Il y aurait huit suspicions, mais je n’ai que des bruits de couloir. » (Ouest-France, 29 février). À la fin février, plusieurs médecins interrogés par le Parisien s’alarment du manque de tests et de réactivité des autorités : « Ils ne réalisent pas que l’Ile-de-France est devenue une zone à risque! ». (29 février). Le 4 mars, Le Monde publie une enquête détaillée sur les inquiétudes croissantes des EHPAD : pour la directrice de l’un de ses établissements « le pire est à venir ».

Ces témoignages dessinent en filigrane une forme de « fracture communicationnelle » qui fait largement écho à la fracture sociale : à rebours de l’idéal d’une “société d’information” horizontale héritée des années 1990 les administrations publiques ou privées communiquent de moins en moins en pratique. Les clients, les usagers et même les employés peinent à obtenir des informations cruciales et, inversement, les retours du « terrain » ne sont suffisamment pas pris en compte. Pour de nombreux professionnels de la santé, les voyants rouges se sont multipliés dès février : manque de moyen, préparation insuffisante et déficience des infrastructures. Et pourtant les autorités n’ont pris, en cascade, des mesures fortes que deux à trois semaines plus tard.

  1. Je peux communiquer le corpus à quiconque en fait la demande
  2. En 1909, Paul Bourget introduit l’expression dans la presse française pour décrier l’abandon rapide de la religion catholique dans la vie publique : le pays est libre à « une sorte de psychose collective » (Supplément littéraire du Figaro, 24 avril 1909).
  3. Olivier Tesquet, Ce que dit le Coronavirus de notre soumission à la surveillance
  4. Sur la militarisation de la communication sur les réseaux sociaux voir, Peter Warren Singer & Emerson T. Brooking Likewar: the Weaponization of Social Media, Houghton Mifflin Harcourt, 2018.
❌