Les nouveaux modes d’éditorialisation du libre accès : l’étude critique de 2016 est là !

Par : Pierre-Carl Langlais

Je diffuse aujourd’hui mon principal projet de ces derniers mois, qui marque également l’aboutissement d’une réflexion engagée depuis plusieurs années sur Sciences communes : une étude critique sur les nouveaux modes d’éditorialisation des revues scientifiques en accès ouvert réalisée pour BSN — et très opportunément, cela tombe en pleine Open Access Week…

couverture_rapport — Cliquez sur l’image pour accéder au rapport (hébergé sur scoms en attendant HAL)

L’étude n’est que la version « synthétique » d’une quarantaine de pages d’un ouvrage qui paraîtra dans quelques mois. On peut retrouver également certains éléments propres à l’ouvrage (non repris dans l’étude) dans la présentation que j’en ai tirée pour la BSN et que j’ai ressorti la semaine dernière pour le séminaire PragmaTIC :

Support de présentation de l’étude pour BSN

Le libre accès connaît aujourd’hui un tournant majeur. Il entre dans la loi : la Loi pour une République numérique prévoit un droit de republication des versions auteur ainsi qu’une exception au droit d’auteur pour faire de l’extraction automatisée de textes et de données (text & data mining, encore connu sous le sigle TDM). Au-delà de cette officialisation, le libre accès, sous toutes ses formes (archives ouvertes, revues, bases de données) est devenu un phénomène massif et incontournable, toutes disciplines, communautés et pays confondus.

De quel libre accès parle-t-on ?

La mise à disposition gratuite, voire sous licence libre, dissimule des choix éditoriaux, économiques et même politiques, radicalement distincts. Une partie du mouvement du libre accès est ainsi tentée par une mutation a minima : le journal flipping, soit une reconversion (to flip) des budgets consacrés aux abonnements en achats de « droits à publier » en libre accès, sans rien changer aux montants.

Cette reconversion maintient en l’état l’oligopole des géants de l’édition scientifique (bien présenté dans le dernier Datagueule), voire en étend la portée. Car un acteur comme Elsevier n’attend pas la généralisation du libre accès pour amorcer sa reconversion. Les acquisitions successives de Mendeley ou de l’archive ouverte SSRN (en attendant, peut-être, celles de ResearchGate ou Academia) témoignent de l’avènement de formes de contrôle et de captation inédites de l’activité scientifique : les interactions des chercheurs autour de leur publication alimentant un vaste recueil de métriques, revendues entre autres aux institutions universitaires. Nous assistons à l’émergence d’un nouveau modèle économique de l’édition scientifique assez largement inspiré de celui des grandes industries du web comme Facebook ou Google.

Une autre édition est possible

D’autres modèles existent : de par son ampleur-même, la conversion au libre accès autorise une réforme plus globale des conditions de diffusion de l’écrit scientifique. Les évolutions sont déjà engagées. C’est ce que rend visible la « cartographie » des pratiques et des initiatives émergentes qui se décline sur les quatre parties du rapport : outils d’édition, formes d’écritures, dispositifs d’évaluations et modèles économiques connaissent des transformations parfois radicales — et parfois convergentes. L’article n’est plus seulement ce un objet fixe et immuable une fois le processus de publication achevé mais connaît une multitude d’incarnation ultérieures (par exemple en se métamorphosant en données grâce aux techniques de text & data mining). L’évaluation ne s’arrête pas davantage au seuil de la revue : en s’ouvrant (open peer review), elle prend la forme d’une réception continue.

capture-decran-2016-10-27-a-16-18-45 — Analyse de correspondance réalisée à partir des données d’une étude sur les pratiques d’écriture de 20 000 chercheurs : l’utilisation d’outils libre est étroitement liée à la pratique en libre accès (orange) tandis que des pratiques émergentes mettent davantage l’accent sur la réplication (bleu).

En 2016, la question n’est plus tant de susciter ou de développer des innovations, mais de les intégrer et de les combiner dans des infrastructures cohérentes. L’architecture du web permet de faire cohabiter et « dialoguer » des modèles très différents par le biais de standards communs. Pour soutenir cette « bibliodiversité », il est nécessaire de la donner à lire, de faciliter la circulation d’une forme à l’autre et d’une plateforme à l’autre. J’ai ainsi proposé une petite projection (connus par les initiés de BSN sous le nom de code de « slide 63 ») du rôle déterminant que pourraient désormais jouer les archives ouvertes au-delà du simple recueil de l’article en recensant la pluralité de ces incarnations : évaluations, réplications, extraction de données…

Projection d'une archive ouverte augmentée — Projection d’une archive ouverte augmentée (à partir d’un article déjà déposé dans HAL)

L’élaboration des infrastructures ne soulève pas des enjeux que « techniques ». Finalement un acteur comme Elsevier pourrait très bien jouer ce rôle (et commence à le faire). La différenciation s’opère sur un autre plan : celui, « politique », de la gouvernance. L’enjeu double est aussi bien d’empêcher le détournement de l’open access au profit de nouvelles enclosures que de développer des processus de prise décision plus efficaces et mieux adaptés à un contexte fortement évolutif. Le futur de l’édition scientifique passe ainsi peut-être par l’avènement de grandes plateformes auto-gérées. Celles-ci s’inscriraient la lignée de communs numériques comme Wikipédia ou OpenStreetMap, mais avec des modèles forcément différents, qui restent encore à inventer.

Bien qu’il m’ait été officiellement confié en janvier dernier, le rapport a été « préparé » depuis trois ans sur Sciences Communes. Le présent carnet a été créé en 2013 dans la perspective d’étudier et de référencer les « les nouvelles pratiques de réutilisation des publications et des données scientifiques ». Le rapport va aujourd’hui beaucoup plus loin que ce que j’imaginais alors : j’étais alors plutôt focalisé sur les questions de licences, tout en ayant en tête la perspective d’un écosystème élargi, né de la mobilité inédite des textes et données de la recherche (mon rapport particulier à l’open access, découvert alors que j’étais un simple contributeur sur Wikipédia dans l’incapacité d’accéder aux grandes bases d’articles sous paywall, n’y est pas étranger). Les dimensions de la « cartographie » du rapport sont en partie apparues dans le fil de ce carnet : la possibilité d’une captation de l’open access par des industries académiques 2.0, la nécessité d’une réponse politique, la longue « préhistoire » du libre accès…

Il y a une autre forme de continuité. Dans le rapport comme dans Sciences communes, les opportunités ouvertes par les nouvelles méthodes et formes d’écriture scientifique ne sont pas juste signalées mais mises en pratiques et exploitées. J’ai ainsi repris des données déposées sur Figshare ou Zenodo et j’ai développé des programmes d’extractions automatisés d’articles scientifiques (notamment pour situer le débat académique sur le terme d’open peer review) — tout comme, j’ai pu, par le passé, publier ici des « expériences » (1, 2, 3) qui démontraient, par l’exemple, l’opportunité de penser la publication scientifique comme une production croisée de textes, de données, de codes et de visualisations.

Réseau de similarité entre termes dans les blogs référencés dans l'Open Access Directory — Essai de text mining sur les blogs référencés dans l’Open Access Directory. Le réseau de similarité entre les termes met en évidence l’importance croissante des thématiques éditoriales (données, évaluation…) dans le mouvement sur libre accès

Et puis, ce travail est une forme de production collaborative par procuration. Si j’en suis techniquement le rédacteur, je ne peux pas laisser de côté toutes les influences, déterminantes, qu’il laisse percevoir : celles de mes « encadrants » (Serge Bauin, Emmanuelle Corne, Jacques Lafait et Pierre Mounier), celle de ma collaboratrice sur Sciences Communes Rayna Stamboliyska (qui a directement contribué à l’écriture de ce présent billet), celle de mes collègues de SavoirsCom1 (Lionel Maurel, Thelonious Moon, Mélanie Dulong de Rosnay — également contributrice sur Sciences Communes) et de tant d’autres, théoriciens ou acteurs du libre accès (Marin Dacos, Daniel Bourrion, Guillaume Cabanac, Marie Farge…)

Les données ouvertes et la recherche : quel état des lieux ?

Par : Rayna Stamboliyska

Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl ).

Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.

Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…

Que disent les chercheurs ?

Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.

Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.

La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».

Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.

La majorité des interrogés (n = 1 915) connaissent l'existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables. — La majorité des interrogés (n = 1 915) connaissent l’existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.

Parmi les interrogés, une proportion importante a déjà fait des démarches d'ouverture de données. — Parmi les interrogés, une proportion importante a déjà fait des démarches d’ouverture de données.

Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu'une autre équipe de recherche a mises à disposition. — Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu’une autre équipe de recherche a mises à disposition.

Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu "pas du tout important" est pratiquement de 0 %. — Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu “pas du tout important” est pratiquement de 0 %.

Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu'une citation d'article, si ce n'est plus (10 % des interrogés). — Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu’une citation d’article, si ce n’est plus (10 % des interrogés).

De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.

Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :

Une majorité des chercheurs (y compris des jeunes chercheurs) ont besoin d’accompagnement légal pour naviguer les complexités contractuelles de leurs financements. Ce besoin est exprimé aussi bien par les chercheurs ayant déjà publié des données en open data que par ceux qui ne l’ont jamais fait auparavant.

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le "niveau d'ouverture" desdites données. — Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le “niveau d’ouverture” desdites données.

Le paysage des financements est très embrouillés : une majorité ne sait pas qui financera les démarches d'ouverture de données. — Le paysage des financements est très embrouillé : une majorité ne sait pas qui financera les démarches d’ouverture de données.

La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :

[View the story “John Wilbanks on data licensing” on Storify]

Le rôle des bibliothécaires a énormément évolué : ceux-ci se retrouvent au croisement des connaissances sur les données, le code et les cadres légaux ;
La perception de la publication scientifique a aussi énormément changé : un article n’est plus l’objet unique, statique, composé de texte gravé dans le marbre. Comme on l’a déjà dit par ailleurs sur ce blog, l’article scientifique est devenu la pub pour votre recherche ; ainsi, la routine éditoriale implique aujourd’hui la publication conjointe de l’article, des données produites dans le cadre de l’étude, du code utilisé pour les analyser et, dans certains cas, de fichiers multimédias annexes. La publication scientifique est donc une version de la connaissance du sujet pouvant évoluer.
Le volume a une importance (ou, plus prosaïquement, size matters) : si vous vous intéressez un peu au monde des données, vous ne serez pas étonné-e que l’attention (médiatique, financière) se porte le plus souvent sur le big data (les mégadonnées dont la volumétrie dépasse les terabytes). Cependant, les small data restent fermées : seulement 22 % des chercheurs indiquant produire des mégabytes partagent leurs données. Mais c’est aussi là que se cachent la diversité et les informations importantes mais trop souvent négligées, à savoir les résultats négatifs, les figures rejetées de l’article final, etc.

Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :

Les métadonnées : il s’agit de ce que l’on appelle communément des données sur les données (date de création du fichier, son format, etc.). Dans la mesure où une publication devient une version d’enregistrement de la connaissance, une quantité invraisemblable de métadonnées vient avec cet objet : on a aussi bien celles générées par l’utilisateur que celles générées par le traitement automatique. Il y a par ailleurs de nombreux éléments du processus de recherche qui ne figurent pas (encore) au firmament des objets à ouvrir : les protocoles expérimentaux utilisés, les réglages des appareils, etc. La quantité de métadonnées accompagnant la publication de données et résultats scientifiques ne fera donc que croître et on se retrouve rapidement dépassé-e par les volumes à appréhender et gérer.
La « curation » : autrement dit, le fait de choisir ce qui est pertinent pour un sujet donné. Faire de la veille implique de faire ces choix-là et passe par diverses étapes qui enlèvent ce qui est peu pertinent et qualifient les sources retenues pour une exploitation future. Mais si on a des outils plutôt corrects pour suivre les publications de nos pairs, comment gérer l’invraisemblable quantité de métadonnées dont je parlais juste ci-dessus ? Les auteurs soulignent ainsi le besoin de toujours créer des outils pour structurer les métadonnées et les travailler pour faciliter leur curation et (ré)utilisation ultérieures.
La revue par les pairs : j’allais parler de Retraction Watch (même si les auteurs ne le font pas), de la publication de résultats négatifs ou neutres et de diverses autres initiatives telles que Software Carpentry, Run my Code, etc. mais je vais laisser pour une prochaine fois.

« L’économie politique de la recherche »

Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :

Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.

Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :

Les données ouvertes (mouvement open data) sont une plateforme commune où les chercheurs, les institutions de recherche et les bailleurs de fonds peuvent échanger autour des difficultés pratiques de l’ouverture et la réutilisation des données issues de la recherche.
Les données ouvertes contribuent à une discussion plus large autour de la transparence et de la légitimité des financements ainsi que à celle du retour sur investissement, piliers des politiques publiques de la recherche et préoccupations des bailleurs de fonds.
Le mouvement open data s’aligne sur des défis plus globaux tels que les acteurs désormais incontournables de la recherche issus de centres scientifiques hors de la zone euro-américaine.
Les données ouvertes sont un exemple de l’introduction de la recherche scientifique dans des logiques de marché. Assez pragmatiquement, ce point aborde la conception des données comme des objets politiques, sociaux et financiers. « L’idée même des données scientifiques comme artéfacts pouvant être vendus, échangés et réutilisés pour créer de nouvelles formes de valeur est indissolublement liée à la logique de marché où les données sont des objets d’échange ». De même, l’idée de libre circulation de données scientifiques pose des défis quant à la conception de compétition et propriété non seulement au sein de la communauté scientifique, mais aussi dans les interactions de celle-ci avec d’autres acteurs.

Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :

[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.

Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !