Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

🔒
❌ À propos de FreshRSS
Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierSciences communes

L’exception Text & Data Mining sans décret d’application…

L’information vient d’être relayée sur Twitter (et n’a apparemment pas encore fait l’objet de publication par ailleurs) : le conseil d’État a rejeté le décret encadrant l’exception au droit d’auteur pour la fouille de texte et de données (Text & Data Mining) à des fins scientifiques.

Ce rejet n’est pas définitif : la loi prévoit de toute manière un décret (“Un décret fixe les conditions dans lesquelles l’exploration des textes et des données est mise en œuvre”). En attendant, cela limite considérablement l’application concrète de l’exception.

Que peut-on faire en attendant ?

Le principe de base demeure : il n’est pas illégal, au regard du code de la propriété intellectuelle, de constituer des “copies ou reproductions numériques réalisées à partir d’une source licite, en vue de l’exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l’exclusion de toute finalité commerciale.”

Par exemple, j’ai extrait automatiquement plusieurs centaines articles de presse pour un projet de recherche sur le débat européen autour de la Liberté de panorama (notamment à partir de la base de données Europresse, à laquelle mon université est abonnée). J’étais alors potentiellement dans l’illégalité si je n’en faisais pas un usage strictement privé (par exemple en communiquant les copies à des collaborateurs). Aujourd’hui ce ne serait a priori plus le cas.

Par contre, en l’absence de décret d’application, les propriétaires des contenus ne sont tenus en rien de fournir ces corpus aux chercheurs ; ils ont même toute latitude de bloquer les extractions automatiques (en invoquant la nécessité de “protéger” le site des requêtes excessives). En somme, l’exception lève le risque juridique lié à l’utilisation de copies licites pour la fouille de donnée ; elle ne permet pas de récupérer ces copies (qui requièrent des arrangements contractuels au cas par cas).

Que prévoyait le décret ?

Le décret d’application visait à corriger cette déficience. La dernière version en date (republiée pour l’occasion sur Sciences Communes) correspond à un texte de compromis. La préservation de la “sécurité” des infrastructures face à des requêtes multiples ne peut servir d’argument pour entraver excessivement l’extraction : les détenteurs des droits (généralement des éditeurs) peuvent “appliquer des mesures destinées à assurer la sécurité, la stabilité et l’intégrité des réseaux et bases de données, dès lors qu’elles n’excèdent pas ce qui est nécessaire pour atteindre ces objectifs”.

Les établissements de recherche sont de plus habilités à conserver “sans limitation de durée les copies techniques produites dans le cadre de l’exploration de textes et de données”. L’objectif est d’éviter de mener d’effectuer des extractions multiples (alors que des corpus peuvent avoir déjà été constitués).

Qu’est-ce qui va suivre ?

Pour l’instant, l’argumentaire du Conseil d’État n’a pas encore été publié. Il sera intéressant de voir quelles dispositions du décret ont motivé le rejet (et, par contraste, quelles dispositions sont appelées à être reprises dans un futur décret).

Il semblerait également qu’une voie intermédiaire entre arrangement contractuel et cadre général soit également envisagée, sous la forme de “protocoles d’accords” intégrés dans les contrats entre les institutions de recherche et les éditeurs. Tout ceci risque de complexifier grandement la mise en œuvre de l’exception (rien ne garantit que les protocoles soient rendus publics, ni qu’ils soient systématiquement identique d’un contrat à l’autre…).

À plus long terme, une exception similaire est très sérieusement envisagée au niveau européen. Le principe d’un droit de fouille de textes et de données semble faire l’objet d’un relatif consensus : le débat porte davantage sur son extension au-delà du monde de la recherche (pour tous les usages non-commerciaux, voire pour des usages commerciaux). Le rapport Comodini, qui correspond déjà à un texte de compromis entre les différentes options retenues par le parlement européen, propose ainsi d’étendre le périmètre de l’exception à “l’innovation” (Amendement n°3) et non uniquement à la “recherche scientifique”.

Les nouveaux modes d’éditorialisation du libre accès : l’étude critique de 2016 est là !

Je diffuse aujourd’hui mon principal projet de ces derniers mois, qui marque également l’aboutissement d’une réflexion engagée depuis plusieurs années sur Sciences communes : une étude critique sur les nouveaux modes d’éditorialisation des revues scientifiques en accès ouvert réalisée pour BSN — et très opportunément, cela tombe en pleine Open Access Week

couverture_rapport
Cliquez sur l’image pour accéder au rapport (hébergé sur scoms en attendant HAL)

L’étude n’est que la version « synthétique » d’une quarantaine de pages d’un ouvrage qui paraîtra dans quelques mois. On peut retrouver également certains éléments propres à l’ouvrage (non repris dans l’étude) dans la présentation que j’en ai tirée pour la BSN et que j’ai ressorti la semaine dernière pour le séminaire PragmaTIC :

Support de présentation de l’étude pour BSN

Le libre accès connaît aujourd’hui un tournant majeur. Il entre dans la loi : la Loi pour une République numérique prévoit un droit de republication des versions auteur ainsi qu’une exception au droit d’auteur pour faire de l’extraction automatisée de textes et de données (text & data mining, encore connu sous le sigle TDM). Au-delà de cette officialisation, le libre accès, sous toutes ses formes (archives ouvertes, revues, bases de données) est devenu un phénomène massif et incontournable, toutes disciplines, communautés et pays confondus.

De quel libre accès parle-t-on ?

La mise à disposition gratuite, voire sous licence libre, dissimule des choix éditoriaux, économiques et même politiques, radicalement distincts. Une partie du mouvement du libre accès est ainsi tentée par une mutation a minima : le journal flipping, soit une reconversion (to flip) des budgets consacrés aux abonnements en achats de « droits à publier » en libre accès, sans rien changer aux montants.

Cette reconversion maintient en l’état l’oligopole des géants de l’édition scientifique (bien présenté dans le dernier Datagueule), voire en étend la portée. Car un acteur comme Elsevier n’attend pas la généralisation du libre accès pour amorcer sa reconversion. Les acquisitions successives de Mendeley ou de l’archive ouverte SSRN (en attendant, peut-être, celles de ResearchGate ou Academia) témoignent de l’avènement de formes de contrôle et de captation inédites de l’activité scientifique : les interactions des chercheurs autour de leur publication alimentant un vaste recueil de métriques, revendues entre autres aux institutions universitaires. Nous assistons à l’émergence d’un nouveau modèle économique de l’édition scientifique assez largement inspiré de celui des grandes industries du web comme Facebook ou Google.

Une autre édition est possible

D’autres modèles existent : de par son ampleur-même, la conversion au libre accès autorise une réforme plus globale des conditions de diffusion de l’écrit scientifique. Les évolutions sont déjà engagées. C’est ce que rend visible la « cartographie » des pratiques et des initiatives émergentes qui se décline sur les quatre parties du rapport : outils d’édition, formes d’écritures, dispositifs d’évaluations et modèles économiques connaissent des transformations parfois radicales — et parfois convergentes. L’article n’est plus seulement ce un objet fixe et immuable une fois le processus de publication achevé mais connaît une multitude d’incarnation ultérieures (par exemple en se métamorphosant en données grâce aux techniques de text & data mining). L’évaluation ne s’arrête pas davantage au seuil de la revue : en s’ouvrant (open peer review), elle prend la forme d’une réception continue.

capture-decran-2016-10-27-a-16-18-45
Analyse de correspondance réalisée à partir des données d’une étude sur les pratiques d’écriture de 20 000 chercheurs : l’utilisation d’outils libre est étroitement liée à la pratique en libre accès (orange) tandis que des pratiques émergentes mettent davantage l’accent sur la réplication (bleu).

En 2016, la question n’est plus tant de susciter ou de développer des innovations, mais de les intégrer et de les combiner dans des infrastructures cohérentes. L’architecture du web permet de faire cohabiter et « dialoguer » des modèles très différents par le biais de standards communs. Pour soutenir cette « bibliodiversité », il est nécessaire de la donner à lire, de faciliter la circulation d’une forme à l’autre et d’une plateforme à l’autre. J’ai ainsi proposé une petite projection (connus par les initiés de BSN sous le nom de code de « slide 63 ») du rôle déterminant que pourraient désormais jouer les archives ouvertes au-delà du simple recueil de l’article en recensant la pluralité de ces incarnations : évaluations, réplications, extraction de données…

Projection d'une archive ouverte augmentée
Projection d’une archive ouverte augmentée (à partir d’un article déjà déposé dans HAL)

L’élaboration des infrastructures ne soulève pas des enjeux que « techniques ». Finalement un acteur comme Elsevier pourrait très bien jouer ce rôle (et commence à le faire). La différenciation s’opère sur un autre plan : celui, « politique », de la gouvernance. L’enjeu double est aussi bien d’empêcher le détournement de l’open access au profit de nouvelles enclosures que de développer des processus de prise décision plus efficaces et mieux adaptés à un contexte fortement évolutif. Le futur de l’édition scientifique passe ainsi peut-être par l’avènement de grandes plateformes auto-gérées. Celles-ci s’inscriraient la lignée de communs numériques comme Wikipédia ou OpenStreetMap, mais avec des modèles forcément différents, qui restent encore à inventer.

Bien qu’il m’ait été officiellement confié en janvier dernier, le rapport a été « préparé » depuis trois ans sur Sciences Communes. Le présent carnet a été créé en 2013 dans la perspective d’étudier et de référencer les « les nouvelles pratiques de réutilisation des publications et des données scientifiques ». Le rapport va aujourd’hui beaucoup plus loin que ce que j’imaginais alors : j’étais alors plutôt focalisé sur les questions de licences, tout en ayant en tête la perspective d’un écosystème élargi, né de la mobilité inédite des textes et données de la recherche (mon rapport particulier à l’open access, découvert alors que j’étais un simple contributeur sur Wikipédia dans l’incapacité d’accéder aux grandes bases d’articles sous paywall, n’y est pas étranger). Les dimensions de la « cartographie » du rapport sont en partie apparues dans le fil de ce carnet : la possibilité d’une captation de l’open access par des industries académiques 2.0, la nécessité d’une réponse politique, la longue « préhistoire » du libre accès…

Il y a une autre forme de continuité. Dans le rapport comme dans Sciences communes, les opportunités ouvertes par les nouvelles méthodes et formes d’écriture scientifique ne sont pas juste signalées mais mises en pratiques et exploitées. J’ai ainsi repris des données déposées sur Figshare ou Zenodo et j’ai développé des programmes d’extractions automatisés d’articles scientifiques (notamment pour situer le débat académique sur le terme d’open peer review) — tout comme, j’ai pu, par le passé, publier ici des « expériences » (1, 2, 3) qui démontraient, par l’exemple, l’opportunité de penser la publication scientifique comme une production croisée de textes, de données, de codes et de visualisations.

Réseau de similarité entre termes dans les blogs référencés dans l'Open Access Directory
Essai de text mining sur les blogs référencés dans l’Open Access Directory. Le réseau de similarité entre les termes met en évidence l’importance croissante des thématiques éditoriales (données, évaluation…) dans le mouvement sur libre accès

Et puis, ce travail est une forme de production collaborative par procuration. Si j’en suis techniquement le rédacteur, je ne peux pas laisser de côté toutes les influences, déterminantes, qu’il laisse percevoir : celles de mes « encadrants » (Serge Bauin, Emmanuelle Corne, Jacques Lafait et Pierre Mounier), celle de ma collaboratrice sur Sciences Communes Rayna Stamboliyska (qui a directement contribué à l’écriture de ce présent billet), celle de mes collègues de SavoirsCom1 (Lionel Maurel, Thelonious Moon, Mélanie Dulong de Rosnay — également contributrice sur Sciences Communes) et de tant d’autres, théoriciens ou acteurs du libre accès (Marin Dacos, Daniel Bourrion, Guillaume Cabanac, Marie Farge…)

❌