Les données ouvertes et la recherche : quel état des lieux ?

Par : Rayna Stamboliyska

Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl ).

Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.

Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…

Que disent les chercheurs ?

Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.

Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.

La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».

Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.

La majorité des interrogés (n = 1 915) connaissent l'existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables. — La majorité des interrogés (n = 1 915) connaissent l’existence de données scientifiques ouvertes, soit des données librement accessibles et réutilisables.

Parmi les interrogés, une proportion importante a déjà fait des démarches d'ouverture de données. — Parmi les interrogés, une proportion importante a déjà fait des démarches d’ouverture de données.

Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu'une autre équipe de recherche a mises à disposition. — Une majorité des interrogés (n = 1 777) a déjà réutilisé des données ouvertes qu’une autre équipe de recherche a mises à disposition.

Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu "pas du tout important" est pratiquement de 0 %. — Une proportion non-négligeable des interrogés juge que les données ouvertes réutilisées ont été importantes pour leur projet de recherche. La proportion de ceux ayant répondu “pas du tout important” est pratiquement de 0 %.

Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu'une citation d'article, si ce n'est plus (10 % des interrogés). — Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable estime que la citation de ces jeux de données est au moins aussi importante qu’une citation d’article, si ce n’est plus (10 % des interrogés).

De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.

Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :

Une majorité des chercheurs (y compris des jeunes chercheurs) ont besoin d’accompagnement légal pour naviguer les complexités contractuelles de leurs financements. Ce besoin est exprimé aussi bien par les chercheurs ayant déjà publié des données en open data que par ceux qui ne l’ont jamais fait auparavant.

Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le "niveau d'ouverture" desdites données. — Parmi ceux ayant déjà rendu leurs données de recherche ouvertes, une proportion non négligeable a cependant des difficultés pour définir le conditions légales et, ainsi, le “niveau d’ouverture” desdites données.

Le paysage des financements est très embrouillés : une majorité ne sait pas qui financera les démarches d'ouverture de données. — Le paysage des financements est très embrouillé : une majorité ne sait pas qui financera les démarches d’ouverture de données.

La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :

[View the story “John Wilbanks on data licensing” on Storify]

Le rôle des bibliothécaires a énormément évolué : ceux-ci se retrouvent au croisement des connaissances sur les données, le code et les cadres légaux ;
La perception de la publication scientifique a aussi énormément changé : un article n’est plus l’objet unique, statique, composé de texte gravé dans le marbre. Comme on l’a déjà dit par ailleurs sur ce blog, l’article scientifique est devenu la pub pour votre recherche ; ainsi, la routine éditoriale implique aujourd’hui la publication conjointe de l’article, des données produites dans le cadre de l’étude, du code utilisé pour les analyser et, dans certains cas, de fichiers multimédias annexes. La publication scientifique est donc une version de la connaissance du sujet pouvant évoluer.
Le volume a une importance (ou, plus prosaïquement, size matters) : si vous vous intéressez un peu au monde des données, vous ne serez pas étonné-e que l’attention (médiatique, financière) se porte le plus souvent sur le big data (les mégadonnées dont la volumétrie dépasse les terabytes). Cependant, les small data restent fermées : seulement 22 % des chercheurs indiquant produire des mégabytes partagent leurs données. Mais c’est aussi là que se cachent la diversité et les informations importantes mais trop souvent négligées, à savoir les résultats négatifs, les figures rejetées de l’article final, etc.

Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :

Les métadonnées : il s’agit de ce que l’on appelle communément des données sur les données (date de création du fichier, son format, etc.). Dans la mesure où une publication devient une version d’enregistrement de la connaissance, une quantité invraisemblable de métadonnées vient avec cet objet : on a aussi bien celles générées par l’utilisateur que celles générées par le traitement automatique. Il y a par ailleurs de nombreux éléments du processus de recherche qui ne figurent pas (encore) au firmament des objets à ouvrir : les protocoles expérimentaux utilisés, les réglages des appareils, etc. La quantité de métadonnées accompagnant la publication de données et résultats scientifiques ne fera donc que croître et on se retrouve rapidement dépassé-e par les volumes à appréhender et gérer.
La « curation » : autrement dit, le fait de choisir ce qui est pertinent pour un sujet donné. Faire de la veille implique de faire ces choix-là et passe par diverses étapes qui enlèvent ce qui est peu pertinent et qualifient les sources retenues pour une exploitation future. Mais si on a des outils plutôt corrects pour suivre les publications de nos pairs, comment gérer l’invraisemblable quantité de métadonnées dont je parlais juste ci-dessus ? Les auteurs soulignent ainsi le besoin de toujours créer des outils pour structurer les métadonnées et les travailler pour faciliter leur curation et (ré)utilisation ultérieures.
La revue par les pairs : j’allais parler de Retraction Watch (même si les auteurs ne le font pas), de la publication de résultats négatifs ou neutres et de diverses autres initiatives telles que Software Carpentry, Run my Code, etc. mais je vais laisser pour une prochaine fois.

« L’économie politique de la recherche »

Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :

Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.

Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :

Les données ouvertes (mouvement open data) sont une plateforme commune où les chercheurs, les institutions de recherche et les bailleurs de fonds peuvent échanger autour des difficultés pratiques de l’ouverture et la réutilisation des données issues de la recherche.
Les données ouvertes contribuent à une discussion plus large autour de la transparence et de la légitimité des financements ainsi que à celle du retour sur investissement, piliers des politiques publiques de la recherche et préoccupations des bailleurs de fonds.
Le mouvement open data s’aligne sur des défis plus globaux tels que les acteurs désormais incontournables de la recherche issus de centres scientifiques hors de la zone euro-américaine.
Les données ouvertes sont un exemple de l’introduction de la recherche scientifique dans des logiques de marché. Assez pragmatiquement, ce point aborde la conception des données comme des objets politiques, sociaux et financiers. « L’idée même des données scientifiques comme artéfacts pouvant être vendus, échangés et réutilisés pour créer de nouvelles formes de valeur est indissolublement liée à la logique de marché où les données sont des objets d’échange ». De même, l’idée de libre circulation de données scientifiques pose des défis quant à la conception de compétition et propriété non seulement au sein de la communauté scientifique, mais aussi dans les interactions de celle-ci avec d’autres acteurs.

Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :

[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.

Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !

Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

Les données ouvertes et la recherche : quel état des lieux ?

Que disent les chercheurs ?

« L’économie politique de la recherche »