Cette semaine c’est l’Open Access Week. Pour marquer l’occasion, de nombreuses ressources sont publiées (#teasing : reviendez demain pour une nouveauté de et par Pierre-Carl ).
Parmi ces ressources, figshare a édité une compilation d’articles traitant des données ouvertes dans le domaine de la recherche scientifique. Pour rappel, figshare est la première plate-forme au monde à proposer la publication de jeux de données issus d’expérimentation scientifique ainsi que des figures et autres supports n’ayant pas trouvé de place dans un article scientifique « officiel ». Séquence émotion pour votre serviteure qui était en thèse au même moment que Mark, le fondateur de figshare, avec qui on avait organisé une compétition de blogs scientifiques et co-écrit la toute première FAQ de figshare.
Mais revenons à nos moutons. Le rapport de figshare, intitulé The State of Open Data, est une sélection de divers papiers de recherche écrits par des scientifiques de différentes universités, de représentants associatifs et d’experts du secteur privé. Le sujet est assez vaste et parle des données ouvertes en général, même si les données de la recherche y ont une place notable. N’y cherchez pas par contre de participation française…
Deux articles présentent les conclusions du questionnaire adressé à la communauté scientifique par figshare. Le questionnaire a recueilli les réponses d’environ 2 000 personnes. Les données brutes anonymisées sont disponibles sur figshare. J’en ai utilisé pour illustrer certains points de la discussion.
Deux grandes dimensions ressortent des réponses : les défis structurels et ceux liés à la culture de l’ouverture de la recherche. Cette dernière englobe les questions « classiques » du genre « mais pourquoi devrais-je ouvrir mes données alors que mes collègues n’en font rien ? », « est-ce que mes concurrents vont utiliser mes données pour me devancer dans la publication et donc, avoir les financements pour lesquels je rempile ? » ou encore « peut-on se rendre compte que j’ai un peu exagéré les résultats obtenus ? ». La question de la reconnaissance des efforts individuels d’ouverture des données revient à différents endroits dans le rapport et notamment dans l’article de David Groenewegen (directeur de recherche à l’université Monash, Australie ; pp. 34-36). Ces questionnements sont « humains », pour reprendre le qualificatif des auteurs, mais je ne m’y attarderai pas.
La dimension structurelle qui émerge de ce questionnaire est discutée en de plus amples détails. Elle englobe des questionnements plus pratiques tels que « qu’est-ce que je dois faire pour ouvrir mes données ? », « quel(s) est(sont) le(s) bon(s) format(s) ? », « ai-je la permission de mon agence de financement de partager les données de mes recherches ? » ou encore « partager OK, mais n’est-ce pas du travail supplémentaire pour moi et qui ne reçoit aucune reconnaissance ? ».
Les réponses recueillies permettent de dresser un état des lieux de la connaissance et l’utilisation des données ouvertes en recherche. Bien évidemment, la méthodo peut être critiquée, mais les observations que l’on peut faire ont un intérêt qualitatif et méritent d’être soulignées.
Et parlant de recherche et d’obtention de financements, le monstre des citations s’impose. Les réponses sont assez intéressantes ici :
De manière assez surprenante quand même, les interrogés avouent ne pas toujours bien savoir comment citer les jeux de données réutilisés.
Au-delà des observations autour des pratiques, on peut également tirer quelques conclusions supplémentaires également intéressantes :
La question des licences est loin d’être anodine. Je vous recommande vivement la lecture de cette brève “twitterstorm” de John Wilbanks, anciennement à l’origine de Science Commons (l’initiative liée à la science chez Creative Commons) et aujourd’hui, l’un des piliers de Sagebio. Il souligne la complexité inhérente de la notion de propriété intellectuelle et son rapport peu amène avec l’objet “données” :
Ces observations font donc ressortir l’importance de trois éléments structurels du processus par lequel on rend publiques des données issues de la recherche scientifique :
Dr Sabina Leonelli (University of Exeter, Royaume-Uni, pp. 7-12) met l’accent sur l’impact des données ouvertes sur l’économie et la politique de la recherche tel que l’on peut le penser à partir des conceptions que l’on a des données scientifiques :
Que la recherche soit mue par des données plutôt que par des théories, des hypothèses, des modèles ou des changements de politiques publiques reste un sujet de débat. Ce qui est clair [cependant], c’est que les données sont de plus en plus conceptualisées comme des produits dont la valeur est inhérente à la recherche scientifique, plutôt que comme des composantes du processus de recherche qui n’ont pas de valeur propre.
Elle ajoute que les réutilisations que l’on peut faire de ces données ne ressemblent pas toujours celles que l’on fait traditionnellement des publications scientifiques. Ainsi, il est important de bien analyser pourquoi le mouvement en faveur des données ouvertes est devenu aussi populaire dans le discours scientifique et politique contemporain. Pour ce faire, elle propose d’articuler la réflexion autour des quatre dimensions suivantes :
Pour rebondir sur les considérations sociétales et culturelles et la valeur des données de recherche, l’article de Prof. Daniel Paul O’Donnell (université Lethbridge, Canada ; pp.38-40) sur les changements induits par les données ouvertes dans les sciences humaines est intéressant. Il y élabore le changement de pratique et la redéfinition des objets d’étude en SHS, dans une veine sensiblement épistémologique. En effet, la tradition veut que les chercheurs en SHS travaillent sur des détails provenant d’un corpus réduit lesquels permettent de construire une argumentation plus générale et généralisable. Comme il le remarque avec un certain amusement, « à l’ère de l’open data, on peut être tenté de voir cette démarche comme une analyse d’un petit échantillon sans puissance statistique ». Mais une telle critique constituerait « une sorte d’erreur catégorielle », comme il dit. En effet, la recherche SHS diffère de celle dans les sciences dites « dures » par sa finalité : les premières visent à l’interprétation alors que les dernières cherchent des solutions. Ainsi, conclut-il :
[l]e véritable défi pour les sciences humaines à l’ère des données ouvertes numériques est de reconnaître la valeur des deux types de sources, à savoir le matériau que nous pouvons générer avec des algorithmes à des échelles autrefois impensables et la valeur toujours actuelle du passage originel.
Enfin, diverses participations proposent des approches permettant d’accélérer les activités de plaidoirie et de sensibilisation autour de l’ouverture des données de recherche. Je vous laisse les découvrir et, qui sait, vous en inspirer !