gt notebook
,gt data journal shs
,WIP
Data Paper : émergence d’une nouvelle donne scientifique
https://journals.openedition.org/rfsic/12219
Outre une entamme en poésie… je cite : il en va du data paper comme de la poésie,
une non-confusion entre
- poïétique/éthique - ποιεῖν (créer/fabriquer en grec) de la technique,
- et poétique - poïesis (création, voir Palimpsestes, Genette, 1982) où le geste technique est invisibilisé (méprisé) par la geste littéraire, comédienne et rhétorique.
parmi les apports de cet appel à communication / dossier RFSIC, il y a les faits
Ainsi, une définition initiale du data paper, doté de règles, normes et formes, est une représentation d'une réalité "différante" (Derrida , 1967), celles d'une mise en données qui facilite l'analyse du réel ainsi recomposé. Il est la fois objet rédactionnel, percolation méthodologique ou moyen de sortie de crise de la reproductibilité et un moyen de pointer le "travail invisible des données".
Par comparaison avec l'habitus du champ de la santé où le data paper n'est pas un espace de posture épistémique (…) (mais) principalement une démonstration de métrologie, les auteurs définissent le data paper en sciences humaines (sic!) comme étant avant tout un écrit d'accompagnement. Celui-ci reprend les codes du data paper en STM, tout en respectant la tradition littéraire. Ils lui attribuent une vision auctoriale et éditoriale d'un jeu de données (…) (où) la question méthodologique n'est pas moins importante.
La principale différence du data paper entre STM et humanités réside dans les données qui ne sont pas de simples mesures, mais de véritables productions d'observations ou d'analyses de corpus subjectivées (souligné par les auteurs citant Johanna Drucker) : entre data (données métrologiques), capta (données co-dependently constituted) voire sublata (données obtenues ou construites, citant Latour).
La notion de notebook apparaît dans l'organologie (sic!) du data paper ou sa matérialité. Celui-ci peut être adjoint au data paper qui implique des techniques numériques. Une définition du notebook est un document exécutable (cf. "bloc-code" d'Arthur) qui hybride écriture et automatisation informatisée.
Dans l'article, les données sont dites générées, récoltées, filtrées, massifiées, inférées, essentialisées, recherchées, mesurées, collectées, produites, construites, obtenues et réutilisées ou reproduites, regroupées en jeux ou corpus. Dans "Qu'est-ce que l'informatique", Varenne F. (2009, éd. Vrin) dit qu'elles sont relations. Cela va dans le sens de JD, je cite
the abandonment of interpretation in favor of a naïve approach to statistical certainly skews the game from the outset in favor of a belief that data is intrinsically quantitative — self-evident, value neutral, and observer-independent. This belief excludes the possibilities of conceiving data as qualitative, co-dependently constituted — in other words, of recognizing that all data is capta (Drucker, 2011).
Cette "logistique" - pour faire vite, interroge aussi le prisme disciplinaire du data paper, une construction écrite posée également dans les canons de la disciplines, selon les auteurs. Cependant, la question des méthodes est le plus souvent interrogée sous une acception "transdisciplinaire" de techniques souvent invisibilisées (jusqu'à présent). Cette dernière permet-elle de faire l'hypothèse que le data paper serait aussi un objet ouvert à des processus interdisciplinaires, y compris en terme d'évaluation scientifique ?
Selon les auteurs, il est à la fois automate informatique et outil, méthodologie et code. Il offre (…) la possibilité de suivres les opérations effectuées (…) facilitant la vérification du processus (…) et l'ouverture de pistes de réutilisation de tout ou partie de la méthodologie déloyée.
Il s'agirait donc d'un moyen de reproduction de processus décrits attachés actuellement aux données, mais non réductibles à celles-ci. Ici se pose des questions éthiques relatives aux prodiges et vertiges de l'analogie (Bouveresse, 1999) au sein des pratiques scientifiques.
avec notamment openedition, mais aussi Nicolas Larousse sur l'articulation avec nakala (métadonnées) & Dominique Roux de l'IR métopes (édition), dans le cadre du programme/equipex COMMONS
GT « Articles exécutables/notebook »
La question du choix de la plateforme est sous-jacente aux questions sur l’intégration de notebooks dans le projet. Il faudra également voir sur cette question des notebooks ce qu’il est possible de faire avec Huma-Num.
Une des questions soulevées au sein de ce GT est celle de la finalité opérationnelle du notebook. En SHS, la donnée brute est souvent retravaillée. Veut-on rendre visible la chaîne de traitement de la donnée ? Importance de la partie « Méthodologie » qui doit détailler aussi précisément que possible les différents traitements opérés sur les données qui sont mises à disposition.
Remarque d’Aricia : il nous faut une plateforme éditoriale qui facilite les liens avec les forges et les divers entrepôts.
François-Claude évoque son expérience de publier en s’appuyant sur Lodel. Il suggère que lorsqu’on formate nous-même les articles en PDF, cela permet de faciliter le travail de mise en forme des articles ; sinon il faut vraiment un secrétaire éditorial. Julien précise qu’il pourra prendre en charge le rôle de secrétaire d’édition de la revue (si tant est que le rythme de publication de la revue est de deux numéros par an, comme nous le prévoyons initialement). A ce sujet, Aricia souligne également l’importance d’utiliser un format pivot (tel que le XML-TEI utilisé dans la chaîne Métopes).
Il n'y a pas (encore) de définition pour "articles exécutables", ce qui s'entend compte-tenu de la complexité de l'objet. S'agit-il, pour le projet de revue, d'une "forme" spécifique d'article ? Est-ce un objet permettant d'exécuter/interpréter des cellules de code mobilisant les données, objets de la revue ? Est-il envisagé sous une forme de programmation lettrée ? S'agit-il d'autre chose ? L'article exécutable a-t'il pour fonction, par exemple, d'explicter la provenance des "données brutes" & leur traitement, et de rendre ainsi compte d'une "visibilité" de la méthodologie employée sur les données ? Voir, l'article exécutable engage-t'il à une reproductibilité du processus de collecte/traitement/représentation ? etc.
A ce stade, il y a plus de questions que de réponses…
Au sein du GT Notebook, notre réflexion dépasse la question d'une plateforme éditoriale de revue, même si lors du webinaire, nous avons déjà abordé le sujet. Peut-être, les questions/hypothèses posées par le GT data journal SHS à ce stade conduiraient à une définition dédiée de l'"article exécutable", à savoir (?) :
un document computationnel - optionnel, doté d'un langage de programmation & de la description d'un environnement d'exécution/interprétation, ayant pour contenu, sous forme de cellules de code exécutable/interprétable (pas forcément sur la plateforme éditoriale de la revue), la chaîne de traitements des données mobilisées dans l'article données (ou autre) associé.
Je me demande aussi ce que nous entendrons par article exécutable, mais il me semble souhaitable, pour pouvoir le publier, de le définir en incluant peut-être :
Je comprends que la forme de l'article sera probablement dans un notebook .ipynb sous Jupiter, c'est à dire finalement sous la forme d'une page web consultable et exécutable dans un navigateur :
[wip] François est notamment en charge du sous-gt chaîne éditoriale https://annuel2.framapad.org/p/gt-chaine-editoriale-a1nl?lang=fr
Si le format "article exécutable" pose beaucoup de questions, il me semble que la définition que tu en proposes est pertinente. Je suis bien sûr beaucoup moins avancé que vous sur la réflexion autour de ce format d'article, mais il est nécessaire effectivement, en vue de la création de la revue, de définir assez précisément ce que l'on entend par "article exécutable", ce qu'il doit contenir et comment son contenu est structuré. Sur la question de l'hébergement de l'article, il faudra y réfléchir en prenant en compte les résultats du GT plateforme (en fonction du choix qui sera fait pour la plateforme hébergeant la revue). Les résultats du GT enquête sur les besoins apporteront peut-être également des éléments sur ce que les chercheurs en SHS attendent de ce format.
https://digithum.huma-num.fr/ressources/revues/
Raphaelle K., Sébastien RC., Nicolas S., Stéphane P.
Présentation par Raphaëlle :
Stéphane: le HNlab n'a pas réussi à intéresser l'équipe Huma-Num aux notebooks/Callisto. Huma-Num ne sera pas porteur sur ces questions. Ils sont plutôt en train de proposer une offre classique : entrepôt de données Nakala etc. avec des briques qui ne communiquent pas entre elles, et qui ne sont pas pensées pour le workflow éditorial.
Nicolas: il me semble qu'il y aura toujours un delta entre les pratiques des chercheurs et chercheuses sur l'infrastructure de travail proposant des notebooks et les attendus et les contraintes des revues qui souhaitent publier des notebooks: delta de contenus, de discours, etc. mais aussi delta technique puisque les problématiques de pérennité ne sont pas les mêmes pour la revue. Est-ce que c'est le rôle des infra. de recherche de se positionner sur la diffusion de revues ?
Stéphane : le temps long de la revue n'est pas celui du maintien d'une plateforme. Un article décrit de la méthodologie, explicite les traitements théoriques et pratiques et délivre les données et un résultat de traitement à un instant t : le HTML statique convient. La question de la (quasi)reproductibilité peut être posée en ces termes : ce qui compte, c'est la méthodologie, les data, et l'exemple, non l'infrastructure pour permettre tout rejouer à l'identique.
Sébastien défend une autre vision de la reproductibilité (Guix/Nix) (réflexion post visio). Il y a aujourd'hui des moyens de faire de la reproductibilité plus fine que des outils comme docker et cie. C'est un horizon pour les SHS, mais cela est déjà en bonne voie du côté des sciences dites naturelles (bio, physique) notamment dans le monde du calcul de haute performance (HPC, voir par exemple https://hpc.guix.info/) à Grenoble ou Bordeaux. Et sur le plan de la review de code côté workflow éditorial, on a besoin de dire "l'article et la méthode fonctionne car cela s'exécute comme prévu et cela produit un résultat" à un instant. Je suis d'accord pour dire que les SHS n'en sont pas là, mais c'est aussi pour cela que l'on a créé la revue RZine par exemple, pour aller plus loin aussi sur cette question là, pour prototyper/explorer et montrer que "c'est possible" ! C'est un horizon de développement.
Stéphane : la demande du lecteur ou de la lectrice d'article de revue n'est probablement pas celle là. Il s'agit de lire et de comprendre "sans effort" (i.e. sans entrer dans la technicité de la méthode). Les dispositifs de dockerisation dans les infras SHS ne sont pas du tout pris en compte. Donc le chemin est encore long avant d'atteindre la reproductibilité telle que Sébastien la formule pour les SHS.
Sebastien (réflexion post visio): Oui je suis d'accord, l'infrastructure n'est pas encore là, et clairement on vit au crochet des physicien-nes depuis des années de ce côté là. Je pense qu'il faut continuer à exister et se faire entendre même si on est minoritaire dans ces réseaux, en tout cas c'est ce que l'on essaye de faire avec le HPC en géo, en réduisant tant que l'on peut (via des logiciels adaptés) la barrière d'accès à ces moyens de calculs. Je suis d'accord avec ce que tu dis sur une progression par jalon, avec des étapes concrètes, et sans aller trop loin, on observe déjà qu'il y a une barrière technique et méthodologique importante sur le workflow qui intègre git & plateforme git dans RZine. On expérimente sur un double plan, éditorial et technique, et sur ce dernier volet, je pense qu'avec des techno comme Guix pour la reproductibilité, on devrait pouvoir aller plus loin sans forcément ajouter de la contrainte au workflow éditorial.
A la lecture de Le Deuff, Kembellec 2022 dans RFSIC, l'idée des notebooks supports de data paper est de permettre de reprendre tout ou partie du code associé à une ou des méthodologies. Peut-être peut-on imaginer d'outiller quelques bouts de code, un peu comme le fait le W3C dans les tuto CSS ou HTML tryityourself ? La question se pose dès celle de l'évaluation de l'article lui-même : le paradigme du litterate programming permettrait d'éviter de reproduire des opérations sans comprendre ce qui se passe.
Sebastien : peut-être pourrait-on tester des processus entre Vulcain et Rzine ?
Stéphane : l'initiative relative au notebook est sortie de l'infrastructure de recherche HumaNum pour aller vers une infra à l'état de l'art avec le CNRS. Ce qui a permis de réussir assez facilement à avoir les instruments nécessaires. Mais la question de l'article executable au sein d'une revue pose un réel problème : tout ce qui va s'exécuter dans un enivronnement Vulcain va se heurter aux infrastructures d'édition qui n'en sont pas là du tout. Soit les revues inventent leur propre modèle, soit elle tape à la porte des modèles existants et il y aura un mur technique (et peut-être aussi culturel, note Raphaëlle post-visio). C'est bien une question à se poser, car malgré les projets comme COMMONS qui porte ce type de problématique, cela ne sera pas réalisé à l'issue du premier programme…
Nicolas : il est important de distinguer
Raphaëlle : On rencontre ces questions très concrètement dans la chaîne éditoriale de la revue Rzine, notamment la question de l'évaluation du code et de son écriture (et pas seulement celle du LP). Qu'est ce qu'on évalue ? Les méthodes déployées ? la technicité du code etc. ? En même temps, se pose aussi la question disciplinaire. Si une revue data paper journal shs se veut pluridisciplinaire, outre les questions de méthodes, on multiplie les difficultés en terme d'évaluation. Les notebooks, à travers les méthodes qui y sont transcrites, posent ces questions de frontières disciplinaires, au delà des shs voire de la communauté scientifique (voir les notebooks pédagogiques etc.).