Archives du filtre 2023

--- title: Archives du filtre 2023 ###### tags: `le_filtre` tags : filtre, workoutloud, wol lang: fr --- # Archives du Filtre 2023 ## 2023-12-19 - Blogue [Outils froids](https://www.outilsfroids.net/) : - Bien que l'auteur du blogue soit plutôt orienté vers l'industrie, de nombreux billets sont pertinents pour la recherche, surtout pour les comparatifs et les billets récents orientés AI. Par exemple, le tout dernier compare des [outils universitaires](https://www.outilsfroids.net/2023/12/14-services-pour-exploiter-des-publications-scientifiques-via-lia/). - Les billets sont clairs, les sélections sont raisonnées (par exemple : pas de consensus.app dans le dernier billet, c'est bon signe) et souvent la méthode d'analyse est expliquée. - J'ai bien aimé la série sur la [veille et l'IA](https://www.outilsfroids.net/2023/01/ce-que-chatgpt-fait-a-la-veille-la-collecte-sourcing-et-veille-2-4/) et [en général](https://www.outilsfroids.net/2021/12/mettre-en-place-une-veille-quick-dirty-partie-i-collecte/), sur les services de [traitement documentaire/IA](https://www.outilsfroids.net/2023/11/comparatif-de-50-services-de-traitement-de-corpus-documentaires-via-ia/) et aussi la découverte d'outils pratiques : [AirTable](https://airtable.com/), [RSSBridge](https://www.outilsfroids.net/2018/06/astuce-de-recherche-trouver-facilement-de-nouvelles-instances-drss-bridge/), ... ## 2023-12-08 - Foutaisomètre : - J'ai eu l'immense joie d'être [critiqué par Hervé Maisonneuve](https://www.redactionmedicale.fr/2023/11/le-foutaisometre-est-un-outil-utile-pour-selectionner-vos-sources-mais-pas-suffisant) (dont j'ai déjà parlé plusieurs fois dans ces Filtres). Je suis entièrement d'accord avec sa critique et les limites du Foutaisomètre (surtout centré sur des critères d'autorité externe). Je les incorporerai dans la prochaine version. - J'ai adapté le Foutaisomètre [pour les étudiants en histoire](https://github.com/pmartinolli/TM-bullshitometer/blob/master/files/Histoire-evaluer-monographie-article.pdf), révisé par la professeure Catherine Lachapelle. Les étudiants aiment. - Grâce à un dialogue intense entre moi et ChatGPT, j'ai pu coder un programme que j'avais en tête depuis longtemps, en 3 soirées (et devant la TV avec *The Crown* s6): - [ZoteroRnalysis](https://github.com/pmartinolli/ZoteroRnalysis) : tu lui donnes tes références Zotero au format CSV et il te fait des beaux graphiques ou des belles extractions de données bibliométriques (les revues et les auteurs les plus mentionnées, le nombre de pages des thèses, ...) - De plus, grâce à la force de la « réconciliation » avec Wikidata, le programme va chercher des données externes pour enrichir les données de base (les pays et les dates de naissances des revues mentionnées, etc.). - Dans une démarche d'ouverture, le tout est disponible librement sur [GitHub](https://github.com/pmartinolli/ZoteroRnalysis). Donc si vous voulez vous initiez aux Humanités numériques pendant les Fêtes sans vous fatiguez, suivez les consignes dans le fichier R, j'ai fait un effort de commentaires didactiques dans le code. - Les exemples utilisés (« la production universitaire sur les jeux de rôle sur table ») seront présentés dans une conférence en ligne dont je discute [par ici](https://jdr.hypotheses.org/1907). - *Triger Warning* pour les codeurs : le code fonctionne mais il n'est pas élégant du tout. - *Triger Warning* général : le codage R en soirée permet aussi une distance émotionnelle salutaire avec le contenu des épisodes de la saison 6 de la-dite série TV. - Vive les LLMs (suite) : très bel entretien de Marcello Vitali-Rosati sur ChatGPT, j'ai spécialement ce qu'il dit sur la [notion d'auteur et d'originalité](https://nouvelles.umontreal.ca/article/2023/12/04/la-creativite-de-chatgpt-nous-menace-t-elle/). - L'étude du moment : [comment les américains classent-ils leurs livres chez eux?](https://today.yougov.com/society/articles/47712-how-many-books-americans-own-and-how-they-organize-them). Je suis surpris que peu le font par couleurs. - J'aime la façon de penser [File Over App](https://stephango.com/file-over-app) par le CEO de Obsidian.md. Je vous en reparlerai en 2024 car ça se rapproche de ce que je pratique avec l'histoire. ## 2023-10-12 - CrossRef : - Côté Cross : il y a des [manipulations par ajouts de citations](https://arxiv.org/abs/2310.02192) quand des responsables de revues scientifiques ajoutent leurs métadonnées dans CrossRef. Impact potentiel sur tous les outils de cartographie de citation dérivés : Dimensions, Lens, Litmaps, Inciteful, etc. - Côté Ref : les métadonnées de CrossRef sont en libre accès de consultation. C'est le bon côté des données liées. Voici un code [Python bricolé](https://pastebin.com/r4NKLNE6) avec ChatGPT3.5 cet été pour récupérer des listes de DOI d'une revue donnée. Un prof de par chez nous (et brico codeur lui aussi) a été ravi car ensuite on peut copier coller cette liste de DOI avec l'outil baguette magique de Zotero et importer toutes les références complètes, voire les articles en libre accès attachés. En effet, Zotero a aussi une API pour interroger CrossRef et récupérer le reste sous forme structurée. - Histoire : - Après le gouvernement [italien](https://ial.uk.com/the-perpetual-copyright-protection-of-italian-cultural-heritage-bypassing-the-public-domain/) (contexte : business), une autre restriction de l'usage des photos prises par les usagers dans un musée public (contexte : publication universitaire) : le [British Museum](https://twitter.com/isisnaucratis/status/1707787423650828432). Il y avait eu aussi une affaire de [statue en 3D](https://www.museumnext.com/article/legal-case-concerning-a-3d-scan-of-a-museum-artefact-may-impact-on-all-institutions/) il y a quelques années. - On commence à déchiffrer les parchemins brûlés d'[Herculaneum](https://scrollprize.org/firstletters) (grâce à deux étudiants, et à PyTorch une bibliothèque IA pour Python). En avant, les sources primaires! - De Gruyter et Brill se [marient](https://www.timeshighereducation.com/news/humanities-publishers-brill-and-de-gruyter-agree-merger). Nul doute qu'ils auront de beaux et chers enfants... - LLM & pédago : - Un autre exemple qui permet de comprendre que les LLM n'enregistrent pas des faits mais qu'ils font des statistiques : «Quelle est la mère de Tom Cruise?» = réponse correcte. «Quel est le fils de Mary Lee Pfeiffer?» = ne fonctionne pas. En effet, il y a peu de textes avec la seconde phrase et ses variantes. - Aux États-Unis, va-t-on vers Entraînement de LLM avec des travaux sous copyright = fair use ??? cf texte de [Creative Commons](https://creativecommons.org/2023/08/18/understanding-cc-licenses-and-generative-ai/). ## 2023-09-22 - Bonne rentrée, avec des informations bien filtrées : - Histoire : - **Pratiques de citation et transpiration**. [Réflexion de Emilien Ruiz](https://parolesdhistoire.fr/index.php/2023/07/04/293-table-ronde-pratiques-numeriques-de-lhistoire/) (qui est venu nous voir à l'ACFAS) à propos de la non-citation de sources considérées comme négligeables : carnets de recherche, recherche amateur en ligne,... « Est-ce que parce que c'est facile à trouver que l'on ne les cite pas ? Alors qu'avant on investissait beaucoup pour aller chercher les sources [et donc on les citait parce qu'on leur avait donné de la valeur] ». Une sorte de variante de « l'effet Ikea » (biais, on aime mieux ce que l'on a fait soi-même). - Bel exemple de besoin de **dépôts pérennes et de fichiers de format ouvert** pour la GDR : une [cigarette en 1973](https://en.wikipedia.org/wiki/National_Personnel_Records_Center_fire) a ravagé les archives du personnel des armées US lançant des historiens et des archivistes pour récolter et rassembler nouvelle une base de données sur les raids de l'US Air Force pendant la seconde guerre mondiale... [pour la mettre sur un CD-ROM](https://twitter.com/mtruslowstorey/status/1703781076689121556) qui ne s'ouvre qu'avec un programme qui ne tourne que sur Windows 98... - MDPI et Frontiers, après avoir **siphoné** jusqu'à [1 milliard de $ par an](https://scholarlykitchen.sspnet.org/2023/09/18/guest-post-reputation-and-publication-volume-at-mdpi-and-frontiers-the-1b-question/) aux institutions de recherche, sont en train de décliner. - Gouvernance pérenne : - Internet Archive a une fonction admirable mais elle appartient à une seule personne qui peut l'éteindre [quand il veut](https://brendanhalpin.com/from-the-vault-debunking-the-brewster-kahle-myth). - Wikimédia a un fonctionnement un peu plus institutionnel, puisqu'elle se repose sur un conseil d'administration avec des règles publiques et les données sont récupérables par tout le monde. Mais... Jimmy Wales l'a « éteinte » au moins une fois en 2012 en protestation d'une loi US. - La base de données de [Retraction Watch](https://retractionwatch.com/2023/09/12/the-retraction-watch-database-becomes-completely-open-and-rw-becomes-far-more-sustainable/ ) a été acquise par [CrossRef](https://www.crossref.org/blog/news-crossref-and-retraction-watch/) qui rendra toutes les données ouvertes. Cela pérennise une institution essentielle de la publication scientifique, hélas unique, qui avait jusque-là un modèle de gouvernement fragile et non pérenne. - Pratiques de citation : les citations [ajoutées durant la révision](https://doi.org/10.1073/pnas.2213697120) par les pairs sont en général moins pertinentes pour la recherche révisée. Si on va voir dans les [données de recherche](https://nih.figshare.com/collections/iCite_Database_Snapshots_NIH_Open_Citation_Collection_/4586573/45), on peut voir qu'ils ont explosé FigShare avec au moins 40 versions de plusieurs extractions de 10 Gb chacune. Loco mes cocos. ## 2023-07-27 - Lectures de plage : - [The future of academic publishing](https://www.nature.com/articles/s41562-023-01637-2) : belle synthèse très courte d'enjeux actuels - Comment améliorer la [révision par les pairs](https://www.ukri.org/publications/review-of-peer-review/ ) (avec étapes et détails) ? - [Tout sur le Markdown](https://e-publish.uliege.be/md/), ce format low-tech décroissant tout en simplicité volontaire car « La sobriété numérique du Markdown permet une fluidité dans le traitement informatique et un gain d’énergie dans le processus d’éditorialisation dans un continuum économe et aussi pérenne que possible. » - Guide finlandais pour une [littéracie de l'information](https://faktabaari.fi/edu/the-digital-information-literacy-guide-has-been-published/). Très synthétique et intéressant même s'il ne mentionne que 6 fois le mot "*filter*". - IA : - Pendant que certains font de la SF, le Vatican sponsorise un [rapport pratique](https://scu.edu/media/ethics-center/itec/Ethics-in-the-Age-of-Disruptive-Technologies:An-Operational-Roadmap---ITEC-Handbook-June-2023.pdf) donnant des conseils aux organisations pour rendre éthique leurs IA. Ironie : j'ai fournis le lien direct au PDF, car sur leur [site](https://www.scu.edu/institute-for-technology-ethics-and-culture/itec-handbook/) il faut laisser son courriel pour accéder au lien, un procédé pas très éthique... - APA n'a toujours mis à jour ses recommandations pour préciser quel modèle d'un outil LLM est utilisé (ChatGPT 3.5 n'est pas le même que ChatGPT 4). Ni pour prendre en compte que c'est un processus interactif et non fixe. - Rêvons : - Un [projet OpenFact](https://doi.org/10.1162/tacl_a_00569) basé sur l'extraction du graphe de connaissances Wikidata. Je rêve d'un projet **OpenClaim** (avec un baromètre de sources qui confirment ou infirment). - Je suis fasciné par le processus de gestion ouvert et transparent des identifiants d'organisation ROR via [GitHub](https://github.com/ror-community/ror-updates/wiki/Curator-Evaluation-Workflow:-New-Records). - Le modeste [hyperlien](https://www.plagiarismtoday.com/2023/04/04/the-power-of-links-for-citation/) a changé profondément les pratiques de citation de la planète, voire la « socialisation convergente de la noosphère » chère à Teilhard de Chardin, mon influenceur des années 90. ## 2023-06-27 - Histoire - [Taux d'erreurs de citation](https://doi.org/10.1007/s11192-023-04755-w) dans 5 grandes revues d'histoire... **24.27%** - Zotero a été créé par et pour des [historiens](https://digitalscholar.org/) en 2006. - Publication - Pour Yves Gingras "Si publier plusieurs fois la même idée sans le spécifier est problématique, l’obsession actuelle contre l’**autoplagiat** dans la recherche académique relève plutôt d’une manie comptable…" [10.3917/pls.545.0022](https://doi.org/10.3917/pls.545.0022) - Il y a une relation inverse entre manipulation des données (plutôt dans les revues à haut facteur d'impact) et plagiat (plutôt dans les revues à faible FI, ou sans) [https://doi.org/10.3145/epi.20](https://t.co/PFyxZFWaCS) - Tout sur la [**rétraction**](https://ofis-france.fr/wp-content/uploads/2023/06/EntretienOfis-RetractionIvanOransky.pdf) dans un super entretien avec Ivan Oransky (co-fondateur de *RetractionWatch*). - Pensée critique - La **lecture** promeut plus la pensée analytique que l'[**écoute**](https://doi.org/10.1037/xge0001316), plutôt adressée à nos intuitions. Souvenirs de réflexions spirituelles entendues sur le sujet dans les années 90s à Nice : « le son nous émeut car il entre en nous, le texte et l'image nous sont toujours extérieurs. » - « **Effet IKEA** » = j'ai un biais d'amour pour les choses que j'ai faites moi-même. Existe-t-il un effet IKEA pour vos propres recherches dans [Google](https://www.wired.com/story/google-search-quietly-damaging-democracy/ ) (attention ce n'est pas une étude, c'est un article d'opinion) ? dans Sofia (un effet Moby Dick...) ? dans la collection imprimée (effet maudit Bic) ? Verra-t-on un effet semblable avec les LLM ? - Potins - Wikipédia+Zotero=love : Auparavant, quand on ajoutait une source automatiquement avec un ISBN dans Wikipédia, cela allait chercher les infos avec une API Worldcat. Après une [rupture/fermeture](https://twitter.com/Pyb75/status/1658897037868376072) avec ledit Worldcat, Wikipédia va désormais chercher les ISBN avec Zotero (lui-même basé sur la Library of Congress et la BNF). - Clic-Bidules - L'extension *Qui a écrit ça?* ([Who Writes That?](https://www.mediawiki.org/wiki/Who_Wrote_That%3F) WWT). Super pratique pour savoir qui a écrit quoi dans une page Wikipédia. L'exégèse à portée du commun des mortels. ## 2023-06-08 - Histoire - [Le premier](https://passionmedievistes.fr/antiquites-ep-4-juliette-bibliotheque-alexandrie/) rôle des bibliothécaires d'Alexandrie était... enseignant, puisque qu'ils devaient éduquer les princes.ses de la Dynastie des Ptolémée (mécènes de la-dite bibliothèque). - Laurent Turcot ne cite pas les [historiennes](https://www.journaldemontreal.com/2023/03/13/affaire-laurent-turcot--il-a-repris-3-ans-de-travail-sans-me-crediter) dilletantes. - Exemple de livre «hijacké» sur Amazon : le [faux](https://www.amazon.ca/-/fr/KATELYN-DANIEL/dp/B0C47RGDZP/), l'[original](https://www.amazon.ca/-/fr/Christopher-Clark-ebook/dp/B0BBKZMXD1). Commentaires salutaires en avertissement dans le faux + indisponible. - AI IA - Avant ChatGPT, le plagiat de qualité était réservé aux privilégiés qui pouvaient se payer les services de compagnies spécialisées. Une compagnie côtée en bourse de ce type a connu de gros revers ces derniers mois. - Estimations (non-vérifiées) : une question sur ChaGPT coûterait en ressource informatique jusqu'à [1000](https://www.washingtonpost.com/technology/2023/06/05/chatgpt-hidden-cost-gpu-compute/) fois plus qu'une recherche sur Google (elle-même environ [10g carbone](https://www.lemonde.fr/technologies/article/2009/01/12/une-recherche-google-a-un-cout-energetique_1140651_651865.html), comme une bouilloire électrique) - L'AI a ses raisons : - Billet de blogue de notre [chercheur superstar](https://yoshuabengio.org/2023/05/22/how-rogue-ais-may-arise/), très similaire à l'argumentaire de [Vold&Harris](https://doi.org/10.1093/oxfordhb/9780198857815.013.36) de 2021, très similaire a aussi à la majorité des thèmes de science-fiction depuis le XIXe (faudrait calculer un % avec les oeuvres majeures mais je pense qu'on est pas loin de 70%). - Une semaine plus tard, un beau billet du recteur qui parle de [clown](https://www.umontreal.ca/recteur/communications/une-nouvelle/news/detail/News/ianxiete/) ... mais surtout de comment utiliser l'IA en enseignement. - Sarah Connor dort bien. - Outils : - Chercher dans les sous-titres [Youtube](https://filmot.com/) : beaucoup de Martinolli dans le fútbol. - [Synthèse de vidéo](https://videohighlight.com/) : sauve du temps en masse. J'ai testé sur cette excellente [vidéo](https://t.co/9j7bT9N1Jm) qui compare les atouts des LLM avec les graphes de connaissances (Knowledge Graph, KG). En gros, ça dit « KG au coeur et LLM autour » : - les LLM peuvent accélérer la construction de KG par domaines - les LLM peuvent être de bons interfaces humain-KG - les KG sont faciles à auditer, à expliquer, à corriger, etc. Les KG sont consistants, n'hallucinent pas, ne sont pas chers, ils sont rapides et ils ne dépendent pas des langues qui les entraînent. ## 2023-04-20 - Extrait de l'opinion du [recteur](https://www.lapresse.ca/debats/opinions/2023-04-14/pour-que-l-ia-serve-veritablement-le-bien-commun.php) dans *La Presse* sur les IA : « Enfin, les universités doivent revoir leurs programmes de formation afin de préparer les prochaines générations à l’environnement numérique qui se construit aujourd’hui. La mission première et historique des universités demeure la transmission de la connaissance et le plein déploiement du potentiel humain, mais il faudra vite l’adapter à un contexte radicalement différent. La maîtrise des innovations numériques et de l’IA ne se fera pas sans le développement du sens critique, de l’autonomie et de l’agilité intellectuelles. » - L'esprit du temps se stabilise sur « comment apprendre à s'en servir ? ». Ça met en avant des choses qu'on sait faire : - Comment interroger les machines ? - On sait faire avec des systèmes très déterministes (reproductibles et prédictibles): booléens, index, ontologies,... - Avec ces bases + une attitude essai-erreur affutée : à nous d'apprendre avec ces systèmes neuraux/ sémantiques de plus en plus pertinents et efficaces. - Comment critiquer les sources, la production de l'information et leur citation ? - On sait faire aussi avec des sources stables, des critères objectifs et des listes d'autorité ou d'exclusion. - À nous d'apprendre à retracer l'information de corpus vastes et leurs calculs, de plus en plus invisibilisés. Voire à construire de nouvelles listes d'autorité. - Encore un article très synthétique et pertinent de [Y LeCun](https://usbeketrica.com/fr/article/d-ici-cinq-ans-plus-personne-n-utilisera-un-modele-tel-que-chatgpt) - Zotero : - Le type de document Jeu de données (*dataset*) et Norme (*standard*) vient d'arriver dans la version 6.0.25. - Avec l'équipe Zotero francophone, nous les avons traduit en français dans les 24h. De plus, la documentation technique de Zotero est en passe d'être presque complètement traduite en français par nos soins : https://docs.zotero-fr.org/ (annonce officielle bientôt) - Un Zotero 7 est en préparation. Il devrait être plus rapide. - [6 points](https://activelearningps.com/2023/04/13/key-features-of-effective-games-for-teaching/) pour qu'un jeu soit pédagogique (par Sebastian Bae, un expert reconnu en wargame pédagogique) : - Il est lié au contenu du cours - Il applique une certaine dose de stress - Il propose des choix interactifs - Il suscite l'esprit critique - Il est facile à manipuler/apprendre - Il est bien conçu (si des biais ou des simplifications sont faites : les expliquer). - J'ajouterai un 7e critère : il est bien mené par un maître de jeu (préparation, déroulement, rétroactions et surtout débriefing pédagogique après le jeu). ## 2023-04-14 - [Entretien](https://www.radiofrance.fr/franceinter/yann-le-cun-la-technologie-cree-de-nouveaux-metiers-en-supprime-d-autres-reconnait-l-un-des-peres-des-ia-5596389) de Yann LeCun qui parle des IA, des paniques morales autour du sujet et... des lunettes à sous-titres. - Avec l'IA : déplacement des valeurs derrière le [plagiat](https://www.plagiarismtoday.com/2023/04/11/one-way-ai-has-changed-plagiarism/) : on insiste plus sur l'aspect mensonge que sur l'aspect vol. - Super exemple pédagogique pour montrer que les LLMs comme ChatGPT ne reconnaissent pas les faits et font une sorte de "[*mansplaining*](https://futurism.com/artificial-intelligence-automated-mansplaining-machine)" statistique : « La mère de Jeanne a 4 enfants : Printemps, Été, Automne et... » ChatGPT va répondre Hiver... et non pas Jeanne. - Le réalisateur de l'excellente série documentaire *Everything is a Remix* vient de rajouter [une partie sur les produits des LLMs](https://youtu.be/rswxcDyotXA). - Guerre des styles. [MLA](https://style.mla.org/citing-generative-ai/) ne considère pas les LLMs comme des auteurs. Un manager de [APA](https://apastyle.apa.org/blog/how-to-cite-chatgpt) propose que oui. Si on cite un LLM comme un logiciel, je penche pour la vision APA. - Superbe nouvelle technique de visualisation de données (*Deepscatter*). Exemple : 20 millions d'[articles de PubMed](https://static.nomic.ai/pubmed.html). ## 2023-04-06 * [Web of Science](https://clarivate.com/blog/supporting-integrity-of-the-scholarly-record-our-commitment-to-curation-and-selectivity-in-the-web-of-science/) vient de retirer le IJERPH de sa liste VIP des Facteurs d'impact(R)(TM). C'est éNORme. * Cette revue est le vaisseau amiral (ou la vache à lait) de l'éditeur MDPI dont les pratiques commerciales sont hum... discutables (50%+ acceptation, en moins d'un mois «révisions» incluses, centaines de numéros « spéciaux », etc.). * C'est un torpillage digne d'un film de SF en pijama où le plus gros vaisseau antagoniste est ciblé et coulé en premier. Car maintenant qui va vouloir publier sérieusement dans cette revue sans facteur d'impact pour booster son score personnel ? La flotte MDPI va-t-elle couler ? * D'autres flottes vont-elle être ciblées ? Vous le saurez dans le prochain épisode de *Star WoS Trek* : « Fédération des planètes unies envoie ses torpilles à prédatron ». * Synthèse experte sur les LLM de type ChatGPT de [Yann LeCun](https://twitter.com/ylecun/status/1643942324672536577) (qui a souvent des avis très éloignés de son co-auteur Yoshua Benjio) : * « 1. Current Auto-Regressive LLMs are *very* useful as writing aids (yes, even for medical reports). 2. They are not reliable as factual information sources. 3. Writing assistance is like driving assistance: your hands must remain on the keyboard/wheel at all times » - Poursuite de tests avec BingAi : on peut tenter de réconcilier des données avec un site web qui n'auraient pas d'API dédiée mais qui néanmoins auraient des pages basées sur des identifiants. Ça marche plutôt bien (0% d'erreurs MAIS il s'arrête tout le temps comme un gros fainéant pour demander si on veut continuer), il y a un potentiel intéressant si cela s'améliore. Il suffit ensuite d'extraire les identifiants des URLs. - Exemple de commande (mode *Precise*) : In a table, reconcile me this data with their URL with BoardgameGeek : Settlers of Catan; Carcassonne ; Bang! ; Monopoly ; Acquire ; Survival : Escape from Atlantis ; Tobago ; Incan Gold ; Azul - Extrait du résultat : Here is a table reconciling the data with their URL with BoardgameGeek: | Game | URL | | --- | --- | | Settlers of Catan | https://boardgamegeek.com/boardgame/13/catan ¹ | | Carcassonne | https://boardgamegeek.com/boardgame/822/carcassonne ¹ | | Bang! | https://boardgamegeek.com/boardgame/3955/bang ¹ | | Monopoly | https://boardgamegeek.com/boardgame/1406/monopoly ¹ | | Acquire | https://boardgamegeek.com/boardgame/5/acquire ¹ | | Survival : Escape from Atlantis | https://boardgamegeek.com/boardgame/2653/survive-escape-atlantis ¹ | | Tobago | https://boardgamegeek.com/boardgame/42215/tobago ¹ | | Incan Gold | https://boardgamegeek.com/boardgame/15512/incan-gold ¹ | | Azul | https://boardgamegeek.com/boardgame/230802/azul ¹ | ## 2023-03-24 - Vive les filtres... Mon graphique préféré des années Covid : les [tranches de fromage suisse de réduction des risques](https://virologydownunder.com/the-swiss-cheese-infographic-that-went-viral/). Version 5.3 actuellement par Ian M Mackay. :heart_eyes: - Un exemple de domaine multidisciplinaire émergent : les *Disinformation studies*. - *[Doomsday Clock](https://thebulletin.org/2023/01/press-release-doomsday-clock-set-at-90-seconds-to-midnight/)* a inclus *Disinformation and Disruptive Technology* dans le calcul pour son funèbre décompte - Searchsmart.org : permet de comparer une centaine de BdD pour disciplines et quelques spécialités. - J'ai enfin pu tester Bing AI : c'est intéressant mais les informations sont très superficielles et c'est difficile de le pousser à trouver plus si on ne connaît pas déjà le sujet. Mon opinion : il va falloir enseigner de nouvelles techniques de «promptage» tout comme on l'a fait dans les années 80-90 avec les booléens. - [Superbe billet de Aaron Tay](http://musingsaboutlibrarianship.blogspot.com/2023/03/how-q-systems-based-on-large-language.html) sur ces outils et leur influence sur le métier de bibliothécaire de recherche (référence, formation, etc.) ## 2023-03-16 - Astuces : - Zotero : pour ajouter des champs non-présents dans le bordereau de type de document, on peut utiliser le champ Extra. Par exemple, `doi:` quand le champ DOI n'apparaît pas. - CTRL+MAJ+V = coller sans mise en forme dans plusieurs logiciels (Google Doc, MS Word, etc.). - « AI AI aïe ! » - J'attends en liste d'attente pour pouvoir tester Bing+AI. Il semblerait que l'on s'approche d'un outil intéressant pour la recherche d'information avec moins de bullsh*t. - Le nouveau [modèle GPT-4](https://cdn.openai.com/papers/gpt-4.pdf) n'affiche plus ses sources, ni ses pondérations, ni ses méthodes. Gros recul des données ouvertes et de «l'AI responsable». En p.46 (fig.1), ils vantent leurs techniques de filtrage pour modérer les contenus problématiques. - Outils de cartographie : - [Extension Zotero](https://github.com/inciteful-xyz/inciteful-zotero-plugin) pour Inciteful.xyz (très pratique). - [Deux](https://musingsaboutlibrarianship.blogspot.com/2023/02/identifying-seminal-papers-some-methods.html) [billets](https://musingsaboutlibrarianship.blogspot.com/2023/03/identifying-seminal-papers-better.html) de blogue pour repérer des articles fondateurs (*seminal papers*) : avec outils de cartographie mais aussi avec Scite, Google Scholar, Web of Science, LLMs, etc. - On le savait, ils l'ont un peu mesuré : des [études retirées](https://doi.org/10.1162/qss_a_00243) (*retracted*) se retrouvent dans des documents de politique publique (*policy literature*). Sur 21.424 articles retirés dans [RetractionWatch](https://retractionwatch.com/), 367 (2.3%) ont été cités 644 fois dans 563 politiques (dans la base [Overton](https://www.overton.io/)). - Pratiques de citation et attribution : - [Auteurs fantômes](https://www.affairesuniversitaires.ca/opinion/legalement-parlant/exclusion-courtoisie-visibilite-et-demandes/), mentions de courtoisie, places d'auteurs à vendre,... de Pratiques non-éthiques de de publications scientifiques : un appel à des politiques plus explicites. - L'attribution des auteurs est un sujet très intéressant pour toute culture. Un enjeu de paternité diraient les anthropologues. Du coup, la citation serait-elle alors une forme de reconnaissance de filiation inversée ? Peut-on juger une culture selon la maturité de ses pratiques d'autorat et de citation ? - Récemment, deux épisodes de *[Young Sheldon](https://www.plagiarismtoday.com/2020/03/17/plagiarism-in-pop-culture-young-sheldon/)* ont illustré les conflits de chercheurs-auteurs dans la culture populaire. - Ce n'est que [récemment](https://jdr.hypotheses.org/882) que l'on a commencé à voir les noms des concepteurs de jeux de société sur leurs oeuvres. - 1949: un physicien non-contributeur est ajouté à un article... pour faire un [jeu de mot](https://www.plagiarismtoday.com/2023/02/07/falsifying-attribution-for-a-bad-pun/) : Alpher, Bethe, Gamow. - Même si les réalisateurs de film reprennent la grammaire visuelle ou narrative de leurs prédécesseurs, je n'ai jamais vu d'attribution dans les génériques comme on le ferait dans une bibliographie (ou des notes de bas d'écran...). À part « basé sur l'oeuvre de... ». Si vous en connaissez, je suis preneur d'exemples. - Pareil pour la BD : Tintin dans *Le Lotus bleu* s'accroche à la roue arrière d'une voiture. Une scène qui est peut être inspirée par Buster Keaton en amont et qui fut reprise en aval dans de nombreuses BDs. Comme si c'était au lecteur de reconstruire ces clins d'oeil. ## 2023-02-08 - LLMs : - [1er preprint](https://arxiv.org/abs/2302.03495) sur la nature non-déterministe de ChatGPT et le déterminisme attendu des équations booléennes : - L'article en parle un peu, mais ils auraient dû en faire le coeur de leur argumentation : les LLMs sont non-déterministes donc non réplicables car chaque fois ça génère quelque chose de très différent. Tandis que les méthodes de revues systématiques et les équations booléennes s'appuient sur une valeur déterministe. - 55 % des MeSH sont inventés; - les différentes équations proposées sont très hétérogènes et les utilisateurs peuvent avoir des difficultés à identifier celles qui donnent les meilleurs résultats. - Un [billet historique](https://scoms.hypotheses.org/1059) et de vulgarisation sur les LLMs/ChatGPT - Une fiche synthèse FFOM (forces, faiblesses, opportunités, menaces) sur les LLMs dans la section [Trousse d'outils](https://enseigner.uqam.ca/babillard/agents-conversationnels-ia-opportunites-enseignement-universitaire/). - Mon billet sur Zotero et ChatGPT sort la semaine prochaine, avec suggestions de comment le citer. J'en ai mis un bout dans le [chapitre 29.15 du manuel PLU6058](https://bib.umontreal.ca/multidisciplinaire/plu6058). - [Yandex](https://www.searchenginejournal.com/yandex-data-leak/477905/#close) (une variante russe de Google) s'est vu révélé le code source de son algorithme. Cela peut donner des indications de comment fonctionne celui de Google aussi : éviter les liens morts sur un site, éviter les chiffres ou les barres / dans l’URL, il y a un booster pour les pages Wikipédia, etc. - Vive les filtres : - I : selon moi, un des succès de ChatGPT c'est son habileté à identifier les sujets polémiques (grâce aux modérateurs kenyans). Faire des listes d'exclusion : une technique de bibliothéconomie toujours très efficace. - II : une [université chinoise](https://mp.weixin.qq.com/s/NO5By3PtF0XPwNxyKl8j1A) a exclu des éditeurs de type «prédateurs-gris» de ses évaluations de carrière : Hindawi, MDPI et Frontiers. - III : je remplacerai cette question intéressante [*Comment traiter les publications non-retirées d'auteurs connus pour leurs fraudes ?*](https://doi.org/10.1016/j.bja.2022.11.022) par la question *Comment identifier rapidement les publications d'un auteur connu pour ses fraudes ?* En effet, l'un des avantages d'avoir des identifiants pérennes de chercheurs est le marquage ce type d'information dans les index. Un *Brown Factor* ? - IV : « La connaissance, c'est le filtrage (*nel filtraggio*) des informations pertinentes. Trop de choses génèrent du bruit et le bruit n'est pas un outil de connaissance ». ([Umberto Eco](https://twitter.com/chetempochefa/status/1611022374668800003)) ## 2023-01-20 * OpenAI prétend pouvoir intégrer un filigrane (*watermark*) dans ses textes générés automatiquement pour aider leur identification. Sur plusieurs pages, je veux bien mais pour 3 paragraphes ça relève du [baratin](https://techcrunch.com/2022/12/10/openais-attempts-to-watermark-ai-text-hit-limits/) selon moi (veulent-ils briser le 4e mur ? un outil qui baratine dont les ingénieurs baratinent...). - Ça me rappelle le 3e livre de la trilogie du *Problème à trois corps* de Liu Cixin (*La mort immortelle*), où un humain essaye de cacher qu'il encrypte des idées d'avancées technologiques dans des contes de fées, sous la surveillance d'une civilisation extra-terrestre qui analyse ses moindres mots. - Pour ne pas se faire baratiner par l'aspect « conversationnel » de ces outils, il serait recommandé de parler de réplique (*prompt*) plutôt que de « questions » ou « réponses » puisque ces outils ne comprennent pas ce qu'est une question/ réponse. Conseils de rédaction de [répliques](https://zapier.com/blog/gpt-3-prompt/). * Perplexity.ai permet de citer ses répliques grâce à un identifiant unique de conversation (*Copy*). * J'ai testé ChatGPT : - pour remplacer Anystyle.io (transformer une bibliographie électronique en fichier pour Zotero ou Endnote) selon la recette de [Godbarge](https://www.clementgodbarge.com/post/bibliography/), en effet ça marche pas trop mal mais il insère plein d'erreurs (ce que certains appellent « phénomène d'hallucination » des LLMs) : changement de noms, de dates, etc. - pour identifier une source d'après sa référence bibliographique. Ça marche pas trop mal. Ce qui est bien c'est qu'on peut tout de suite enchaîner par « Exprime-moi cette référence au format RIS (ou BibteX) ». Pratique. * Je découvre un aspect du droit d'auteur que je ne connaissais pas grâce à la controverse actuelle sur la [licence](https://www.eff.org/deeplinks/2023/01/beware-gifts-dragons-how-dds-open-gaming-license-may-have-become-trap-creators) de jeu OGL de D&D : il s'agit de la notion de «*merger*». - S'il y a une seule manière d'exprimer une idée : cette expression ne peut pas être sous droit d'auteur. - Si j'exprime une idée d'une manière très créative (ex: imaginons que je sois le chanteur original de « J'aurai voulu que tu sois booléenne » ou « Il est venu le temps des thésaurus ») elle peut se réclamer du droit d'auteur. - MAIS si il ne peut pas y avoir d'autre chanson exprimable, tellement celle-ci exprime bien l'idée... alors son expression fusionne (*merge*) avec le fait qu'on ne peut la protéger par droit d'auteur. Fascinant. ## 2023-01-06 : Bonne année des LLMs ! * Perplexity.ai : un LLM (*large language models*) qui génère du texte ET AUSSI qui donne quelques sources. Basé sur [WebGPT](https://openai.com/blog/webgpt/)/GPT-3 (qui m'était inaccessible jusque-là). * [Explainpaper.com](https://www.explainpaper.com/): résume et simplifie les articles savants par petits bouts. * Google aurait un LLM encore-plus-super-top mais ne le diffuserait pas. Ça porterait atteinte à son modèle d'affaire : faire que les usagers cliquent sur les liens pour vendre de la publicité. Du coup, [Bing](https://www.theinformation.com/articles/microsoft-and-openai-working-on-chatgpt-powered-bing-in-challenge-to-google) aurait enfin trouvé l'astuce pour concurrencer Google : ajouter bientôt une fonction LLM à son moteur de recherche. * Exemple : un [LLM médical](https://arxiv.org/abs/2212.13138) de Google aurait de bonnes performances diagnostiques. * Quelques lectures : * Un article en français qui explique un peu les LLMs «[GPT-3 : c’est toi le Chat.](https://affordance.framasoft.org/2023/01/gpt-3-cest-toi-le-chat/)» * Une expérience intéressante de [Jonathan Jarry de McGillOSS](https://www.mcgill.ca/oss/article/technology/i-chatted-artificial-intelligence-about-quackery) pour tester la robustesse des LLMs aux charlataneries médicales. * Une expérience commentée de LLM pour un [travail universitaire](https://library.hkust.edu.hk/sc/chatgpt-write-articles/). * Commentaire personnel : En raison de leurs évolutions très rapides, les LLMs nous obligent à penser au-delà des faits actuels. Pour réduire l'incertitude et l'effet de surprise, les LLMs nous poussent à penser à partir d'axiomes (ou principes généraux) en appliquant des raisonnements contrefactuels (et si...). * Comme la littérature de science-fiction (« Voici un univers avec tels et tels éléments particuliers. Voyons maintenant leurs conséquences et leurs interactions. »). * Exemple d'axiome : * Les LLMs sont très bons pour les tâches sémantiques : interpréter, traduire, simplifier, augmenter/améliorer, suggérer, corriger,... * Exemples de raisonnements contrefactuels : * L'optimisation d'équations de recherche par LLMs pourrait devenir une étape dans la production de revues de littérature. * L'indexation automatique des vedettes-matières (Graal depuis les années 90) pourrait produire des résultats pertinents. * Plagiat étudiant : plus de formation sur les paraphrases générées par LLMs... mais aussi beaucoup moins de revenus pour les agences de triches qui vendent les travaux. * Fabrication de données de recherche : beaucoup plus facile qu'avant. Les *data anomalists* que sont [Elisabeth Bik](https://twitter.com/MicrobiomDigest) ou [Nick Brown](https://twitter.com/sTeamTraen) vont avoir du travail... * Les humanités numériques pourraient nécessiter des partenariats différents avec des codeurs puisque les chercheurs vont pouvoir coder et déboguer plus facilement (comme l'arrivée des ordinateurs personnels a remplacé les secrétaires). * La rédaction (très structurée) des demandes de bourse des chercheurs pourrait être facilitée. * Les usagers vont-ils s'attendre à des résultats de recherche sous la forme de paragraphes rédigés avec des liens (à la place de la liste consécutive de résultats sous la forme de titres avec liens) ? * À quand un sous-titrage de ce que me dit cet étudiant étranger, incrusté dans mes lunettes ? Avec suggestions de 3 réponses en langue étrangère, dictées dans mon oreille ? (oui, comme dans *Terminator*). * Et vous ?