Dataviz Faillites bancaires Suite à la faillite de la Silicon Valley Bank, Mike Bostock, développeur de d3.js et Observable Plot et cofondateur de Observable, représente la liste des faillites des banques depuis 2000 en un graphique: https://observablehq.com/@mbostock/bank-failure Météo et climat Sur FranceTVInfo, Camille Adaoust et Mathieu Lehot-Couette (math_lehot@mastodon.zaclys.com) proposent un outil de comparaison de la météo du jour à l'historique des dernières décennies: https://www.francetvinfo.fr/meteo/climat/infographies-climat-fait-il-chaud-ou-froid-pour-la-saison-comparez-la-meteo-du-jour-a-l-historique-des-temperatures-des-dernieres-decennies_5703086.html découvert via @samgoeta (https://mastodon.social/@samgoeta/110016212035676146). C'est un super outil qu'on peut consulter tous les jours. Printemps
3/19/2023IA HuggingFace développe une librarie JavaScript qui permet d'interroger n'importe quel modèle de leur hub directement depuis une page web. La démo sur Observable est très inspirante: https://observablehq.com/@huggingface/hello-huggingface-js-inference Veille juridique Bonne nouvelle: @rabenou devient actif sur Mastodon. Rabenou est un pionnier de la diffusion de l'information juridique sur internet en France. Il a créé en 1995 le site rabenou.org (http://rabenou.org/index2.htm) avant la création de Legifrance. On peut retrouver des captures d'écran grâce à l'Internet Archive (https://web.archive.org/web/20000229103602/http://www.rabenou.org/). Le site rabenou.org, réalisé en html "à la main", a été maintenu pendant plusieurs années, jusqu'à la naissance et l'essor du site officiel Légifrance. Aujourd'hui il fait une veille juridique poussée qu'il diffuse sur les réseaux sociaux (Twitter et maintenant Mastodon).
3/12/2023Dataviz @mat@mapstodon.space a déniché un super jeu de données publié par le ministère de la transition écologique sur le parc de véhicules automobiles avec des infos par commune : https://www.statistiques.developpement-durable.gouv.fr/donnees-sur-le-parc-de-vehicules-en-circulation-au-1er-janvier-2022. Il en a tiré une carte de France des propriétaires de camping-car https://mapstodon.space/@mat/109943509032624171. La visualisation par hexagone est super élégante. Pour ceux qui ne connaissent pas @mat, je recommande d'aller voir son site : https://mtmx.github.io/. Datatools Dernier né des petits outils en ligne de commande pour manipuler des csv, voici qsv, un fork de xsv qui ajoute pas mal de fonctionnalités. J'ai pas encore testé qsv mais xsv est vraiment pas mal. C'est écrit en Rust donc c'est très rapide. Je maintiens une liste d'outils libres pour manipuler des données: https://github.com/pachevalier/datatools. C'est souvent pratique pour recommander un outil à quelqu'un qui me pose une question. Pandas et Arrow Pandas 2.0 s'appuie désormais sur Apache Arrow. Ça permet d'accélérer un grand nombre de traitements et ça facilite l'interoperabilité avec d'autres langages ou systèmes. Voir l'article
3/6/2023Au moins l'intelligence artificielle est fascinante et intéressante et terrifiante et passionnante alors que la crypto n'a jamais été une seule de ces choses. Je repense souvent à cette citation lue dans Regle30, la newsletter de Lucie Ronfaut. https://mailchi.mp/numerama/on-compte-toujours-face-aux-machines?e=[UNIQID] Généalogie de ChatGPT Dans la MIT Technology Review, Will Douglas Heaven fait remonter la généalogie de ChatGPT aux années 1990 avec le fameux modèle LSTM (Lire l'article). Pierre-Carl Langlais remonte lui aux années 1950 avec la naissance de la statistique sémantique et les travaux de Warren Weaver et décrit les différentes étapes avec la statistique sémantique latente, les LSTM et surtout la révolution des années 2010 avec Word2vec, GloVe, BERT et GPT ([ChatGPT : comment ça marche ?] (https://scoms.hypotheses.org/1059)). Cette approche historique permet de mieux comprendre le fonctionnement de ces modèles. Ce mécanisme d’attention change complètement les règles de l’interaction avec l’IA ainsi que sa géographie sémantique sous-jacente. Le modèle est naturellement conçu pour réagir à un texte pré-existant ou le compléter — ce que l’on appelle un prompt. Au lieu de créer un jeu de coordonnées sémantique (ou “embedding”) pour chaque mot, il y a maintenant des coordonnées pour chaque occurrence précise du mot. Par conséquent, il devient possible d’étudier précisément l’emploi de certaines formules syntaxiques, ce qui aurait été impossible avec word2vec Alors que toute la critique d'Emily Bender repose sur le fait que l'on confonde un modèle de langage avec un modèle de connaissance ou modèle encyclopédique, Pierre-Carl Langlais assume le fait qu'il y a une dimension encyclopédique dans GPT-2, GPT-3 et ChatGPT. Il parle d'un « espace culturel latent ». Mais bien sûr l'épistémologie de GPT est probabiliste. Ne sont considérés comme vrais par GPT que les énoncés souvent répétés dans le corpus.
2/18/2023