Paul-Antoine

@pac

https://mastodon.social/@pac

Joined on Apr 28, 2017

  • Velotaf D'après Pierre Breteau (Les Décodeurs), le nombre de cyclistes dans Paris a doublé en un an. Lire l'article https://www.lemonde.fr/les-decodeurs/article/2023/11/11/a-paris-la-frequentation-des-pistes-cyclables-a-double-en-un-an_6199510_4355770.html Notebooks et web apps Je découvre Marimo (https://github.com/marimo-team/marimo), un nouveau logiciel qui permet de faire des notebooks inter actifs et réactifs en Python. J'ai pas encore testé mais ça a l'air presque aussi cool qu'Observable.
     Like  Bookmark
  • Disinfo Dans Prospect Magazine, Ethan Zuckerman s'inquiète du fait que les réseaux sociaux deviennent de plus en plus difficiles à étudier. Il revient notamment sur les décisions de rendre les API de Twitter et Reddit payantes et la fin de CrowdTangle. Simply put, the journalists, activists and scholars who study misinformation on social platforms no longer have the tools to do their jobs, or a safe environment to work in This constellation of factors—increasing disinformation on some platforms, the closure of tools used to study social media, lawsuits against investigations on disinformation—suggests we may face an uphill battle to understand what happens in the digital public sphere in the near future. That’s very bad news as we head into 2024, a year that features key elections in countries including the UK, Mexico, Pakistan, Taiwan, India and the US. 👉 Lire l'article : https://www.prospectmagazine.co.uk/ideas/technology/63752/when-internet-becomes-unknowable-social-media-tool
     Like  Bookmark
  • Quarto dashboard On peut désormais faire des dashboards dans Quarto. Cette fonctionnalité va permettre de remplacer Flexdashboard avec l'avantage de pouvoir coder directement en Observable. Ça permet une plus grande interactivité. Le recensement au format Parquet. L'Insee diffuse désormais le recensement au format parquet. Toujours très pédagogique, Lino Galiana explique comment exploiter ces données avec Quarto et Duckdb. Lire l'article : https://ssphub.netlify.app/post/parquetrp/ Disinfo Dans Le Monde, Jean-Baptiste Chastang et Damien Leloup reviennent sur la désinformation pendant la récente campagne électorale en Slovaquie.
     Like 1 Bookmark
  • Disinfo Twitter a favorisé la désinformation russe. The study is the starkest indication yet that the legal and voluntary measures are not getting the job done, following June warnings from E.U. Commissioner Thierry Breton that X had work to do to avoid potentially massive fines under the DSA. Lire l'article du Washington Post https://www.washingtonpost.com/technology/2023/09/01/musk-twitter-x-russia-propaganda Accessibilité de la recherche et des études La plupart des articles de recherche et des études sont publiés dans des pdf inaccessibles.
     Like  Bookmark
  • C'est plus vraiment une weeknote mais un ensemble de liens intéressants collectés au cours de l'été. Violences policières Pour le journal ''L'Humanité'', Nicolas Lambert (neocarto), notamment connu pour le développement de la libraire BertinJS, a cartographié les violences policières depuis 5 ans: https://observablehq.com/@neocartocnrs/violences-policieres Le Soin des choses J'ai toujours pas beaucoup avancé dans l'ouvrage de David Pontille et Jérôme Denis ''Le Soin des choses'' mais heureusement Delphine Satel a reçu David Pontille dans son podcast ''Vivons heureux avant la fin du monde'' (Arte Radio):
     Like  Bookmark
  • Data journalisme Victor Alexandre a déniché un jeu de données sur localisant tous les arbres en Île-de-France et calcule le ratio d'arbres par habitant dans chacune des communes: https://www.leparisien.fr/environnement/combien-darbres-par-habitant-en-ile-de-france-decouvrez-les-villes-les-plus-vertes-30-04-2023-Q5DJSNX2EVEGXBLPN3PB5BHYWM.ph IA La semaine dernière, Le Monde a confronté les points de vue de Yoshua Bengio et Yann LeCun sur les développements récents de l'IA. Yoshua Bengio est beaucoup plus clairvoyant et intéressant que Yann LeCun. Il est important de souligner que les développeurs d’OpenAI [l’entreprise qui a lancé ChatGPT] ne font pas un travail de chercheur mais plutôt de l’ingénierie, en utilisant tout ce qui a été découvert ces dernières années dans le domaine de l’apprentissage profond. je me sens une responsabilité de parole qui me pousse à m’engager, au risque de n’être pas toujours bien vu par certains collègues
     Like  Bookmark
  • Ouvrir le capot de GPT Simon Willison, notamment connu des geeks pour le projet datasette, a développé un outil pour explorer les tokens de GPT. Ça permet d'ouvrir modestement le capot de ce genre de modèle. Note that capitalization is important here. “The” with a capital T is token 464, but “ the” with both a leading space and a lowercase t is token 262. On trouve aussi des tokens étranges dans la base comme "davidjl". It looks likely that this token refers to user davidjl123 on Reddit, a keen member of the /r/counting subreddit. He’s posted incremented numbers there well over 163,000 times. Lire l'article de blog: https://simonwillison.net/2023/Jun/8/gpt-tokenizers/
     Like  Bookmark
  • J'ai perdu le rythme des weeknotes mais ça fait du bien de décrocher un peu. J'essaie de rattraper un peu le temps perdu. Numérique Dans Oussama le Magnifique (Nouvelles Ecoutes), la journaliste de Léa Lejeune revient sur l'histoire d'Oussama Amar et de The Family. A travers cette histoire, Léa Lejeune raconte les années 2010 du microcosme numérique parisien. Ecouter en ligne: https://nouvellesecoutes.fr/podcast/oussama-le-magnifique/ Elon Musk a été reçu par Emmanuel Macron, Bruno Lemaire et Jean-Noel Barrot à Versailles dans le cadre de #ChooseFrance. Dans un excellent papier, Martin Untersinger (https://mastodon.xyz/@martu) explique pourquoi c'est problématique de recevoir Musk comme si de rien n'était. Nul ne peut plus ignorer qu’Elon Musk est aussi un patron de plus en plus extrême, qui a plongé un réseau social au rôle déjà ambigu sur le débat démocratique dans des abîmes de complotisme et de désinformation.
     Like  Bookmark
  • Mobilité sociale L'économiste Clément de Chaisemartin et ses co-auteurs lancent l'alerte sur l'inégalité des chances en France : https://www.lemonde.fr/idees/article/2023/04/22/le-constat-sans-appel-de-l-etendue-de-l-inegalite-des-chances-en-france-devrait-provoquer-un-electrochoc_6170607_3232.html Tel est l’un des enseignements d’une étude qui compare cette corrélation dans les onze pays où elle a été mesurée de façon fiable, à partir des revenus que les individus déclarent à l’administration fiscale. L’étude montre que la mobilité sociale en France est, par exemple, beaucoup plus faible qu’en Suisse, en Espagne, en Australie ou au Canada. IA Le Washington Post analyse le jeu de données Google's C4, un corpus qui permet d'entraîner les modèles de langage géants. Tech companies have grown secretive about what they feed the AI. So The Washington Post set out to analyze one of these data sets to fully reveal the types of proprietary, personal, and often offensive websites that go into an AI’s training data.
     Like  Bookmark
  • Maintien l'ordre La semaine dernière, je parlais de l'article de Fabien Jobard et Olivier Filleul sur le maintien de l'ordre (Weeknotes #11). Anne Chemin revient sur la stratégie de maintien de l'ordre en France pour Le Monde. Lire l'article: https://www.lemonde.fr/idees/article/2023/04/14/le-maintien-de-l-ordre-a-la-francaise-une-agressivite-a-rebours-des-voisins-europeens_6169477_3232.html Le Soin des choses Cet article de Picasoft (https://blog.picasoft.net/~/Picablog/La%20maintenance%20informatique%20:%20une%20pratique%20militante#postcontent-thir) compare la maintenance informatique au care. L'idée est intéressante. Sur le même sujet, j'ai commencé sur les conseils de @tk Le Soin des choses de David Pontille et Jérôme Denis (https://www.editionsladecouverte.fr/le_soin_des_choses-978234806483) qui développe cette idée qu'on valorise l'innovation, la création ou encore la réparation et qu'on invisibilise complètement tout ce qui relève de l'entretien et de la maintenance. Quand on travaille dans le numérique avec des injonctions permanentes à innover, ça fait réfléchir. On devrait mieux valoriser les petites activités de mise à jour, de maintien d'une base de données et valoriser ce qui dure plutôt que ce qui est nouveau. Masculinisme et internet Victoire Tuaillon reçoit Lucie Ronfaut (@Lucieronfaut) et Mathilde Saliou (@mathildesaliou) dans le podcast Les Couilles sur la table pour parler de la manosophère, des incels, des masculinistes et plus généralement le sexisme en ligne.
     Like  Bookmark
  • Bon ça y est, j'ai perdu le rythme des weeknotes. J'essaie de m'y remettre. Dataviz Sur la plateforme Observable, Visionscarto suit le succès de la pétition pour la dissolution de la BRAV M: https://observablehq.com/@visionscarto/pour-la-dissolution-de-la-brav-m. Thomas Bizet de la CNIL publie chaque année une cartographie des contrôles de la CNIL grâce à l'outil umap et le jeu de données en open data: http://umap.openstreetmap.fr/fr/map/cartographie-des-controles-de-la-cnil-par-annee-et_83366#8/46.433/3.912. Data journalism Sur FranceTVInfo, Mathieu Mathieu Lehot-Couette et Léa Prati reviennent sur les méthodologie des différents classements des lycées publiés dans les médias. C'est super intéressant d'avoir des papiers méthodologiques dans la presse grand public.
     Like  Bookmark
  • Open data Jusqu'à maintenant, l'INSEE ne diffusait pas l'intégralité de la base SIRENE. En effet, certaines unités légales s'opposant à la réutilisation commerciale de leurs informations étaient considérées comme « non diffusibles ». L'INSEE diffuse maintenant l'intégralité de la base SIRENE : https://www.insee.fr/fr/information/7076590. Consultation sur le numérique culturel Le ministère de la Culture lance une grande consultation sur le numérique culturel: https://www.culture.gouv.fr/Thematiques/Innovation-numerique/Strategie-numerique-culturelle Twitter Une étude montre l'augmentation forte de tweets à caractére antisémite sur Twitter:
     Like  Bookmark
  • Dataviz Faillites bancaires Suite à la faillite de la Silicon Valley Bank, Mike Bostock, développeur de d3.js et Observable Plot et cofondateur de Observable, représente la liste des faillites des banques depuis 2000 en un graphique: https://observablehq.com/@mbostock/bank-failure Météo et climat Sur FranceTVInfo, Camille Adaoust et Mathieu Lehot-Couette (math_lehot@mastodon.zaclys.com) proposent un outil de comparaison de la météo du jour à l'historique des dernières décennies: https://www.francetvinfo.fr/meteo/climat/infographies-climat-fait-il-chaud-ou-froid-pour-la-saison-comparez-la-meteo-du-jour-a-l-historique-des-temperatures-des-dernieres-decennies_5703086.html découvert via @samgoeta (https://mastodon.social/@samgoeta/110016212035676146). C'est un super outil qu'on peut consulter tous les jours. Printemps
     Like  Bookmark
  • IA HuggingFace développe une librarie JavaScript qui permet d'interroger n'importe quel modèle de leur hub directement depuis une page web. La démo sur Observable est très inspirante: https://observablehq.com/@huggingface/hello-huggingface-js-inference Veille juridique Bonne nouvelle: @rabenou devient actif sur Mastodon. Rabenou est un pionnier de la diffusion de l'information juridique sur internet en France. Il a créé en 1995 le site rabenou.org (http://rabenou.org/index2.htm) avant la création de Legifrance. On peut retrouver des captures d'écran grâce à l'Internet Archive (https://web.archive.org/web/20000229103602/http://www.rabenou.org/). Le site rabenou.org, réalisé en html "à la main", a été maintenu pendant plusieurs années, jusqu'à la naissance et l'essor du site officiel Légifrance. Aujourd'hui il fait une veille juridique poussée qu'il diffuse sur les réseaux sociaux (Twitter et maintenant Mastodon).
     Like  Bookmark
  • Dataviz @mat@mapstodon.space a déniché un super jeu de données publié par le ministère de la transition écologique sur le parc de véhicules automobiles avec des infos par commune : https://www.statistiques.developpement-durable.gouv.fr/donnees-sur-le-parc-de-vehicules-en-circulation-au-1er-janvier-2022. Il en a tiré une carte de France des propriétaires de camping-car https://mapstodon.space/@mat/109943509032624171. La visualisation par hexagone est super élégante. Pour ceux qui ne connaissent pas @mat, je recommande d'aller voir son site : https://mtmx.github.io/. Datatools Dernier né des petits outils en ligne de commande pour manipuler des csv, voici qsv, un fork de xsv qui ajoute pas mal de fonctionnalités. J'ai pas encore testé qsv mais xsv est vraiment pas mal. C'est écrit en Rust donc c'est très rapide. Je maintiens une liste d'outils libres pour manipuler des données: https://github.com/pachevalier/datatools. C'est souvent pratique pour recommander un outil à quelqu'un qui me pose une question. Pandas et Arrow Pandas 2.0 s'appuie désormais sur Apache Arrow. Ça permet d'accélérer un grand nombre de traitements et ça facilite l'interoperabilité avec d'autres langages ou systèmes. Voir l'article
     Like  Bookmark
  • Masculinisme, harcèlement et désinformation Dans la série La Fabrique du mensonge, France 5 revient sur le procès Amber Heard versus Johnny Depp et montre comment les mouvements masculinistes ont utilisé ce procès comme un contre #metoo. Quand on n'est pas directement concerné et qu'on n'y prête pas attention, on a du mal à soupçonner la violence de ces réseaux. https://www.france.tv/france-5/la-fabrique-du-mensonge/la-fabrique-du-mensonge-saison-3/4557595-affaire-johnny-depp-amber-heard-la-justice-a-l-epreuve-des-reseaux-sociaux.html Fossé des générations Dans Le Monde, Nicolas Truong s'interroge sur le fossé des générations. L'article est un patchwork de citations et de références mais pose des questions intéressantes: https://www.lemonde.fr/idees/article/2023/02/17/le-nouveau-conflit-des-generations_6162187_3232.html. Ça rejoint largement les questions évoquées dans l'article ''Réforme des retraites : faire contribuer les retraités, le grand tabou'' cité dans weeknotes #1. Anthropocène Les articles sur le dérèglement climatique et l'effondrement de la biodiversité s'enchaînent. On les lit mais on se sent paralysé parce qu'on sent bien que personne ne sait vraiment quoi faire.
     Like 1 Bookmark
  • Au moins l'intelligence artificielle est fascinante et intéressante et terrifiante et passionnante alors que la crypto n'a jamais été une seule de ces choses. Je repense souvent à cette citation lue dans Regle30, la newsletter de Lucie Ronfaut. https://mailchi.mp/numerama/on-compte-toujours-face-aux-machines?e=[UNIQID] Généalogie de ChatGPT Dans la MIT Technology Review, Will Douglas Heaven fait remonter la généalogie de ChatGPT aux années 1990 avec le fameux modèle LSTM (Lire l'article). Pierre-Carl Langlais remonte lui aux années 1950 avec la naissance de la statistique sémantique et les travaux de Warren Weaver et décrit les différentes étapes avec la statistique sémantique latente, les LSTM et surtout la révolution des années 2010 avec Word2vec, GloVe, BERT et GPT ([ChatGPT : comment ça marche ?] (https://scoms.hypotheses.org/1059)). Cette approche historique permet de mieux comprendre le fonctionnement de ces modèles. Ce mécanisme d’attention change complètement les règles de l’interaction avec l’IA ainsi que sa géographie sémantique sous-jacente. Le modèle est naturellement conçu pour réagir à un texte pré-existant ou le compléter — ce que l’on appelle un prompt. Au lieu de créer un jeu de coordonnées sémantique (ou “embedding”) pour chaque mot, il y a maintenant des coordonnées pour chaque occurrence précise du mot. Par conséquent, il devient possible d’étudier précisément l’emploi de certaines formules syntaxiques, ce qui aurait été impossible avec word2vec Alors que toute la critique d'Emily Bender repose sur le fait que l'on confonde un modèle de langage avec un modèle de connaissance ou modèle encyclopédique, Pierre-Carl Langlais assume le fait qu'il y a une dimension encyclopédique dans GPT-2, GPT-3 et ChatGPT. Il parle d'un « espace culturel latent ». Mais bien sûr l'épistémologie de GPT est probabiliste. Ne sont considérés comme vrais par GPT que les énoncés souvent répétés dans le corpus.
     Like  Bookmark
  • Data journalisme Julia Angwin (ex journliste chez Pro Publica) quitte The Markup après 5 ans. Elle tire les leçons de son expérience à The Markup et c'est passionnant: The best accountability stories, data-driven or not, start out with a tip or a hunch, which you report out and develop into a hypothesis you can test. I have found that showing my work, sharing entire datasets, the code used to analyze the data, and an extensive methodology, builds trust with readers. As an added bonus, the methodologies often get more website traffic over time than the narrative articles https://themarkup.org/hello-world/2023/02/04/journalistic-lessons-for-the-algorithmic-age J'imagine qu'elle lancera bientôt un nouveau projet tout aussi stimulant.
     Like  Bookmark
  • @bzg suggère de créer un vrai blog (https://mastodon.social/@bzg@pouet.chapril.org/109766128721179489). Pour le moment, j'ai encore un peu la flemme et hackmd me permet de me concentrer juste sur le contenu et surtout de contribuer facilement depuis mon téléphone. ChatGPT encore et toujours Modèle ou produit ? Depuis le début, je me demandais pourquoi le lancement de Galactica par Facebook avait été un énorme fail et le lancement de ChatGPT 10 jours plus tard une énorme hype. J'ai mis du temps à comprendre qu'il y avait une énorme différence. Galactica est un modèle d'IA pur avec une démo alors que ChatGPT est un produit grand public. Au dessus du modèle algorithmique de ChatGPT, il y a en fait un énorme travail humain pour éviter les réponses les plus absurdes et les plus problématiques. C'est tout le travail de modération des contenus toxiques documenté par l'enquête de Billy Perrigo dans le Time (https://time.com/6247678/openai-chatgpt-kenya-workers/). Ce sont aussi toutes les réponses très formattées qu'on a pu voir dans les expériences des uns et des autres: "En tant que programme informatique, je n'éprouve pas de sentiments", "En tant que programme informatique, je n'ai pas de biais". On voit bien que ces formulations ne sont pas générées par l'IA elle même mais sont codées directement par les humains. On apprend aussi qu'OpenAI a engagé 1000 sous-traitants dont 400 programmeurs pour apprendre à ses modèles à coder (https://mamot.fr/@casilli/109765869360834754). Toujours plus absurde OpenAI publie un classifieur qui estime la probabilité que le texte soit généré par une IA. Évidemment, il arrive que le classifieur lui-même dise n'importe quoi. Par exemple il considère que les paroles de ABBA sont probablement générées par une IA: https://sfba.social/@adrake/109786536278062889
     Like  Bookmark
  • Data @mat propose des visualisations créées à partir des données satellitaires Sentinel 2 de la couleur dominante sur une petite zone: https://mastodon.social/@mat@mapstodon.space/109733751038066382 @humeursdevictor analyse le fichier des prénoms pour regarder les prénoms les plus atypiques par département: https://mastodon.social/@humeursdevictor/109729026910095395 @coulmont croise le fichier des prénoms et le fichier des décès pour faire des courbes de survie par prénom : https://mastodon.social/@coulmont@mstdn.io/109720168746473764 Mastodon C'est classe que Thierry Breton communique directement sur Mastodon pour l'annonce des high values datasets : https://mastodon.social/@EC_Commissioner_Breton@social.network.europa.eu/109738101122451003
     Like  Bookmark