---
tags: weeknotes
---
Weeknotes 16
==========
## Ouvrir le capot de GPT
Simon Willison, notamment connu des geeks pour le projet [datasette](https://datasette.io/), a développé un outil pour explorer les tokens de GPT. Ça permet d'ouvrir modestement le capot de ce genre de modèle.
> Note that capitalization is important here. “The” with a capital T is token 464, but “ the” with both a leading space and a lowercase t is token 262.
On trouve aussi des tokens étranges dans la base comme "davidjl".
> It looks likely that this token refers to user davidjl123 on Reddit, a keen member of the /r/counting subreddit. He’s posted incremented numbers there well over 163,000 times.
- Lire l'article de blog: https://simonwillison.net/2023/Jun/8/gpt-tokenizers/
- Lire le post de Parul Pandey:
https://www.linkedin.com/posts/parulpandeyindia_tokenizers-gpt-machinelearning-activity-7072795145787596800-px42
- Jouer avec le notebook sur Observable: https://observablehq.com/@simonw/gpt-tokenizer
## Sous le capot des IA (suite)
Dans la [weeknote 13](https://hackmd.io/@pac/weeknote13#IA), j'avais mentionné l'étude du Washington Post sur le jeu de données C4. Dans sa newsletter Automated Society pour AlgorithmWatch, Nicolas Kayser-Bril reprend les données du Washington Post et regarde le nombre de token provenant d'Algorithm Watch dans le jeu de données C4:
> I searched for algorithmwatch.org and... tada! we contributed 59,000 tokens (a token is usually one or two syllables).
Il essaie de voir si ceux qui parlent de systèmes sociaux techniques sont plus ou moins présents que ceux qui parlent d'être super-intelligents dans le jeu de données:
> In particular, I looked for the organizations that think of computers as a super-intelligent quasi-beings that will soon take over the world, and compared them with those that see computers as socio-technical systems (following the typology set forth by Benbouzid et al., 2022).
> The results are humbling. The side "AI as super-intelligence" is four times bigger than the side "computers as socio-technical systems" (including AlgorithmWatch). Does that mean that -- in a chatbot trained on this data set -- any question related to Artificial Intelligence will be answered with a bias towards this vision of AI as a super-intelligence? Mostly, yes.
- Lire la newsletter: https://r.algorithmwatch.org/nl3/q_7P5fwseQoWIpcLRde4Kw
## Imaginer les conséquences du changement climatique près de chez soi.
Théo Alvès, l'animateur de la communauté Data for Good France, a repéré le projet « This Climate does not exist » développé par Victor Schmidt et Sasha Luccioni.
Le site propose d'entrer une adresse et de visualiser l'effet d'une catastrophe (innondation, incendie ou smog) à cette adresse. L'intérêt du site, c'est qu'il est aussi très pédagogique et explique comment les différents aléas climatiques nous concernent.
- Voir le poste de Théo: https://www.linkedin.com/posts/th%C3%A9o-alves-da-costa-09397a82_non-mais-le-changement-climatique-cest-activity-7072579376734695424-BRZK
- Découvrir le projet: https://thisclimatedoesnotexist.com/visualize
Victor est aussi à l'origine de [Metada](https://metada.org/) et contributeur avec Benoit Courty de [CodeCarbon](https://mlco2.github.io/codecarbon/).
## Feux de forêt au Canada et qualité de l'air aux Etats-Unis
Suite aux feux de forêt au Canada et aux images apocalyptiques de New York aperçues sur les réseaux sociaux, [@Fil](https://vis.social/@fil), le co-développeur de la librarire Observable Plot, a développé une visualisation de la qualité de l'air aux Etats-Unis. Le notebook se veut pédagogique. Au delà de l'intérêt circonstanciel de la visualisation, Fil améliore la carte en dessinant des contours autour des points de mesure de la qualité de l'air.
> I'm adding contours, and the shape of the (contiguous) US. I also use that shape to clip the contours (a bit of a hack for now, but I hope that it’ll soon be a supported feature in Plot). I also add interactive tips.
- Voir le notebook: https://observablehq.com/@fil/diy-live-map-of-air-quality-in-the-us
## Déserts médicaux
La dream team data du Parisien (Nicolas Berrod, Victor Alexandre et Stanislas de Livonnière) s'est réunie pour un nouveau « récit-molette » sur les déserts médicaux. L'intérêt de l'article vient surtout de l'approche longitudinale avec un recul de 10 ans sur la démographie médicale par département.
Graphiquement, la visualisation de l'évolution du nombre de médecin par habitant depuis 10 ans sur un cartogramme est très réussi et rappelle les cartogrammes d'Emile Cheysson (exemple ici: https://fr.wikipedia.org/wiki/%C3%89mile_Cheysson#/media/Fichier:Mouvement_quinquennial_de_la_population_par_d%C3%A9partement_depuis_1801_jusqu'en_1881.png)
- Lire l'article: https://www.leparisien.fr/societe/sante/deserts-medicaux-la-ou-le-pire-est-a-venir-12-06-2023-VNOOZ73RVFFLBFD3L3W3CDTLWY.php
## Sécheresse
Alors que l'été risque d'être sec, Brice Le Borgne visualise pour FranceInfo les arrêtés préfectoraux de restriction d'eau (données ProPluvia).
- Voir la visualisation: https://www.francetvinfo.fr/meteo/secheresse/carte-secheresse-votre-departement-est-il-concerne-par-des-restrictions-d-eau_5865584.html
## Mastodon
* Brice Le Borgne, data journaliste chez FranceTVInfo a rejoint Mastodon: [@bricelb](https://mastodon.social/@bricelb)
* Le Conseil national du numérique a rejoint Mastodon via l'instance de l'Education nationale mastodon.mim-libre.fr: https://mastodon.mim-libre.fr/@info
## Weeknotes
* Weeknotes de @tk : https://11d.im/semaines/2023w22/
* Weeknotes de Thomas : https://détour.studio/weeknotes/179/
* [historique de mes weeknotes](https://hackmd.io/@pac?tags=%5B%22weeknotes%22%5D)