---
tags: weeknotes
---
# Weeknote 13: Mobilité sociale, IA, open data et masculinisme
## Mobilité sociale
L'économiste Clément de Chaisemartin et ses co-auteurs lancent l'alerte sur l'inégalité des chances en France : https://www.lemonde.fr/idees/article/2023/04/22/le-constat-sans-appel-de-l-etendue-de-l-inegalite-des-chances-en-france-devrait-provoquer-un-electrochoc_6170607_3232.html
> Tel est l’un des enseignements d’une étude qui compare cette corrélation dans les onze pays où elle a été mesurée de façon fiable, à partir des revenus que les individus déclarent à l’administration fiscale. L’étude montre que la mobilité sociale en France est, par exemple, beaucoup plus faible qu’en Suisse, en Espagne, en Australie ou au Canada.
## IA
Le Washington Post analyse le [jeu de données Google's C4](https://www.semanticscholar.org/paper/Documenting-the-English-Colossal-Clean-Crawled-Dodge-Sap/40c3327a6ddb0603b6892344509c7f428ab43d81?itid=lk_inline_enhanced-template), un corpus qui permet d'entraîner les modèles de langage géants.
> Tech companies have grown secretive about what they feed the AI. So The Washington Post set out to analyze one of these data sets to fully reveal the types of proprietary, personal, and often offensive websites that go into an AI’s training data.
> OpenAI does not disclose what datasets it uses to train the models backing its popular chatbot, ChatGPT
C'est quand même flippant de ne pas dire quel dataset tu utilises.
Le Washington Post essaie de retrouver d'où viennent les tokens trouvés dans le dataset C4 de Google.
> The three biggest sites were patents.google.com No. 1, which contains text from patents issued around the world; wikipedia.org No. 2, the free online encyclopedia; and scribd.com No. 3, a subscription-only digital library
> Two sites in the top 100, coloradovoters.info No. 40 and flvoters.com No. 73, had privately hosted copies of state voter registration databases. Though voter data is public, the models could use this personal information in unknown ways
> The copyright symbol — which denotes a work registered as intellectual property — appears more than 200 million times in the C4 data set.
> Meanwhile, we found several media outlets that rank low on NewsGuard’s independent scale for trustworthiness: RT.com No. 65, the Russian state-backed propaganda site; breitbart.com No. 159, a well-known source for far-right news and opinion; and vdare.com No. 993, an anti-immigration site that has been associated with white supremacist.
* Lire l'article: [Inside the secret list of websites that make AI like ChatGPT sound smart](https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/) par Kevin Schaul, Szu Yu Chen, Nitasha Tiku
## Open data
Le Centre Scientifique et Technique du Bâtiment (CSTB) a publié un nouveau site web pour diffuser la Base de Données Nationale des Bâtiments (BDNB): https://bdnb.io/. Il y a notamment un dictionnaire des données interactifs super bien fait: https://bdnb.io/schema/latest/.
## Haine en ligne, masculinisme, etc
Suite du podcast des *Couilles sur la table* avec Mathilde Saliou et Lucie Ronfaut sur les geeks, les trolls et compagnies. J'aime bien la réponse de Lucie Ronfaut à la fin. Plutôt que de mettre fin à l'anonymat sur internet, Lucie Ronfaut recommande justement de multiplier les identités et encourage à mieux se cacher sur internet.
* Ecouter en ligne: https://www.binge.audio/podcast/les-couilles-sur-la-table/geeks-trolls-cie-2-2
## Voir aussi
* [Weeknote de tk](https://11d.im/semaines/2023w16/)
* [Toutes mes weeknotes](https://hackmd.io/@pac?tags=%5B"weeknotes"%5D)