---
tags: weeknotes
---
# Weeknotes #5
> Au moins l'intelligence artificielle est fascinante et intéressante et terrifiante et passionnante alors que la crypto n'a jamais été une seule de ces choses.
Je repense souvent à cette citation lue dans Regle30, la newsletter de Lucie Ronfaut. https://mailchi.mp/numerama/on-compte-toujours-face-aux-machines?e=[UNIQID]
## Généalogie de ChatGPT
Dans la MIT Technology Review, Will Douglas Heaven fait remonter la généalogie de ChatGPT aux années 1990 avec le fameux modèle LSTM ([Lire l'article](https://www.technologyreview.com/2023/02/08/1068068/chatgpt-is-everywhere-heres-where-it-came-from/)). Pierre-Carl Langlais remonte lui aux années 1950 avec la naissance de la statistique sémantique et les travaux de Warren Weaver et décrit les différentes étapes avec la statistique sémantique latente, les LSTM et surtout la révolution des années 2010 avec Word2vec, GloVe, BERT et GPT ([ChatGPT : comment ça marche ?] (https://scoms.hypotheses.org/1059)). Cette approche historique permet de mieux comprendre le fonctionnement de ces modèles.
> Ce mécanisme d’attention change complètement les règles de l’interaction avec l’IA ainsi que sa géographie sémantique sous-jacente. Le modèle est naturellement conçu pour réagir à un texte pré-existant ou le compléter — ce que l’on appelle un prompt. Au lieu de créer un jeu de coordonnées sémantique (ou “embedding”) pour chaque mot, il y a maintenant des coordonnées pour chaque occurrence précise du mot. Par conséquent, il devient possible d’étudier précisément l’emploi de certaines formules syntaxiques, ce qui aurait été impossible avec word2vec
Alors que toute la critique d'Emily Bender repose sur le fait que l'on confonde un modèle de langage avec un modèle de connaissance ou modèle encyclopédique, Pierre-Carl Langlais assume le fait qu'il y a une dimension encyclopédique dans GPT-2, GPT-3 et ChatGPT. Il parle d'un « espace culturel latent ». Mais bien sûr l'épistémologie de GPT est probabiliste. Ne sont considérés comme vrais par GPT que les énoncés souvent répétés dans le corpus.
> L’épistémologie de GPT est probabiliste : plus un énoncé est présent dans le corpus d’entraînement et plus il a de chance d’être correctement restitué. C’est ainsi que chatGPT affirmera généralement que Napoléon a perdu à Waterloo tant cette information a pu être ressassée dans le corpus d’origine.
Évidemment, cette épistémologie est très problématique.
### ChatGPT, c'est juste un gros JPEG de tout le web
Dans le New Yorker, Ted Chiang compare les modèles de langage à des algorithmes de compression.
> Think of ChatGPT as a blurry JPEG of all the text on the Web. It retains much of the information on the Web, in the same way that a JPEG retains much of the information of a higher-resolution image, but, if you’re looking for an exact sequence of bits, you won’t find it; all you will ever get is an approximation. But, because the approximation is presented in the form of grammatical text, which ChatGPT excels at creating, it’s usually acceptable.
https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
### Dystopie ou effondrement des big tech
La sortie de Bing AI et de Google Bard me fait peur et je me dis qu'on est en train de basculer dans une dystopie où des IA oligopolistiques vont bullshiter des réponses plutôt que de donner accès à des documents intéressants. Mais si ça se trouve, les big tech sont juste en train de se ridiculiser en passant en prod des technologies qui sont tous sauf matures.
Un étudiant de Stanford a découvert un prompt qui permet d'accéder aux règles régissant le comportement de Bing AI (source; https://www.theverge.com/23599441/microsoft-bing-ai-sydney-secret-rules)
Simon Willison fait la liste des fails du lancement de Bing AI
Bing AI multiplie les erreurs dès la démo.
> A search engine that invents financial figures when answering queries to compare companies is pretty much a worst-case scenario for applying this technology.
Bing AI se lance dans un débat hilarant avec un utilisateur pour le persuader qu'on est en 2022 plutôt qu'en 2023.
👉 https://simonwillison.net/2023/Feb/15/bing
## Dataviz
Etienne Côme (@comeetie@mapstodon.space) a de nouveau mis à jour FrancePixels https://mapstodon.space/@comeetie/109868032366154480
## Musk
Cette semaine, Musk s'est encore énervé parce que ses tweets sont moins "imprimés" que ceux de Biden. Du coup, il a menacé de virer ses ingénieurs.
> By Monday afternoon, “the problem” had been “fixed.” Twitter deployed code to automatically “greenlight” all of Musk’s tweets, meaning his tweets will bypass Twitter’s filters designed to show people the best content possible. The algorithm now artificially boosted Musk’s tweets by a factor of 1,000 – a constant score that ensured his tweets rank higher than anyone else’s in the feed.
Source : https://www.platformer.news/p/yes-elon-musk-created-a-special-system. Lien découvert via Olivier Tesquet.
## Rstats et data geekeries
Je découvre que Polars est en train de développer une librarie pour le langage R : https://rpolars.github.io/index.html. Si ça va au bout c'est une bonne nouvelle. Polars est une librairie Rust et Python très efficace pour la manipulation de données.
Dans le même genre, la librairie Arrow est hyper intéressante. Je recommande le futur chapitre du livre R4DS : https://r4ds.hadley.nz/arrow.html
## Météo/climat
Il ne pleut quasiment pas cet hiver mais personne n'en parle. Heureusement que Nicolas Berrod garde l'oeil sur les données : https://mastodon.social/@NicolasBerrod@piaille.fr/109881801027783974