Transparence des algorithmes

# Transparence des algorithmes ## Exposé des motifs "Parce que vous avez aimé...", "Notre sélection pour vous...", etc. Les grandes plateformes Internet proposent toutes des recommandations personnalisées à leurs utilisateurs. Or ces recommandations, qui ont bien souvent des objectifs commerciaux (vente de produits, augmentation du temps passé, augmentation du nombre de publicités vues, etc) sont susceptibles d'avoir des effets indésirables. Ainsi des algorithmes de recommandations peuvent avoir tendance à favoriser involontairement : * des vidéos extrémistes, complotistes ou autres parce que les spectateurs de ces vidéos auront tendance à vouloir en voir d'autres et ainsi rester plus longtemps sur la plateforme * des _fake news_ parce celles-ci ont tendance à susciter de l'indignation et donc le [temps passé sur les réseaux sociaux](http://abonnes.lemonde.fr/big-browser/article/2017/10/20/du-danger-de-trop-s-indigner-en-ligne_5203946_4832693.html) * un enfermement dans des visions du monde conforme aux attentes de l'utilisateur mais de plus en plus éloigné des réalités. Ces algorithmes sont très difficiles à étudier : * Les algorithmes utilisés sont de plus en plus complexes. * Même quand les algorithmes sont simples, ils font appel à des données massives et fluctuantes (les votes ou les comportements des utilisateurs par exemple) * Aussi bien les algorithmes que les données relèvent bien souvent du secret commercial. Ce sont donc de véritables boites noires, y compris parfois pour leurs auteurs. Et les effets de ces boites noires sont à la fois extrèmement difficiles à mesurer, et sont souvent découverts avec retard. L'actualité récente montre que leurs biais commencent à devenir problématiques pour nos démocraties. Il est indispensable de pouvoir en mesurer les effets et de responsabiliser les acteurs d'Internet : l'argument de la neutralité des plateformes ne peut plus être invoquée quand l'utilisateur accède à des contenus problématiques suite à des recommandations provenant de ces mêmes plateformes. Pour s'attaquer à ce problème majeur, nous proposons une réponse simple, progressive et novatrice : Demander aux plateformes de recommandations de publier en temps réel, en ligne et en open data, les statistiques des recommandations, à savoir pour chaque contenu (physique ou virtuel) ou lien proposé depuis leur plateforme : * le nombre d'accès à ce contenu ou ce lien effectués à partir des différents algorithmes (recherche, recommandations, publicité, trending, etc) * le nombre total d'accès à ce contenu ou ce lien L'objectif est que sans charge de travail supplémentaire pour les entreprises (elles disposent déjà de ces données), sans connaître leurs secrets de fabrications, chercheurs, politiques, médias et citoyens puissent avoir les moyens d'en étudier les effets et proposer des correctifs au plus vite. La loi commencerait par s'appliquer aux grandes plateformes les plus utilisées en France, avant d'être évaluée, améliorée et généralisée de manière progressive aux acteurs de plus en plus petits. Cette loi pourra être ensuite déclinée à d'autres domaines, car de plus en plus le « code fait loi » et la société va vouloir en maîtriser les effets (citons par exemple APB, ). Ce sera une des premières briques de grandes lois sur les algorithmes tout comme il en existe déjà sur les données (RGPD) ou sur les réseaux. En ce positionnant très tôt sur ce sujet par cette loi simple à mettre en œuvre, la France pourrait mener le mouvement qui ne va pas manquer de se produire au niveau Européen et mondial. ## Proposition de loi ### Loi régissant la responsabilité éditoriale des plateformes Article 1. Les plateformes visées par cette loi, simplement désignées "plateforme" par la suite, sont les plateformes, au sens de l'article 111-7 du code de la consommation, visitées par plus de 10 millions d'utilisateurs uniques français par mois. Article 2. Sur toute plateforme, chaque vue présentant un contenu spécifique qu'elle héberge, notamment une vidéo, un texte ou un enregistrement audio, doit inclure l'affichage des statistiques définies à l'article 6. > [name=myriam:art 3 impératif] Article 3. Toute plateforme diffuse les statistiques définies à l'article 6 dans un format libre, ouvert et réutilisable dans les conditions définies par la loi. > [name=Guillaume : enlever cet article, se concentrer sur l'essentiel pour maximiser les chances que ça passe. ] Article 4. Chaque plateforme est responsable de tout contenu qu'elle diffuse dès lors que plus de 30% des accès à ce contenu sont passifs, au sens de l'article 5. > [name=Guillaume : et qu'il a été vu plus de 100 000 fois.] Article 5. L'accès d'un utilisateur à un contenu est réputé actif lorsqu'il a été proposé à l'utilisateur suite à sa démarche volontaire, que ce soit * par les résultats d'une recherche, * ou à travers le partage par une source volontairement suivie par ledit utilisateur. Dans tout autre cas, l'accès au contenu est réputé passif. C'est notamment lorsque le contenu est proposé par un algorithme de recommandation sans être partagé par une source suivie par l'utilisateur. > [name=Guillaume : enlever les articles 3 et 4 (ainsi que la mention à actif/passif dans l'article 6) pour se concentrer sur une règle simple qui a plus de chances de passer ] > [name=myriam: ne peut on pas trouver des termes plus appropriés que actif/passif] > [name=barthélémy: en réponse à Myriam: accès délibéré vs. suggéré?] > [name=Adrien: ((remplacer les articles 4 et 5 par une version plus drastique (et juridiquement plus solide car on définit proprement ce qu'est "responsable" dans l'article 4), où on rend les plateformes responsables éditorialement au même titre que la presse (on pourrait être moins drastique et ne le faire que pour les contenus souvent passifs, comme à l'article 4). Article 4 alternatif : "L'article 42 de la loi du 29 juillet 1881 sur la liberté de la presse est ainsi modifié : au 1° sont insérés les mots « , les plateformes, au sens de l’article 111-7 du code de la consommation, » avant les mots « les directeurs de publication »." ] Article 6. Les statistiques visées par les articles 2 et 3 doivent être à jour et sont, pour chaque contenu : * le nombre total de vues ; * la décomposition du nombre de vues par provenance dans la navigation des utilisateurs, notamment la recherche, les recommandations personnalisées, les contenus sponsorisés, les sources suivies ou les contenus les plus populaires ; * le nombre de vues issues d'un accès actif et le nombre de vues issues d'un accès passif, au sens de l'article 4 ; * dans le cas d'un contenu sponsorisé, c'est-à-dire un contenu mis en avant par la plateforme en échange d'une rétribution, le nombre indicatif d'utilisateurs atteints grâce aux campagnes de publicité, tel que communiqué aux donneurs d'ordre desdites campagnes ; * les coûts et les dénominations des donneurs d'ordre des campagnes sus-visées. > [name=Adrien : à la place de "donneurs d'ordre" : acheteurs? initiateurs?] Article 7. Tout manquement aux obligations de diffusion de statistiques définies aux articles 2 et 3 est passible pour la plateforme responsable d'une amende forfaitaire de 42€ par utilisateur unique français par mois. > [name=Adrien : ou bien "n'excédant pas 10% de son chiffre d'affaires français" ?] > [name=myriam:n'excedant pas 10% de son chiffre d'affaire par mois?éliminer français]