---
title: Recomanador CCMA QA
tags: PICAE
slideOptions:
theme: white
transition: 'fade'
---
# Recomanador CCMA: Q&A
## Les dades
:::success
:question: Quins recomandors fem i amb quines dades
:::
Tenim 3 conjunts de dades: (1) usuaris logats, (2) aparells amb *cookies* i (3) *clicks*:
+ Amb el conjunt (1) i **potser** el (2) podem construir un recomanador col·laboratiu.
+ Amb el conjunt (2) i **potser** el (3) es pot fer un recomanador seqüencial.
Cal "explorar" les dades per prendre la decisió:
+ Quines són les dimensions de la matriu col·laborativa (\#usuaris, \#items),(\#cookies, \#items)?
+ Quin és el nombre \# de valors no nuls a cada columna i fila de la matriu col·laborativa?
+ Quants *updates* diaris es faran a la matriu col·laborativa?
+ Quina és la longitud de les seqüències dels usuaris no logats (*cookies*)?
Per fer els recomanadors, necessitem algunes dades (persistents, que es vagin actualitzant) addicionals a la matriu col·laborativa:
+ Histograma d'interaccions setmanals (logats, cookies, clicks) de cada programa (indexat per data), des de la seva programació en antena.
+ Diccionari de relacions capítol-sèrie-temàtica. Hi ha un problema de qualitat de les dades?
+ Histogrames de diversitat temàtica per cada usuari logat.
:::success
:question: Com aplicar les regles de negoci
:::
+ Com es comuniquen (altes/baixes/modificacions) des de CCMA les regles de negoci?
:::success
:question: Com i quant actualitzar el recomanador
:::
+ Quins processos dispara l'*update* diari?
+ Altes usuaris/*cookies* a la matriu col·laborativa.
+ Actualització de seqüències.
+ Actualització d'altra informació persistent.
+ Cal algun *update* no diari (p.e.setmanal)?
+ S'han d'oblidar interaccions del passat llunyà (matriu i seqüències)? Sobre quin marc temporal?
## Arquitectura del recomanador
:::success
:question: Quines *baselines* implementem?
:::
+ Factorització de matrius: col·laboratiu pur.
+ Màquines de factorització: col·laboratiu + context + perfil usuari + temàtica programa + etc.
+ Quins contexts usem?
+ Quins perfilats d'usuari usem?
+ Con determinem "temàtica"
<img width="350" src="https://i.imgur.com/J1ajXUK.png">
+ Recomanador seqüencial (amb dades de contexte i seqüències)
+ Com resolem el problema del *cold-start*?
:::success
:question: Com millorem el recomanador?
:::
+ Integració informació contingut.
<img width="450" src="https://i.imgur.com/JiT0PCc.png">
+ Integració grafs semàntics
+ Explicabilitat (transparència) i tractament de biaixos (diversitat, popularitat).
+ https://github.com/TeMU-BSC/spacy
:::success
:question: El rol i calendari de la informació de l'Ara
:::
+ Qui hi treballarà? Amb quin objectiu?
:::success
:question: Relacions amb el recomanador publicitari
:::
:::success
:question: Mètriques d'avaluació
:::
+ Offline: *Bayesian Personalized Ranking* (BPR).
+ *Deployment* i funcionament *online*:
+ Com mesurem de l'èxit de la recomanació més enllà de la predicció? (Cal recollir ítems mostrats i mesurar interaccions causades)
+ Monitorització del recomanador durant el seu funcionament: mesura de biaixos, mesura de diversitat, detecció de comportaments anòmals, etc.
<sup>https://www.slideshare.net/Ehsan38/recsysops-best-practices-for-operating-a-largescale-recommender-system</sup>
## Ètica
:::success
:question: Transparència
:::
+ Definició del recomanador (*text curt sobre valors*). AI literacy?
+ Control de l'usuari sobre el procés que s'aplica? ("*No vull recomanacions d'esports*")
+ Explicabilitat ("*Per què m'has recomanat aquest ítem?"*)
+ Documentació del recomanador: DataSheets (https://knowyourdata.withgoogle.com/)
:::success
:question: Biaix de popularitat i diversitat
:::
+ Com mitigar l'efecte de la popularitat?
+ Es pot predir la popularitat?
+ Com mitigar la falta de diversitat?
<sup>https://www.bbc.co.uk/rd/publications/responsible-ai-at-the-bbc-our-machine-learning-engine-principles</sup>
## Disseminació
+ Interna (CCMA, Comunitat)
+ Externa (?)
## Iniciatives a tenir en compte
+ **Data Debt**: “Data Debt” is a term taken from the Agile Development world and the concept of “technology debt.” From a financial perspective Data Debt can be defined as the amount of money required to fix data problems.

https://www.ebu.ch/home (European Broadcasting Union)
https://peach.ebu.io/ Personalisation and Recommendation Ecosystem developed by Broadcasters for Broadcasters
https://www.bbc.co.uk/rd/publications/responsible-ai-at-the-bbc-our-machine-learning-engine-principles




+ Understanding AI ethics and safety
Values -> Actionable Principles -> •fairness •accountability •sustainability •transparency -> Build a process-based governance framework.
https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/983885/A_guide_to_using_AI_in_the_public_sector__Mobile_version__V2.pdf