--- title: Recomanador CCMA QA tags: PICAE slideOptions: theme: white transition: 'fade' --- # Recomanador CCMA: Q&A ## Les dades :::success :question: Quins recomandors fem i amb quines dades ::: Tenim 3 conjunts de dades: (1) usuaris logats, (2) aparells amb *cookies* i (3) *clicks*: + Amb el conjunt (1) i **potser** el (2) podem construir un recomanador col·laboratiu. + Amb el conjunt (2) i **potser** el (3) es pot fer un recomanador seqüencial. Cal "explorar" les dades per prendre la decisió: + Quines són les dimensions de la matriu col·laborativa (\#usuaris, \#items),(\#cookies, \#items)? + Quin és el nombre \# de valors no nuls a cada columna i fila de la matriu col·laborativa? + Quants *updates* diaris es faran a la matriu col·laborativa? + Quina és la longitud de les seqüències dels usuaris no logats (*cookies*)? Per fer els recomanadors, necessitem algunes dades (persistents, que es vagin actualitzant) addicionals a la matriu col·laborativa: + Histograma d'interaccions setmanals (logats, cookies, clicks) de cada programa (indexat per data), des de la seva programació en antena. + Diccionari de relacions capítol-sèrie-temàtica. Hi ha un problema de qualitat de les dades? + Histogrames de diversitat temàtica per cada usuari logat. :::success :question: Com aplicar les regles de negoci ::: + Com es comuniquen (altes/baixes/modificacions) des de CCMA les regles de negoci? :::success :question: Com i quant actualitzar el recomanador ::: + Quins processos dispara l'*update* diari? + Altes usuaris/*cookies* a la matriu col·laborativa. + Actualització de seqüències. + Actualització d'altra informació persistent. + Cal algun *update* no diari (p.e.setmanal)? + S'han d'oblidar interaccions del passat llunyà (matriu i seqüències)? Sobre quin marc temporal? ## Arquitectura del recomanador :::success :question: Quines *baselines* implementem? ::: + Factorització de matrius: col·laboratiu pur. + Màquines de factorització: col·laboratiu + context + perfil usuari + temàtica programa + etc. + Quins contexts usem? + Quins perfilats d'usuari usem? + Con determinem "temàtica" <img width="350" src="https://i.imgur.com/J1ajXUK.png"> + Recomanador seqüencial (amb dades de contexte i seqüències) + Com resolem el problema del *cold-start*? :::success :question: Com millorem el recomanador? ::: + Integració informació contingut. <img width="450" src="https://i.imgur.com/JiT0PCc.png"> + Integració grafs semàntics + Explicabilitat (transparència) i tractament de biaixos (diversitat, popularitat). + https://github.com/TeMU-BSC/spacy :::success :question: El rol i calendari de la informació de l'Ara ::: + Qui hi treballarà? Amb quin objectiu? :::success :question: Relacions amb el recomanador publicitari ::: :::success :question: Mètriques d'avaluació ::: + Offline: *Bayesian Personalized Ranking* (BPR). + *Deployment* i funcionament *online*: + Com mesurem de l'èxit de la recomanació més enllà de la predicció? (Cal recollir ítems mostrats i mesurar interaccions causades) + Monitorització del recomanador durant el seu funcionament: mesura de biaixos, mesura de diversitat, detecció de comportaments anòmals, etc. <sup>https://www.slideshare.net/Ehsan38/recsysops-best-practices-for-operating-a-largescale-recommender-system</sup> ## Ètica :::success :question: Transparència ::: + Definició del recomanador (*text curt sobre valors*). AI literacy? + Control de l'usuari sobre el procés que s'aplica? ("*No vull recomanacions d'esports*") + Explicabilitat ("*Per què m'has recomanat aquest ítem?"*) + Documentació del recomanador: DataSheets (https://knowyourdata.withgoogle.com/) :::success :question: Biaix de popularitat i diversitat ::: + Com mitigar l'efecte de la popularitat? + Es pot predir la popularitat? + Com mitigar la falta de diversitat? <sup>https://www.bbc.co.uk/rd/publications/responsible-ai-at-the-bbc-our-machine-learning-engine-principles</sup> ## Disseminació + Interna (CCMA, Comunitat) + Externa (?) ## Iniciatives a tenir en compte + **Data Debt**: “Data Debt” is a term taken from the Agile Development world and the concept of “technology debt.” From a financial perspective Data Debt can be defined as the amount of money required to fix data problems. ![](https://i.imgur.com/maigETB.jpg) https://www.ebu.ch/home (European Broadcasting Union) https://peach.ebu.io/ Personalisation and Recommendation Ecosystem developed by Broadcasters for Broadcasters https://www.bbc.co.uk/rd/publications/responsible-ai-at-the-bbc-our-machine-learning-engine-principles ![](https://i.imgur.com/WX3W1c0.jpg) ![](https://i.imgur.com/yrm5bEy.jpg) ![](https://i.imgur.com/oMm2lYO.png) ![](https://i.imgur.com/VMueZIm.png) + Understanding AI ethics and safety Values -> Actionable Principles -> •fairness •accountability •sustainability •transparency -> Build a process-based governance framework. https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/983885/A_guide_to_using_AI_in_the_public_sector__Mobile_version__V2.pdf