# CCMA ## PREGUNTES ESTADÍSTIQUES PER CCMA Tenim 3 conjunts de dades: (1) usuaris logats, (2) aparells amb cookies i (3) clicks: Amb el conjunt (1) i poter el (2) podem construir un recomanador col·laboratiu. Amb el conjunt (2) i el (3) es pot fer un recomanador seqüencial. Cal “explorar” les dades per prendre la decisió: * Quines són les dimensions de la matriu col·laborativa (#usuaris, #items)? * Quants updates diaris es faran a la matriu col·laborativa? * Quin és el nombre # de valors no nuls a cada columna i fila de la matriu col·laborativa? * Quina és la longitud de les seqüències dels usuaris no logats (cookies)? Per fer els recomanadors, necessitem algunes dades (persistents i actualitazades) addicionals a la matriu col·laborativa: * Histograma d’interaccions setmanals de cada programa (indexat per data, des de la seva programació en antena. * Diccionari de relacions capítol-sèrie-temàtica. * Histogrames de diversitat temàtica per cada usuari logat. # CAUSALITAT ## PREGUNTES A RESOLDRE * Com mitigar la popularitat? * Es pot predir la popularitat? * Com mitigar els biaixos no desitjats? * Com asegurar la diversitat de recomanacions a nivell d’usuari? ## ( COMENTAT amb en JORDI MUR ) ### Alt nivell * Histograma d'interaccions per saber el temps de vida d'un progama. * Saber quants programes de cada temàtica tenim * Saber quantes interaccions per temàtica tenim (PER DIA) * Sabter PER USUARI el seu histograma de interaccions ### Baix nivell * Més informació d'items (sabem temàtica només) * Producció propia * Idioma original * Actors * Mostra que té en Jordi Mur, és representativa? * Durada del consum de l'usuari? (% visionat) * Durada del video --- ### Primer experiment * Mirar que s'ha fet * Agafar recomanador colaboratiu * Mirar si biaixa * Mirar com arreglar-ho #### DADES A EXPLORAR ARA (jordi) ###### DIVERSITAT * Saber quants programes de cada temàtica tenim * Saber quantes interaccions per temàtica tenim * Sabter PER USUARI el seu histograma de interaccions ###### POPULARITAT * Saber cuantes vegades s'ha vist cada programa en el dataset (% popularitat en el dataset original) #### EXPERIMENT 1 1. Entrenar RS colaboratiu 2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem (Popularitat) Mirar en el rankin agregat dels programes quants cops he recomanat cada programa (medir % amb el % de popularitat de programa en A original) 3. Fer una intervenció per aumentar diversitat (forçant una distribució més justa) #### EXPERIMENT 2 1. Entrenar RS colaboratiu amb informació contextual (device, dia, ...) 2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem 3. Biaixarà més o menys? #### EXPERIMENT 3 1. Entrenar RS colaboratiu amb informació d'item 2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem 3. Biaixarà més? #### EXPERIMENT 4 1. Filtrar programes d'entreteniment 2. (Diversitat) Comparar producció pròpia amb no pròpia