# CCMA
## PREGUNTES ESTADÍSTIQUES PER CCMA
Tenim 3 conjunts de dades: (1) usuaris logats, (2) aparells amb cookies i (3) clicks:
Amb el conjunt (1) i poter el (2) podem construir un recomanador col·laboratiu.
Amb el conjunt (2) i el (3) es pot fer un recomanador seqüencial.
Cal “explorar” les dades per prendre la decisió:
* Quines són les dimensions de la matriu col·laborativa (#usuaris, #items)?
* Quants updates diaris es faran a la matriu col·laborativa?
* Quin és el nombre # de valors no nuls a cada columna i fila de la matriu col·laborativa?
* Quina és la longitud de les seqüències dels usuaris no logats (cookies)?
Per fer els recomanadors, necessitem algunes dades (persistents i actualitazades) addicionals a la matriu col·laborativa:
* Histograma d’interaccions setmanals de cada programa (indexat per data, des de la seva programació en antena.
* Diccionari de relacions capítol-sèrie-temàtica.
* Histogrames de diversitat temàtica per cada usuari logat.
# CAUSALITAT
## PREGUNTES A RESOLDRE
* Com mitigar la popularitat?
* Es pot predir la popularitat?
* Com mitigar els biaixos no desitjats?
* Com asegurar la diversitat de recomanacions a nivell d’usuari?
## ( COMENTAT amb en JORDI MUR )
### Alt nivell
* Histograma d'interaccions per saber el temps de vida d'un progama.
* Saber quants programes de cada temàtica tenim
* Saber quantes interaccions per temàtica tenim (PER DIA)
* Sabter PER USUARI el seu histograma de interaccions
### Baix nivell
* Més informació d'items (sabem temàtica només)
* Producció propia
* Idioma original
* Actors
* Mostra que té en Jordi Mur, és representativa?
* Durada del consum de l'usuari? (% visionat)
* Durada del video
---
### Primer experiment
* Mirar que s'ha fet
* Agafar recomanador colaboratiu
* Mirar si biaixa
* Mirar com arreglar-ho
#### DADES A EXPLORAR ARA (jordi)
###### DIVERSITAT
* Saber quants programes de cada temàtica tenim
* Saber quantes interaccions per temàtica tenim
* Sabter PER USUARI el seu histograma de interaccions
###### POPULARITAT
* Saber cuantes vegades s'ha vist cada programa en el dataset (% popularitat en el dataset original)
#### EXPERIMENT 1
1. Entrenar RS colaboratiu
2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem
(Popularitat) Mirar en el rankin agregat dels programes quants cops he recomanat cada programa (medir % amb el % de popularitat de programa en A original)
3. Fer una intervenció per aumentar diversitat (forçant una distribució més justa)
#### EXPERIMENT 2
1. Entrenar RS colaboratiu amb informació contextual (device, dia, ...)
2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem
3. Biaixarà més o menys?
#### EXPERIMENT 3
1. Entrenar RS colaboratiu amb informació d'item
2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem
3. Biaixarà més?
#### EXPERIMENT 4
1. Filtrar programes d'entreteniment
2. (Diversitat) Comparar producció pròpia amb no pròpia