CCMA

PREGUNTES ESTADÍSTIQUES PER CCMA

Tenim 3 conjunts de dades: (1) usuaris logats, (2) aparells amb cookies i (3) clicks:

Amb el conjunt (1) i poter el (2) podem construir un recomanador col·laboratiu.
Amb el conjunt (2) i el (3) es pot fer un recomanador seqüencial.
Cal “explorar” les dades per prendre la decisió:

  • Quines són les dimensions de la matriu col·laborativa (#usuaris, #items)?
  • Quants updates diaris es faran a la matriu col·laborativa?
  • Quin és el nombre # de valors no nuls a cada columna i fila de la matriu col·laborativa?
  • Quina és la longitud de les seqüències dels usuaris no logats (cookies)?

Per fer els recomanadors, necessitem algunes dades (persistents i actualitazades) addicionals a la matriu col·laborativa:

  • Histograma d’interaccions setmanals de cada programa (indexat per data, des de la seva programació en antena.
  • Diccionari de relacions capítol-sèrie-temàtica.
  • Histogrames de diversitat temàtica per cada usuari logat.

CAUSALITAT

PREGUNTES A RESOLDRE

  • Com mitigar la popularitat?
  • Es pot predir la popularitat?
  • Com mitigar els biaixos no desitjats?
  • Com asegurar la diversitat de recomanacions a nivell d’usuari?

( COMENTAT amb en JORDI MUR )

Alt nivell

  • Histograma d'interaccions per saber el temps de vida d'un progama.

  • Saber quants programes de cada temàtica tenim

  • Saber quantes interaccions per temàtica tenim (PER DIA)

  • Sabter PER USUARI el seu histograma de interaccions

Baix nivell

  • Més informació d'items (sabem temàtica només)

    • Producció propia
    • Idioma original
    • Actors
    • Mostra que té en Jordi Mur, és representativa?
    • Durada del consum de l'usuari? (% visionat)
    • Durada del video

Primer experiment

  • Mirar que s'ha fet
  • Agafar recomanador colaboratiu
    • Mirar si biaixa
    • Mirar com arreglar-ho

DADES A EXPLORAR ARA (jordi)

DIVERSITAT
  • Saber quants programes de cada temàtica tenim
  • Saber quantes interaccions per temàtica tenim
  • Sabter PER USUARI el seu histograma de interaccions
POPULARITAT
  • Saber cuantes vegades s'ha vist cada programa en el dataset (% popularitat en el dataset original)

EXPERIMENT 1

​​​​1. Entrenar RS colaboratiu
​​​​2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem
​​​​(Popularitat) Mirar en el rankin agregat dels programes quants cops he recomanat cada programa (medir % amb el % de popularitat de programa en A original)
​​​​3. Fer una intervenció per aumentar diversitat (forçant una distribució més justa)

EXPERIMENT 2

​​​​1. Entrenar RS colaboratiu amb informació contextual (device, dia, ...)
​​​​2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem
​​​​3. Biaixarà més o menys?

EXPERIMENT 3

​​​​1. Entrenar RS colaboratiu amb informació d'item
​​​​2. (Diversitat) Comparar histograma de temàtiques que ha vist amb el % en el rankin que li donem
​​​​3. Biaixarà més?

EXPERIMENT 4

​​​​1. Filtrar programes d'entreteniment
​​​​2. (Diversitat) Comparar producció pròpia amb no pròpia