# PCA, ICA, PLSR (transformacion de caracteristicas)

# PCA (analisis de componentes principales)
Valores propios son los que hacen que la matriz - lambda por la identidad = 0

Vectores propios


Son ortonormales entre ellos
Se puede hacer matriz de vectores propios A



---
La idea es hacer una transformacion tal que la correlacion entre los datos sea cero

Primera componente de y sera la que tenga mayor varianza (Es la componente principal)
Tiene el mismo numero de col que X
Calculo los valores propios de la matriz de covarianza de X

Y es la transformacion KL de X

Covarianza de Y:

Lo que es equivalente a


Se puede construir una matriz Cy con los lambda

Se puedn eliminar los elementos que nos on de la diagonal por ser ortonormales

Se prderma tal; que lambda 1 > lambda 2 > ...
Cy entonces es una matriz de covarianza diagonaly que la varianza son los valores propios y que el primer y tiene una mayor varianza que el segundo y el segundo que el tercero, ...
EJ: X1 esta muy correlacionado con X5


Finalmente lo que hace la transformacion es lo siguiente: (se omiten las que tienen varianza chica)

Las caracteristicas son NUEVAS
1. Y es una nueva representacion de X (es una transformacion lineal de X)
2. Las columnas de Y no tienen correlacion entre ellas
3. Ordenado de mayo a menor (por importancia)


En el test no se aplica PCA, sino que se palica una transformacion

La misma transformacion que se hace en el train se hace en el test, pero no a traves de PCA
Ventajas del PCA:
1. Reduce dimensionalidad, por loque permite representar mas caracteristicas de forma sencilla
2. La clasificacion usando las primeras componentes es mas simple y mas rapida para el clasificador
3. Es posible reconstruir X a partir de las principales columnas de Y

Me quedo solo con t columnas de la imagen

Desventajas
1. Las caracteristicas de PCA dependen de todas las caracteristicas extraidas (no hay ahorro de computo)
2. PCA al no incluir la info de los labels, no asegura que las caracteristicas transformadas tengan buena separabilidad
## Estrategias



# ICA (independent component analysis)
Fue diseñado para correlaciones y dependencias de mayor orden
Esta diseñado para que las variables sean independientes

En ICA no se tiene orden particular de col
No usa labels
# PLSR (Partial least square regression)
Y es la matriz de labels aca, no la transformacion

Se trata de maximizar la covarianza entre T y U mediante el uso de labels mientras que son independientes