# LDA, QDA, Trees, Random Forest Asumiremos que los datos tienen distribucion gaussiana ![](https://i.imgur.com/4NX0Ly9.png) Gausiana para p dimensiones ![](https://i.imgur.com/AjOd2n1.png) ![](https://i.imgur.com/Qsu3bhb.png) # LDA: analisis de discriminatne lineal ![](https://i.imgur.com/g9heYmF.png) la linea de sep dara una recta siempre por ej ![](https://i.imgur.com/F56LPgG.png) Asume que la distribucion es la misma, sirve para ver si hay una separacion lineal entre las clases # Mahalanobis Asme que las amtrices de cov son diferentes, por loq ue se puede modelar curvatura El M-0 asume que las matrices son cosntantes -> linea recta # QDA asume que nada es constante ![](https://i.imgur.com/2uy3MYo.png) ![](https://i.imgur.com/SUptxke.png) --- ![](https://i.imgur.com/Lb90Slm.png) --- # Árboles de decision Se asumen dos nubes ![](https://i.imgur.com/0MmGiwX.png) Eligo un umbral en una direccion y dsps en otra para cada uno ![](https://i.imgur.com/uoq3VXc.png) ![](https://i.imgur.com/7cJ1Thc.png) ![](https://i.imgur.com/aVYnNfh.png) Y esto se puede seguir subdividiendo Se construye un arbol en base a lo que se va decidiendo en cuanto a los parametros ![](https://i.imgur.com/HKbVNHs.png) ![](https://i.imgur.com/HErgNax.png) La linea greis seria finalmente la linea de decision de clasificacion # Metricas usadas para el error 1. 1 - Accuracy (error de clasificacion) 2. Entropia (menos es mejor) (se suele usar para árboles) 3. Indici de Gini (se suele usar para árboles) ![](https://i.imgur.com/otmtmrV.png) # Random forest Es weno weno Elige aleatoriamente un subconjunto del training ![](https://i.imgur.com/Eu9xzx0.png) En el testing tomo una muestra y la clasifico con todas los arboles entrenados Al fnal veo la mayoria de votos ![](https://i.imgur.com/J4BwG2Q.png) La idea es hacer un muestreo para cada arbol y elegir aleatoriamente los datos al ser electos para luego poder clasificar con estos arboles entrenados a partir de los arboles entrenados