# Clase del 11 de octubre de 2022 ###### tags: `Curso IPE 2022` Cheatsheet: https://www.i3s.unice.fr/~malapert/R/pdf/base-r.pdf Referencia: **Probability and statistics with R.** Ugarte, Militino y Arnholt. ## Temas - Ejemplos de uso de `function`, `sapply`. - Ejemplos de `plot`, `abline`. - Probabilidad condicional. - Ejercicio de práctica. ## Problema del cumpleaños Supongamos que una clase tiene $m$ estudiantes. Cual es la probabilida de que al menos dos de ellos cumplan el mismo dia? Se asume, para simplificar, que siempre hay $n = 365$ días en un año. **Solución.** Sea $E$ el evento tal que dos o más estudiantes cumplen el mismo día. Por lo tanto, el complemento $E^C$ se refiere al evento $$ P(E) = 1 - P(E^C) $$ y $$ P(E^C) = \frac{365 * 364 * \ldots * (365 - m + 1)}{365^m} $$ entonces $$ P(E) = 1 - \frac{365 * 364 * \ldots * (365 - m + 1)}{365^m} $$ Ahora escribimos un codigo en R que calcula una tabla del numero de estudiantes y la probabilidad de que al menos dos cumplan el mismo dia. ```R m <- seq(10, 50, 5) P.E <- function(m){ c(Estudiantes = m, Prob = 1 - prod((365:(365 - m + 1)/365))) } t(sapply(m, P.E)) ``` ```R Estudiantes Prob [1,] 10 0.1169482 [2,] 15 0.2529013 [3,] 20 0.4114384 [4,] 25 0.5686997 [5,] 30 0.7063162 [6,] 35 0.8143832 [7,] 40 0.8912318 [8,] 45 0.9409759 [9,] 50 0.9703736 ``` A continuacion mostramos una forma grafica de observar el resultado del ejercicio. ```R m <- 1:60 # numero de estudiantes p <- numeric(60) # inicializo en 0 for (i in m){ q = prod((365:(365 - i + 1))/365) p[i] = 1 - q } plot(m, p, col = "skyblue3", pch=19, ylab="P(E)", xlab="m") abline(h=0.5, lty=2, col="red") # agregar linea horizontal abline(v = 23, lty=2, col="red") # agregar linea vertical ``` ![](https://i.imgur.com/AeKIZSJ.png) ## Probabilidad condicional Supongamos que tiro dos dados (numeros del 1 al 6) "no cargados", es decir, cada una de las 36 posibilidades es igualmente probable. Sabiendo que el primer dado es un 4, cual es la probabilidad de que la *suma* de los dados sea 8? **Solucion.** En este ejercicio, el espacio muestral es $$ \Omega = \{(i, j): i = 1, 2,\ldots, 6~~j = 1,2 , \ldots, 6 \} $$ donde cada $(i, j)$ tiene probabilidad 1/36 de ocurrir. Sean los eventos: - $H$: la suma de los dados es igual a 8 - $G$: en el primer dado salio 4 Me interesa calcular $P(H | G)$. Sabemos que: $$ P(H|G) = \dfrac{P(H \cap G)}{P(G)} = \frac{1/36}{1/6} = \frac{1}{6} $$ Ahora vamos a usar R para visualizar el resultado del ejercicio. ```R library(MASS) Omega <- expand.grid(dado1 = 1:6, dado2 = 1:6) > Omega <- expand.grid(dado1 = 1:6, dado2 = 1:6) > Omega dado1 dado2 1 1 1 2 2 1 3 3 1 4 4 1 ..... 33 3 6 34 4 6 35 5 6 36 6 6 ``` Cada fila de 1 a 36 es un posible resultado del experimento. Las columnas `dado1` y `dado2` representan el resultado de cada dado. El comando `subset` me permite seleccionar un subconjunto de la grid dada cierta condicion booleana. ```R > H <- subset(Omega, dado1 + dado2 == 8) > H dado1 dado2 12 6 2 17 5 3 22 4 4 27 3 5 32 2 6 ``` ```R > G <- subset(Omega, dado1 == 4) > G dado1 dado2 4 4 1 10 4 2 16 4 3 22 4 4 28 4 5 34 4 6 ``` ```R > PG <- nrow(G) / nrow(Omega) > PG [1] 0.1666667 > fractions(PG) [1] 1/6 ``` tambien se puede poner `PG <- dim(G)[1]/dim(Omega)[1]`. ```R > HaG <- subset(Omega, dado1 == 4 & dado2 == 4) > HaG dado1 dado2 22 4 4 ``` ```R > PHaG <- nrow(HaG) / nrow(Omega) > PHaG [1] 0.02777778 > fractions(PHaG) [1] 1/36 ``` ```R > PHgG <- PHaG / PG > PHgG [1] 0.1666667 > fractions(PHgG) [1] 1/6 ``` ## Ejercicio: Impresiones Una empresa cuenta con 10 impresoras. En un momento dado, los empleados en su conjunto envian 10 trabajos a imprimir. Se supone que cada trabajo puede utilizar cualquier impresora con la misma probabilidad (es decir, se pueden enviar varios trabajos a una misma impresora). a - Calcular la probabilidad de que las 10 impresoras se utilicen en simultáneo. b - Cuantas impresoras necesito para asegurarme que ninguna impresora recibira mas de un trabajo? Digamos por "asegurarme" se entiende un 90% de exito. c - Generar un grafico donde el eje horizontal es el numero de impresoras disponibles y el eje vertical es la probabilidad de que ninguna impresora reciba mas de un trabajo, de un total de 10 trabajos.