# Clase del 11 de octubre de 2022
###### tags: `Curso IPE 2022`
Cheatsheet: https://www.i3s.unice.fr/~malapert/R/pdf/base-r.pdf
Referencia: **Probability and statistics with R.** Ugarte, Militino y Arnholt.
## Temas
- Ejemplos de uso de `function`, `sapply`.
- Ejemplos de `plot`, `abline`.
- Probabilidad condicional.
- Ejercicio de práctica.
## Problema del cumpleaños
Supongamos que una clase tiene $m$ estudiantes. Cual es la probabilida de que al menos dos de ellos cumplan el mismo dia?
Se asume, para simplificar, que siempre hay $n = 365$ días en un año.
**Solución.** Sea $E$ el evento tal que dos o más estudiantes cumplen el mismo día. Por lo tanto, el complemento $E^C$ se refiere al evento
$$
P(E) = 1 - P(E^C)
$$
y
$$
P(E^C) = \frac{365 * 364 * \ldots * (365 - m + 1)}{365^m}
$$
entonces
$$
P(E) = 1 - \frac{365 * 364 * \ldots * (365 - m + 1)}{365^m}
$$
Ahora escribimos un codigo en R que calcula una tabla del numero de estudiantes y la probabilidad de que al menos dos cumplan el mismo dia.
```R
m <- seq(10, 50, 5)
P.E <- function(m){
c(Estudiantes = m, Prob = 1 - prod((365:(365 - m + 1)/365)))
}
t(sapply(m, P.E))
```
```R
Estudiantes Prob
[1,] 10 0.1169482
[2,] 15 0.2529013
[3,] 20 0.4114384
[4,] 25 0.5686997
[5,] 30 0.7063162
[6,] 35 0.8143832
[7,] 40 0.8912318
[8,] 45 0.9409759
[9,] 50 0.9703736
```
A continuacion mostramos una forma grafica de observar el resultado del ejercicio.
```R
m <- 1:60 # numero de estudiantes
p <- numeric(60) # inicializo en 0
for (i in m){
q = prod((365:(365 - i + 1))/365)
p[i] = 1 - q
}
plot(m, p, col = "skyblue3", pch=19, ylab="P(E)", xlab="m")
abline(h=0.5, lty=2, col="red") # agregar linea horizontal
abline(v = 23, lty=2, col="red") # agregar linea vertical
```

## Probabilidad condicional
Supongamos que tiro dos dados (numeros del 1 al 6) "no cargados", es decir, cada una de las 36 posibilidades es igualmente probable.
Sabiendo que el primer dado es un 4, cual es la probabilidad de que la *suma* de los dados sea 8?
**Solucion.** En este ejercicio, el espacio muestral es
$$
\Omega = \{(i, j): i = 1, 2,\ldots, 6~~j = 1,2 , \ldots, 6 \}
$$
donde cada $(i, j)$ tiene probabilidad 1/36 de ocurrir.
Sean los eventos:
- $H$: la suma de los dados es igual a 8
- $G$: en el primer dado salio 4
Me interesa calcular $P(H | G)$. Sabemos que:
$$
P(H|G) = \dfrac{P(H \cap G)}{P(G)} = \frac{1/36}{1/6} = \frac{1}{6}
$$
Ahora vamos a usar R para visualizar el resultado del ejercicio.
```R
library(MASS)
Omega <- expand.grid(dado1 = 1:6, dado2 = 1:6)
> Omega <- expand.grid(dado1 = 1:6, dado2 = 1:6)
> Omega
dado1 dado2
1 1 1
2 2 1
3 3 1
4 4 1
.....
33 3 6
34 4 6
35 5 6
36 6 6
```
Cada fila de 1 a 36 es un posible resultado del experimento. Las columnas `dado1` y `dado2` representan el resultado de cada dado.
El comando `subset` me permite seleccionar un subconjunto de la grid dada cierta condicion booleana.
```R
> H <- subset(Omega, dado1 + dado2 == 8)
> H
dado1 dado2
12 6 2
17 5 3
22 4 4
27 3 5
32 2 6
```
```R
> G <- subset(Omega, dado1 == 4)
> G
dado1 dado2
4 4 1
10 4 2
16 4 3
22 4 4
28 4 5
34 4 6
```
```R
> PG <- nrow(G) / nrow(Omega)
> PG
[1] 0.1666667
> fractions(PG)
[1] 1/6
```
tambien se puede poner `PG <- dim(G)[1]/dim(Omega)[1]`.
```R
> HaG <- subset(Omega, dado1 == 4 & dado2 == 4)
> HaG
dado1 dado2
22 4 4
```
```R
> PHaG <- nrow(HaG) / nrow(Omega)
> PHaG
[1] 0.02777778
> fractions(PHaG)
[1] 1/36
```
```R
> PHgG <- PHaG / PG
> PHgG
[1] 0.1666667
> fractions(PHgG)
[1] 1/6
```
## Ejercicio: Impresiones
Una empresa cuenta con 10 impresoras. En un momento dado, los empleados en su conjunto envian 10 trabajos a imprimir. Se supone que cada trabajo puede utilizar cualquier impresora con la misma probabilidad (es decir, se pueden enviar varios trabajos a una misma impresora).
a - Calcular la probabilidad de que las 10 impresoras se utilicen en simultáneo.
b - Cuantas impresoras necesito para asegurarme que ninguna impresora recibira mas de un trabajo? Digamos por "asegurarme" se entiende un 90% de exito.
c - Generar un grafico donde el eje horizontal es el numero de impresoras disponibles y el eje vertical es la probabilidad de que ninguna impresora reciba mas de un trabajo, de un total de 10 trabajos.