# Eva ## Motivation * **Person or organization developing the experiment**: CONABIO Ecoinformatics Team * **Abstract**: In the Ecoinformatics Coordination in CONABIO the [MODEL HERE] La distribución del conjunto de datos muestra que una gran mayoría de las fototrampas corresponde a aquellas que no contienen información relevante (fondo, árboles, etc.) para nuestro propósito. **El propósito de este reporte es el de mostrara la cantidad de información relevante en las fototrampas etiquetadas como vacías.** Por lo tanto, se reportarán métricas para las muestras que reportan presencia de las clases de interes (Animalia y Homo), de acuerdo a un umbral definido, > asumiendo que estas no deben ser reportados en imágenes que no contienen clases relavantes > [color=#351de5] * **Solución propuesta**: Actualmente la version del modelo `Megadetector [Link]` realiza la detección de las clases `Animal (Animalia)` y `Persona (Homo)` las cuales no son disjuntas. En contraste, aproximadamente un `80-90 %` de las muestras son etiquetadas como `vacías`. Propones tomar un conjunto de muestas que fueron etiquetadas como vacías y realizar la medición de las clases detectadas con respecto a un umbral definido. Se espera que al utilizar las muestras etiquetadas como vacías los `scores` de detección deben ser tanbién bajos para las clases de interés. [Multilabel tutorial](https://www.researchgate.net/publication/225379571_A_Tutorial_on_Multi-label_Classification_Techniques) [Tuto 2, para texto, pero es lo mismo](https://towardsdatascience.com/journey-to-the-center-of-multi-label-classification-384c40229bff) [Tuto 3](https://www.researchgate.net/profile/Mohammad_Sorower/publication/266888594_A_Literature_Survey_on_Algorithms_for_Multi-label_Learning/links/58d1864392851cf4f8f4b72a/A-Literature-Survey-on-Algorithms-for-Multi-label-Learning.pdf) ## Dataset info ### Dataset distribution A total of 31,753 images with “Animal” or “Person” box labels. | **Animal** | **Person** | **Empty** | | ------- | ----- | -------- | | 27,922 | 4,289 | 30,439 | > Aquí creo que esto no está correcto o está mal planteado. Si vamos a probar con una partición de empty y como en todos los ejemplos que pones usas el ratio 80:10:10 T:T:V > [color=#351de5] **Dataset partitions** > Si: Test -> 30000 Entonces: Test -> 30000 Train -> 2400000 Aprox > [color=#351de5] > Supongo el modelo lo hiciste con un montón de samples pero solo estás metiendo la de evaluación > [color=#351de5] ### Dataset partitions > Assuming > [color=#351de5] | **Train** | **Validation** | **Test** | | ------- | ----- | -------- | | 2400000 | 30000 | 30000 | | Among 3 classes | Among 3 classes | EMPTY | | Here dist | Here dist | | ## Evaluation data Se utilizará un umbral de evaluación de **0.2**, además, se calculará la métrica de hamming loss y log loss para el conjunto resultante. Antes de ello se realizará el siguiente procedimiento: ### Manipulación de datos de evaluación. Una muestra resultante del modelo contiene un número de detecciones correspondientes a cada clase, como se muestra: ![Samples](https://i.imgur.com/bR4DbRh.png) Por lo tanto es posible utilizar la muestra con un `score` máximo para cada una de las clases. ![](https://i.imgur.com/QLLCAtG.png) * **Model performance measures**: Se calcularán el siguiente conjunto de métricas para las clases de interés: ``` multiclass: { 'per_class': { 'label_1': { 'precision': float, 'recall': float, 'f1': float }, 'label_2': { ... }, ... }, 'one_class': { 'confusion_matrix': array [n_classes, n_classes], 'ham-loss': array [n_classes, n_classes], `log-loss`: array [n_classes, n_classes], } } ``` > [name=Ramón Rivera] > Todavía estammos viendo que loss conviene más, si ham-loss o log-loss. > [color=#351de5] Las cuales se medirán por clase para el conjunto etiquetado como `empty`. * **Umbral de decisión**: Utilizando el umbral de 0.2, las muestras se simplificarán como se muestra. Para el ejemplo: ![](https://i.imgur.com/QLLCAtG.png) Donde el fomato de la muestra es: |**id **| **animalia score**| **homo score**| |------- | ----- | -------- | La muestra a calcular será: |**id** |**animalia** |**homo** | |------- |----- |-------- | |item_id | 1 | 0 | Se espera que una gran cantidad de las muestras reporten un umbral bajo de detección. * **Approaches to uncertainty and variability**: Does not apply ## Results ### Plots