Definiciones y especificaciones de modelos de Detección

# Definiciones y especificaciones de modelos de Detección ###### tags: `Definitions and References` ## Modelos de detección de objetos Son modelos capaces de encontrar **objetos** dentro de una imagen, asociando a cada uno de ellos: - Una categoría. - La localización por medio de un recuadro delimitador (bounding box). - Un nivel de confianza de la detección (**score**) (0, 1]. ![](https://i.imgur.com/TufEGpJ.png) *Un detector dice: Hay animales en estas regiones de la imagen* Esta clase de modelos mejoran respecto a los de clasificación en los siguientes aspectos: - Pueden detectar varios individuos de distintas categorías en la misma foto, identificando además la localización de cada uno dentro de la imagen. - Como el entrenamiento y la inferencia se realiza sobre regiones más pequeñas de la imagen, en general es más fácil identificar cierta clase de animales y tienen mejor rendimiento para los casos complicados de los modelos de clasificación. Estos modelos generan un conjunto de detecciones por cada imagen, cuyo número puede variar entre 100 y 300 (dependiedo de la configuración), muchas de ellas con *score* muy bajo, como se muestra a continuación: ![](https://i.imgur.com/POPFcle.png) Como no resulta práctico tomar en cuenta todas las detecciones para generar predicciones que puedan ser verdaderas, se suelen seleccionar sólo las más confiables, que son aquéllas cuyo score superen un cierto umbral, obteniendo únicamente los objetos de interés: ![](https://i.imgur.com/aQzmQN1.png) ![](https://i.imgur.com/XVDVsGM.png) Sin embargo, la elección de dicho valor de umbral no siempre resulta una tarea sencilla, ya que si se selecciona demasiado bajo, el resultado serán demasiadas detecciones falsas, y si se selecciona demasiado alto, el modelo no será capaz de encontrar todos los objetos de interés presentes en la imagen. Un buen modelo de detección encontrará la **mayoría** de los *objetos de interés* sin generar **demasiadas** *detecciones falsas*. Los términos "*mayoría*" y "*demasiadas*" están determinados por el problema que se desea resolver y se pueden analizar usando las [curvas de Precisión x Recall](https://hackmd.io/8uUYAHjqQMmxl9T1d8Jshg?view#Curvas-de-Precisi%C3%B3n-x-Recall) que se describen más adelante. A continuación se muestra un ejemplo de la detección realizada sobre una foto que contiene cuatro individuos de dos clases distintas: ![](https://i.imgur.com/wQMdb31.jpg) De entre los distintos tipos de modelos de detección de objetos existentes, [algunos análisis](https://arxiv.org/pdf/1803.10842.pdf) han estimado que los de la familia [Faster R-CNN](https://arxiv.org/abs/1506.01497) tienen un mejor rendimiento para imágenes de cámaras trampa. ## Esquemas de detección de movimiento Es posible aplicar técnicas de detección de movimiento sobre colecciones de fotos para las que se tenga información temporal y espacial que permita asociar una serie de imágenes a una **secuencia**. En este esquema se realiza un proceso doble: - Primero se separan las fotos en que el detector de movimiento predice que hay algo que se mueve en la escena. - Después, las imágenes que se obtuvieron en el paso anterior, se pasan por el modelo de detección de objetos y las fotos para las que se encontraron detecciones con un score superior a un cierto valor son entonces clasificadas como no vacías. Se espera que este proceso reduzca aún más el tiempo empleado en el proceso de etiquetado por parte de un equipo de personas, ya que se evita en cierta medida que se genere una gran cantidad de detecciones falsas, que por lo general son similares para fotos que pertenecen a una secuencia, y por lo tanto son prácticamente idénticas. Estas técnicas se pueden utilizar igualmente en videos, obteniendo un conjunto de *frames* y tratándolos como imágenes en secuencia. # Métricas de evaluación El proceso de evaluación de un modelo es importante porque ayuda a *estimar* el rendimiento que tendrá sobre un conjunto de fotos *similar* al que estamos evaluando. Esta similitud para el caso de las fototrampas puede estar determinada por factores como: el tipo de especies que contienen las fotos, vegetación, clima, estacionalidad, etc., por esto es común en algunos experimentos tomar en consideración los sitios y la temporada del año en que fueron tomadas las fotos, ya que estos elementos suelen introducir un sesgo en la evaluación. Algunos conceptos básicos para las métricas: * **Verdadero Positivo (TP)**: Una detección correcta. Detección con IOU ≥ _threshold_ * **Falso Positivo (FP)**: Una detección equivocada. Detección con IOU < _threshold_ * **Falso Negativo (FN)**: Un recuadro verdadero no detectado * **Verdadero Negativo (TN)**: No aplica. Representaría la situación en que los recuadros *vacíos* son correctamente detectado como "no-objetos". En la tarea de detección de objetos hay muchos recuadros posibles que no deberían detectarse dentro de una imagen. Por lo tanto, TN serían todos los recuadros posibles que no se detectaron correctamente (tantos recuadros posibles dentro de una imagen). Es por eso que no es utilizado por las métricas. _threshold_: (umbral) dependiendo de la métrica, generalmente se establece en 50%, 75% o 95%. A continuación se muestran ejemplos de cada uno de estos casos: ![](https://i.imgur.com/7z6t5QG.png) ## Intersection Over Union (IOU) Un criterio que ayuda a determinar cuáles de las detecciones del modelo son verdaderas (TF) o falsas (FP) es la *intersección sobre la unión* (Intersection Over Union) que es una medida del nivel de solapamiento que hay entre una detección y los objetos verdaderos, y viene dado por la proporción entre el área de solapamiento y el área de unión entre el recuadro de la detección y del objeto verdadero: ![](https://i.imgur.com/bSMDCyX.png) Se suele considerar que la localización de una detección es correcta si **IOU ≥ 0.5**. A continuación se definien las métricas usadas para evaluar los modelos de detección de objetos. ## Precisión La precisión es la capacidad de un modelo para identificar **únicamente** los objetos verdaderos. Es la proporción de detecciones correctas respecto al total de detecciones, y viene dado por: ![](https://i.imgur.com/S27MWBD.gif) La precisión varía entre 0 y 1, una alta precisión implica que la mayoría de los objetos detectados coinciden con objetos verdaderos. P.e., con una precisión de 0.8, cuando se detecta un objeto, el 80% del tiempo el detector acierta. ## Recuperación (Recall) La recuperación es la capacidad de un modelo para recuperar **todos** los objetos verdaderos. Es la proporción de objetos verdaderos encontrados respecto al total de objetos verdaderos, y viene dado por: ![](https://i.imgur.com/yunPtOr.gif) Del mismo modo, la recuperación varía entre 0 y 1, donde un valor de recuperación alto significa que se encontraron la mayoría de los objetos verdaderos. Por ejemplo, con una recuperación de 0.6, el modelo recupera el 60% del total de objetos verdaderos. A continuación se ilustra lo que significa cada uno de estos conceptos dentro de una imagen: ![](https://i.imgur.com/mapxa0b.png) Un modelo ideal recuperará todos los objetos verdaderos (recall=1) sin generar detecciones falsas (precisión=1). Sin embargo, en la realidad existe una relación *inversa* entre estas dos medidas: **mientras más objetos verdaderos sea capaz de recuperar un modelo, más detecciones falsas genera**. Dependiendo del problema se puede dar más importancia a una u otra medida. ### Interpretaciones - Recall alto pero baja precisión implican que se han detectado todos los objetos verdaderos, pero la mayoría de las detecciones son incorrectas (muchos falsos positivos). - Bajo recall pero alta precisión implica que todos los objetos predichos son correctas, pero se han perdido la mayoría de los objetos verdaderos (muchos falsos negativos). - Alta precisión y alto recall, el detector ideal tiene la mayoría de los objetos verdaderos detectados correctamente. Tenga en cuenta que podemos evaluar el rendimiento del modelo en su conjunto, así como evaluar su rendimiento por cada categoría, calculando métricas de evaluación específicas de la clase. ### Cómo funcionan las predicciones - Cuando varios recuadros detectan el mismo objeto, el recuadro con el IoU más alto se considera TP, mientras que los recuadros restantes se consideran FP. - Si el objeto está presente y el recuadro predicho tiene un umbral IoU < _threshold_ con el recuadro verdadero, la predicción se considera FP. Más importante aún, debido a que ningún recuadro lo detectó correctamente, el objeto de la clase recibe FN. - Si el objeto no está en la imagen, pero el modelo detecta alguno, la predicción se considera FP. - El recall y la precisión se calculan para cada clase aplicando las fórmulas mencionadas anteriormente, donde se acumulan las predicciones de TP, FP y FN. Para ilustrar cómo se calculan el recall y la precisión, veamos un ejemplo de un modelo de detección de objetos. A continuación se muestran imágenes de objetos donde los de la izquierda representan los recuadros reales, y los de la derecha representan los recuadros predichos. Establecemos el umbral de IoU en 0.5. Tenga en cuenta que las predicciones se calculan individualmente para cada clase. ![](https://i.imgur.com/cERq03p.jpg) Calculemos el recall y la precisión para la categoría "Persona": ![](https://i.imgur.com/6vPJ6oz.png) ## Curvas de Precisión x Recall Es una forma de medir la relación entre la precisión y la recuperación de un modelo. La idea detrás de esta técnica es la de estimar el *impacto* que tendrá tomar únicamente las detecciones con un *score* mayor a un cierto valor de **umbral**, tanto en la precisión como en la recuperación, para así decidir cuáles son las detecciones que se deben considerar para el problema en cuestión. P.e., si en un problema es muy importante que la mayoría de detecciones sean correctas porque una detección incorrecta tiene un impacto negativo muy grande, se deberá considerar un umbral de score cuya precisión esté por encima del requerido y que al mismo tiempo tenga un nivel de recuperación lo más alto posible. Si por el contrario, la pérdida de los objetos verdaderos tiene un impacto negativo mayor, se debe considerar el umbral del score para el que el nivel de recuperación esté por encima del requerido y cuya precisión sea lo más alta posible. ### Procedimiento para calcular la curva de Precisión x Recall El procedimiento para obtener la curva es el siguiente: - Se toman en cuenta las detecciones de cada categoría por separado. - Para un cierto umbral de score, tomar únicamente las detecciones que superen este valor y descartar el resto. - Con las detecciones tomadas en el punto anterior, contar el total de correctas (TP) e incorrectas (FP), así como los objetos verdaderos que no fueron encontrados por el modelo (FN). - Con estos valores de TP, FP y FN calcular la precisión y la recuperación usando las fórmulas anteriores y graficarlos tomando como eje *x* la recuperación y como eje *y* la precisión. - Tomar otro umbral de score y repetir el procedimiento. En el procedimiento anterior se suele comenzar con el valor de score más alto (1) y éste se va disminuyendo paulatinamente hasta llegar al mínimo (0). En los valores más altos del score, debido a que estamos siendo muy rigurosos con las detecciones que se toman en cuenta, generalmente se tiene que las detecciones son más precisas, ya que fueron aquéllas en las que el modelo estuvo más seguro en su predicción, pero al mismo tiempo, se recuperan menos objetos verdaderos del conjunto. Esta región se encuentra generalmente en la zona superior izquierda de la gráfica. En los valores más bajos del score se tienen muchas más detecciones falsas, penalizando con ello a la precisión, ya que se están considerando también aquéllas en las que el modelo estuvo menos seguro en la predicción; sin embargo, habrá más objetos verdaderos encontrados, ya que la probabilidad de encontrarlos aumenta conforme se consideran más detecciones en el análisis, y esto hará que la recuperación incremente y pueda llegar al valor máximo de 1. Esta región se encuentra generalmente en la zona inferior derecha de la gráfica. En la siguiente gráfica se muestra un ejemplo de los valores de precisión y recuperación (recall) calculados para todos los niveles de umbral de score, mostrando el cambio de éste valor variando el color de la curva (aunque esto no se hace habitualmente), lo que nos muestra cómo se comporta la curva conforme el valor del umbral decrece. ![](https://i.imgur.com/OZtlXdB.png) Mientras los valores de precisión pueden aumentar, disminuir o mantenerse constantes, los de la recuperación únicamente pueden aumentar o mantenerse constantes, ya que la recuperación no puede desminuir conforme se consideran más detecciones en el análisis. Al graficar los valores de recuperación contra precisión resultantes observamos el comportamiento del modelo para todos los posibles valores de umbral, y así se puede determinar el valor más adecuado para el problema que intentamos resolver. Una medida que nos da una idea del comportamiento del modelo para todos los niveles de umbral que se consideraron es la precisión promedio (Average Precision), y si se están evaluando varias categorías, se toma la media de la precisión promedio de todas las categorías, obteniendo una medida **global** del modelo que se denota como mAP (mean Average Precision). [Ejemplos de curvas de Precisión x Recall](https://hackmd.io/@api-conabio-ml/ryynUDEBI) ### Cálculo de las curvas de Precisión x Recall sin considerar la localización Se define un esquema capaz de evaluar un modelo de detección de objetos sin considerar la localización (bounding box) de las detecciones, y que es compatible con datasets etiquetados a nivel de objeto y a nivel de toda la imagen. A continuación se definen los conceptos utilizados en esta metodología: Para las *categorías de interés* (`cat`), definimos: - `TP[cat]`: El modelo generó al menos una detección de la categoría `cat` en la imagen, y en efecto hay alguna etiqueta de la categoría `cat` para la imagen. - `FP[cat]`: El modelo generó al menos una detección de la categoría `cat` en la imagen, y no hay ninguna etiqueta de la categoría `cat` para la imagen. - `FN[cat]`: El modelo no generó ninguna detección de la categoría `cat` y en la imagen, hay alguna anotación de la categoría `cat`. Si se desea considerar la categoría vacía (`empty`), definimos: - `TP[empty]`: **El modelo no generó detecciones** y en la imagen no hay ninguna anotación de alguna *categoría de interés*. - `FP[empty]`: **El modelo no generó detecciones** y en la imagen hay anotaciones de alguna *categoría de interés*. - `FN[empty]`: El modelo generó detecciones y en la imagen no hay ninguna anotación de alguna *categoría de interés*. #### Problemas de etiquetado en la colección del SNMB Las siguientes fotos son considerados detecciones incorrectas debido a que IOU < 0.5 ![](https://i.imgur.com/xv0rUrw.jpg) ![](https://i.imgur.com/galtaBN.jpg) La evaluación hecha sobre las imágenes etiquetadas del SNMB al usar el Megadetector dan resultados muy bajos, esto debido a que una gran cantidad de detecciones *acertadas* son consideradas incorrectas debido a este problema. Para tratar de resolver este problema se realizó la evaluación sobre las fotos de esta colección pero sin tomar en cuenta la localización de las detecciones, simplemente considerando si el modelo encontró algún individuo de cada categoría en cada imagen. ### Problemas al emular un esquema de clasificación usando un modelo de detección El modelo, *por naturaleza*, dará una serie de detecciones de las clases del conjunto por cada imagen (cuyo número se puede limitar en el entrenamiento y al momento de aplicar la inferencia). Si el criterio para considerar como correctamente clasificada una imagen es que haya al menos una detección de alguna de las clases etiquetadas en ella, sin tomar en cuenta la localización, ocurren los siguientes problemas: - En las fotos donde haya al menos una etiqueta real, *casi siempre* se tomará como una *clasificación* correcta y se sumará un **TP** para todas las clases etiquetadas en la imagen. Esto hará que no podamos tener una idea de la capacidad real del modelo para encontrar fotos con fauna y sólo podamos estimar la capacidad que tiene para distinguir entre las distintas clases. - En las fotos etiquetadas como vacías, siempre se tomará como una *clasificación* incorrecta y se sumará un **FP** para todas las clases detectadas en la imagen. Esto hará que no podamos tener una idea de la capacidad real del modelo para rechazar fotos vacías. En caso de utilizar un umbral para poder discernir entre las imágenes con "detecciones" consideradas Sin fauna (que no tenga ninguna detección con score superior a este valor) podemos hacer un análisis de esta categoría a través de una matriz de confusión, donde la clase positiva es Sin fauna. | | Actual Empty | Actual not Empty | | ------------------- | ------------ |:---------------- | | Predicted Empty | Count | Count | | Predicted not Empty | Count | Count | ### Esquema de clasificación multilabel utilizando un umbral Para realizar la conversión desde un esquema típico de detección de objetos, en el que la inferencia sobre una imagen genera una serie de detecciones (cada una de ellas con una etiqueta, un score y un bounding box asociados), a un esquema de clasificación multi-etiqueta/multi-clase y solventar el problema de que los modelos de detección no suelen generar etiquetas "vacías", se decidió utilizar un umbral que discrimine las etiquetas "falsas" y solo tomar en cuenta aquellas que superen dicho valor, asignando la etiqueta "empty" a una imagen que no tenga ninguna detección con score mayor a este umbral. De esta manera será posible para cada imagen generar un vector de clasificación a partir de las detecciones generadas y el umbral especificado, teniendo vectores con la siguiente estructura: ``` [Label_1, Label_2, Label_n] ``` Con una sola ocurrencia de cada una de las categorías encontradas, y en caso de ser una lista vacía, se asumirá la categoría `Empty`. Por ejemplo, para una foto que contenga solamente animales, su vector de salida de la clasificación sería: ``` [Animal] ``` Para una foto que contenga tanto animales como personas, su vector de salida de la clasificación sería ``` [Animal, Persona] ``` Y para una foto que no contenga ni animales ni personas (foto "vacía"), su vector de salida de la clasificación sería: ``` [] ```