Desarrollo de un modelo de detección en tiempo real de residuos plásticos en el mar para dar soporte a un robot marino Jeff S. García García, Marks Calderón Niquin 15101350@ue.edu.pe, mcalderon@esan.edu.pe Resumen La gran cantidad de basura en el mar y su crecimiento debido a grandes volúmenes que entran en los océanos día a día han sido y son motivo de preocupación de la población pues tiene impactos significativos en el medio ambiente, en los animales, en la salud humana y hasta en la socioeconomía de las comunidades locales. Se han recopilado 487 imágenes de Internet de botellas, bolsas y tapones. Se aplicaron técnicas de aumento de datos (filtros, rotación y transformación del tamaño de la imagen) con el fin de aumentar su número. Usando el entorno de programación Python de Google Colab para configurar YOLOV3 y V4 (You Only Look Once), y los modelos pre-entrenados darknet53.conv.74 y yolov4.conv.137, se desarrolló una red que es capaz de detectar y cuantificar desechos marinos plásticos. En las métricas de evaluación de desempeño del modelo entrenado, se obtuvieron valores de precisión del 83% con niveles de sensibilidad del 81% en etapas de prueba y validación. Los resultados obtenidos muestran el potencial de utilizar el desarrollo del modelo de detección en tiempo real de residuos plásticos en el mar.
Introducción En la actualidad, estamos presenciando muchos avances importantes en el uso del Machine Learning y desde hace unos pocos años el Deep Learning, ambos términos se encuentran englobados en la Inteligencia Artificial, la cual fue ideada para hacer que las máquinas sean listas, incluso más que los humanos. La idea de automatizar tareas de detección, reconocimiento y clasificación de imágenes ha evolucionado tanto que ahora poseemos estructuras artificiales que nos ayudan a realizar ese objetivo. En el medio marino encontramos residuos plásticos de todas las formas, tamaños y tipos; en el presente trabajo se expone el método empleado para la elaboración de un modelo de detección en tiempo real de residuos plásticos ubicados en la categoría de macroplásticos en el mar, el objetivo principal es la propuesta de un modelo viable que pueda soporte un robot marino que recolectará la basura marina capturada, dicho proyecto viene siendo desarrollado por el profesor de la universidad Esan: Marks C. se emplearán técnicas de visión computacional para la creación del dataset y entrenamiento de diversos modelos, finalmente, analizando los resultados de las diferentes métricas se elegirá al mejor modelo que será implementado.
Marco teórico Machine Learning (ML) El término fue definido por primera vez por Arthur Samuel en 1959 de la siguiente manera: El aprendizaje automático es el campo de estudio que brinda a las computadoras la capacidad de aprender sin estar programadas explícitamente. El aprendizaje automático se puede clasificar en tres categorías en función de las características de los datos que se proporcionan y la metodología de entrenamiento: a) Aprendizaje supervisado: la máquina se entrena utilizando un conjunto de datos etiquetados, donde cada elemento se compone de pares de entrada / resultado dados. b) Aprendizaje no supervisado: la máquina se entrena con datos sin etiquetar y el objetivo es agrupar elementos en función de características similares. c) Aprendizaje por refuerzo: se centra en las acciones debe escoger la máquina en un entorno dado con el fin de maximizar alguna noción de "recompensa" o premio acumulado. Deep Learning (DL) Es un subconjunto de ML en el que la máquina es capaz de razonar y sacar sus propias conclusiones, aprendiendo por sí misma. Este tipo de aprendizaje es netamente llamado red neuronal porque trata de simular el funcionamiento neto de este órgano vital, donde cada neurona se conecta entre sí y transmite información, estos modelos funcionan en capas con un mínimo de tres y funcionan bien con una gran cantidad de datos y no se saturan como los modelos tradicionales de Machine Learning. Convolutional Neural Networks (CNN) Una Red Neuronal Convolucional es un tipo de red neuronal artificial de alimentación directa en la que las neuronas individuales están en mosaico de tal manera que responden a regiones que se superponen en el campo visual. Para realizar el proceso de clasificación, los modelos CNN técnicamente pasarán una matriz de características a través de una serie de capas de convolución con filtros (Kernals), capa RELU (o alguna otra función de activación), capas de agrupación , capas completamente conectadas (Fully connected) y aplicará la función de activación como Sigmoid o Función Softmax para clasificar un objeto con valores probabilísticos entre 0 y 1”, como se observa en la siguiente figura una red con múltiples capas es usado para encontrar las características de un únicas de un auto y luego clasificarlo correctamente.
Propuesta YOLO. es una sola red convolucional que predice simultáneamente múltiples cuadros delimitadores y probabilidades de clase para esos cuadros. Usa características de toda la imagen para predecir cada cuadro delimitador. También predice todos los cuadros delimitadores en todas las clases para una imagen simultáneamente. La red divide la imagen de entrada en una cuadrícula S × S. Si el centro de un objeto se ubica en una celda de la cuadrícula, esa celda es responsable de detectar ese objeto. Metodología de implementación y evaluación de la solución Adquisición En esta etapa se desarrolló una base de datos de imágenes de residuos plásticos que estén comprendidas en las siguientes categorías: botella, tapa plástica, bolsa plástica y cuerdas; todas estas serán escogidas usando los siguientes datasets: TACO (Proença, 2021) y Trashnet (Thung, 2017).
Resultados
A partir de los resultados, se infiere que el modelo YoloV4 posee mejores resultados tras el entrenamiento, el promedio de precisión a diferentes valores de recall: mAP = 79,2% , nos indica que el modelo es el mucho más preciso que el entrenado en YoloV3, su IoU = 66%, nos indica qué tan bien los cuadros delimitadores predichos se ajustan a la ubicación de un objeto a detectar, la precisión promedia obtenida nos indica que el modelo es muy robusto pues en un 83% las identificaciones positivas fue realmente correcta, al igual que el recall, que nos indica que en un 81% los positivos reales se identificaron correctamente, estos últimos son confirmados con el F1-Score de 82%.
Preprocesamiento Para esta fase se siguió una serie de pasos para resaltar las características de las imágenes, es importante usar la mayor cantidad de técnicas de Visión Computacional: data augmentation, los pasos que se desearía implementar serían: preparación de la imagen, exaltación de colores, aumento de nitidez y redimensión de las imágenes, con ello se pretenderá tener un dataset listo para una fase de reentrenamiento y obtención de resultados.
Conclusiones y recomendaciones Modelado y Clasificación En esta fase se procederá a crear nuevas categorías para proceder al reentrenamiento en cada modelo a evaluar, luego se procederá a entrenar los modelos YoloV3 y YoloV4, el entorno seleccionado para realizar esta actividad será el de Google Collaboratory, como nos ofrece grandes ventajas con respecto al tiempo que se utilizará para esta actividad, el entorno estará configurado para su uso con GPU. De acuerdo a los antecedentes de la investigación, las métricas que se utilizarían para evaluar los modelos a desarrollar en la fase anterior serían el Accuracy, Precision, Recall, ROC y AUC, con esto hallaremos el mejor modelo que debemos usar a fin de dar un mejor soporte al robot marino. •Accuracy: (TP + TN) / (TP + FP + TN + FN) •Precision: TP / (TP + FN) •Recall: TP / (TP + FP) •F1 Score: (Precision * Recall) / (Precision + Recall)
•El aprovechamiento de la inteligencia artificial / aprendizaje automático para monitorear, detectar y cuantificar la contaminación plástica resulta ser una alternativa positiva para este y otros propósitos similares. •YoloV4 extrae con éxito características relevantes para la clasificación de la basura marina a partir de datos de un video sin procesar. •Se obtendrán mejores resultados si se construye un mejor dataset con un mayor número de imágenes en alta resolución de diversas categorías. •Las arquitecturas como TensorFlow o SSDse pueden ser investigados para la clasificación.
Bibliografía Alexey. (s.f.). Yolo v4, v3 and v2 for Windows and Linux. Obtenido de Github: https://github.com/AlexeyAB/darknet#how-to-improve-object-detection Ameijeiras, D., González, R, H., & Hernández, Y. (24 de Julio de 2020). Revisión de algoritmos de detección y seguimiento de objetos con redes profundas para videovigilancia inteligente. San Antonio de los Baños, La Habana, Cuba: Revista Cubana de Ciencias Informáticas. Obtenido de http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S222718992020000300165&lng=pt&nrm=iso&tlng=es Eunomia Research & Consulting Ltd. (2016). Plastics in the Marine Environment. Obtenido de https://www.eunomia.co.uk/ Gonzalez, J. L. (8 de Febrero de 2018). SoldAI. Obtenido de Tipos de aprendizaje automático: https://medium.com/soldai/tipos-de-aprendizaje-autom%C3%A1tico-6413e3c615e2 Grupo Us. (s.f.). Conceptos Básicos de Redes Neuronales. Obtenido de http://grupo.us.es/gtocoma/pid/pid10/RedesNeuronales.htm