Week 23 - Entrenamiento del Modelo Selector de Calzada
Entrenamiento del Modelo Selector de Calzada
Para este experimento se utilizó transfer learning, aprovechando un modelo preentrenado: EfficientViT. Este modelo combina las características de EfficientNet y Vision Transformers (ViT) para el procesamiento de imágenes. EfficientViT integra la eficiencia computacional de EfficientNet con la capacidad de capturar relaciones globales que ofrece ViT, mejorando así el desempeño en tareas de visión por computadora.
Dataset
El dataset utilizado se construyó con imágenes RGB y segmentadas proporcionadas por CARLA Simulator, donde las imágenes segmentadas sirven como etiquetas de entrenamiento. El dataset cuenta con 78,000 imágenes, capturadas en diferentes escenarios y ciudades virtuales dentro de CARLA.
Proceso de Entrenamiento
Se empleó el modelo EfficientViT_b0, al cual se le realizaron algunos ajustes en los datos de entrada. De las imágenes segmentadas, se extrajo la clase “road” (representada con el color RGB (128, 64, 128)). Las imágenes fueron recortadas a 224x224 píxeles para adaptarlas a la arquitectura de la red.
Además, se aplicaron técnicas de aumento de datos (data augmentation) con Albumentations, utilizando transformaciones como rotaciones, cambios de brillo y contraste, entre otros, para darle mayor variabilidad al dataset.
Hiperparámetros Utilizados Algunos de los hiperparámetros clave utilizados durante el entrenamiento fueron:
Hiperparámetro | Valor |
---|---|
Tamaño del dataset | 70.000 imágenes (RGB + MASK SEG) |
Learning Rate | 0.0005 |
Batch size | 32 |
Dropout | 0.3 |
Image Shape | (224x224) |
Métricas Usadas | Jaccard Index, IoU |
Épocas Usadas | 30 |
Métrica de Validación
Como métrica de validación se utilizó el Jaccard Index (IoU, Intersection over Union). Esta métrica mide cuántos píxeles predichos por el modelo coinciden con los píxeles correspondientes en la máscara de verdad de campo (ground truth), específicamente aquellos que representan la carretera (road).
El valor de IoU oscila entre 0 y 1, donde:
- Un IoU de 1 indica una coincidencia perfecta entre la predicción y la verdad de campo.
- Un IoU de 0 indica que no hay superposición entre la predicción y la máscara.
- Generalmente, un IoU mayor a 0.5 se considera una buena predicción en muchos contextos.
Resultados
Durante el entrenamiento inicial, los valores de IoU obtenidos fueron bajos, oscilando entre 0.02 y 0.3. Para mejorar estos resultados, se ajustaron algunos hiperparámetros como el learning rate, el batch size y el dropout rate.