1 minute read

Entrenamiento del Modelo Selector de Calzada

Para este experimento se utilizó transfer learning, aprovechando un modelo preentrenado: EfficientViT. Este modelo combina las características de EfficientNet y Vision Transformers (ViT) para el procesamiento de imágenes. EfficientViT integra la eficiencia computacional de EfficientNet con la capacidad de capturar relaciones globales que ofrece ViT, mejorando así el desempeño en tareas de visión por computadora.

Dataset

El dataset utilizado se construyó con imágenes RGB y segmentadas proporcionadas por CARLA Simulator, donde las imágenes segmentadas sirven como etiquetas de entrenamiento. El dataset cuenta con 78,000 imágenes, capturadas en diferentes escenarios y ciudades virtuales dentro de CARLA.

Proceso de Entrenamiento

Se empleó el modelo EfficientViT_b0, al cual se le realizaron algunos ajustes en los datos de entrada. De las imágenes segmentadas, se extrajo la clase “road” (representada con el color RGB (128, 64, 128)). Las imágenes fueron recortadas a 224x224 píxeles para adaptarlas a la arquitectura de la red.

Además, se aplicaron técnicas de aumento de datos (data augmentation) con Albumentations, utilizando transformaciones como rotaciones, cambios de brillo y contraste, entre otros, para darle mayor variabilidad al dataset.

Hiperparámetros Utilizados Algunos de los hiperparámetros clave utilizados durante el entrenamiento fueron:

Hiperparámetro Valor
Tamaño del dataset 70.000 imágenes (RGB + MASK SEG)
Learning Rate 0.0005
Batch size 32
Dropout 0.3
Image Shape (224x224)
Métricas Usadas Jaccard Index, IoU
Épocas Usadas 30

Métrica de Validación

Como métrica de validación se utilizó el Jaccard Index (IoU, Intersection over Union). Esta métrica mide cuántos píxeles predichos por el modelo coinciden con los píxeles correspondientes en la máscara de verdad de campo (ground truth), específicamente aquellos que representan la carretera (road).

El valor de IoU oscila entre 0 y 1, donde:

  • Un IoU de 1 indica una coincidencia perfecta entre la predicción y la verdad de campo.
  • Un IoU de 0 indica que no hay superposición entre la predicción y la máscara.
  • Generalmente, un IoU mayor a 0.5 se considera una buena predicción en muchos contextos.

Resultados

Durante el entrenamiento inicial, los valores de IoU obtenidos fueron bajos, oscilando entre 0.02 y 0.3. Para mejorar estos resultados, se ajustaron algunos hiperparámetros como el learning rate, el batch size y el dropout rate.

Pruebas de predicción realizadas

Imagen RGB
Imagen RGB
Máscara de Predicción
Máscara de Predicción

Vídeo de prueba