2 minute read

Tabla resumen – Métricas OFFLINE

Modelos entrenados con volante (teleoperado) Comparación DAgger vs Burbuja

Estrategia Steer MAE Steer RMSE Throttle MAE Throttle RMSE
DAgger 0.0428 0.0883 0.0817 0.1546
Burbuja 0.0270 0.0456 0.0741 0.1327

** Resultados preliminares: DAgger vs. Burbuja**

En esta etapa del trabajo se esperaba que la estrategia DAgger superara al enfoque Burbuja, dado que, en teoría, DAgger permite corregir errores del modelo en estados fuera de la distribución original y construir un dataset más informativo. Sin embargo, los resultados obtenidos no reflejan aún esta ventaja esperada.

Una de las principales razones identificadas es la calidad del dataset generado durante la conducción teleoperada, particularmente asociada a la experiencia del conductor humano y al manejo del volante y los pedales (throttle y brake).


Tamaño de los datasets utilizados

Estrategia Train + Val Test
DAgger 31,747 5,603
Burbuja 58,925 10,399

Aunque el dataset Burbuja es significativamente más grande, su conducción fue más estable y continua, lo que se refleja en mejores métricas offline y un comportamiento online más suave.

En experimentos anteriores, utilizando configuraciones diferentes de entrenamiento y recolección de datos, se habían obtenido mejores métricas en ambos enfoques, lo que sugiere que los resultados actuales pueden mejorarse significativamente.

Actualmente se está trabajando en:

  • Reentrenamiento de modelos con ajustes en hiperparámetros para Burbuja y DAgger.
  • Refinamiento del control humano, buscando:
    • Acciones más suaves y consistentes.
    • Mejor coordinación entre steer, throttle y brake.
  • Construcción de datasets de mayor calidad, priorizando:
  • Menor ruido en las etiquetas.
  • Trayectorias más estables.
  • Mejor representación de escenarios críticos.

Se espera que, con una mayor experiencia en la conducción teleoperada y un proceso de recolección más controlado, ambas estrategias puedan recuperar y superar las métricas obtenidas en experimentos previos, permitiendo una comparación más justa y representativa.


Métricas OFFLINE – Evaluación con datasets cruzados

Evaluación cruzada

  • DAgger → Burbuja: modelo entrenado con DAgger, evaluado con datos Burbuja
  • Burbuja → DAgger: modelo entrenado con Burbuja, evaluado con datos DAgger

Resumen por modelo:

Modelo Entrenado con Dataset de validación Steer MAE Steer RMSE Throttle MAE Throttle RMSE
EfficientNet DAgger Burbuja 0.147 0.207 0.278 0.353
  Burbuja DAgger 0.201 0.288 0.358 0.422
MobileNet DAgger Burbuja 0.159 0.215 0.271 0.338
  Burbuja DAgger 0.204 0.290 0.363 0.430
PilotNet DAgger Burbuja 0.161 0.217 0.295 0.365
  Burbuja DAgger 0.200 0.280 0.357 0.415
ResNet18 DAgger Burbuja 0.159 0.213 0.279 0.344
  Burbuja DAgger 0.205 0.290 0.362 0.425

Para analizar la capacidad de generalización, se realizó una evaluación cruzada utilizando datasets distintos al de entrenamiento. Los resultados muestran que los modelos entrenados con DAgger generalizan mejor cuando se evalúan sobre datos de Burbuja, mientras que los modelos entrenados con Burbuja presentan un deterioro notable al evaluarse sobre datos de DAgger. Este comportamiento evidencia un fuerte cambio de distribución entre ambos conjuntos y confirma que, aunque Burbuja produce datos más limpios, DAgger ofrece mayor robustez frente a escenarios fuera de distribución.