Week 75 - Burbuja vs DAgger(train, test offline y online)
Tabla resumen – Métricas OFFLINE
Modelos entrenados con volante (teleoperado) Comparación DAgger vs Burbuja
| Estrategia | Steer MAE | Steer RMSE | Throttle MAE | Throttle RMSE |
|---|---|---|---|---|
| DAgger | 0.0428 | 0.0883 | 0.0817 | 0.1546 |
| Burbuja | 0.0270 | 0.0456 | 0.0741 | 0.1327 |
** Resultados preliminares: DAgger vs. Burbuja**
En esta etapa del trabajo se esperaba que la estrategia DAgger superara al enfoque Burbuja, dado que, en teoría, DAgger permite corregir errores del modelo en estados fuera de la distribución original y construir un dataset más informativo. Sin embargo, los resultados obtenidos no reflejan aún esta ventaja esperada.
Una de las principales razones identificadas es la calidad del dataset generado durante la conducción teleoperada, particularmente asociada a la experiencia del conductor humano y al manejo del volante y los pedales (throttle y brake).
Tamaño de los datasets utilizados
| Estrategia | Train + Val | Test |
|---|---|---|
| DAgger | 31,747 | 5,603 |
| Burbuja | 58,925 | 10,399 |
Aunque el dataset Burbuja es significativamente más grande, su conducción fue más estable y continua, lo que se refleja en mejores métricas offline y un comportamiento online más suave.
En experimentos anteriores, utilizando configuraciones diferentes de entrenamiento y recolección de datos, se habían obtenido mejores métricas en ambos enfoques, lo que sugiere que los resultados actuales pueden mejorarse significativamente.
Actualmente se está trabajando en:
- Reentrenamiento de modelos con ajustes en hiperparámetros para Burbuja y DAgger.
- Refinamiento del control humano, buscando:
- Acciones más suaves y consistentes.
- Mejor coordinación entre steer, throttle y brake.
- Construcción de datasets de mayor calidad, priorizando:
- Menor ruido en las etiquetas.
- Trayectorias más estables.
- Mejor representación de escenarios críticos.
Se espera que, con una mayor experiencia en la conducción teleoperada y un proceso de recolección más controlado, ambas estrategias puedan recuperar y superar las métricas obtenidas en experimentos previos, permitiendo una comparación más justa y representativa.
Métricas OFFLINE – Evaluación con datasets cruzados
Evaluación cruzada
- DAgger → Burbuja: modelo entrenado con DAgger, evaluado con datos Burbuja
- Burbuja → DAgger: modelo entrenado con Burbuja, evaluado con datos DAgger
Resumen por modelo:
| Modelo | Entrenado con | Dataset de validación | Steer MAE | Steer RMSE | Throttle MAE | Throttle RMSE |
|---|---|---|---|---|---|---|
| EfficientNet | DAgger | Burbuja | 0.147 | 0.207 | 0.278 | 0.353 |
| Burbuja | DAgger | 0.201 | 0.288 | 0.358 | 0.422 | |
| MobileNet | DAgger | Burbuja | 0.159 | 0.215 | 0.271 | 0.338 |
| Burbuja | DAgger | 0.204 | 0.290 | 0.363 | 0.430 | |
| PilotNet | DAgger | Burbuja | 0.161 | 0.217 | 0.295 | 0.365 |
| Burbuja | DAgger | 0.200 | 0.280 | 0.357 | 0.415 | |
| ResNet18 | DAgger | Burbuja | 0.159 | 0.213 | 0.279 | 0.344 |
| Burbuja | DAgger | 0.205 | 0.290 | 0.362 | 0.425 |
Para analizar la capacidad de generalización, se realizó una evaluación cruzada utilizando datasets distintos al de entrenamiento. Los resultados muestran que los modelos entrenados con DAgger generalizan mejor cuando se evalúan sobre datos de Burbuja, mientras que los modelos entrenados con Burbuja presentan un deterioro notable al evaluarse sobre datos de DAgger. Este comportamiento evidencia un fuerte cambio de distribución entre ambos conjuntos y confirma que, aunque Burbuja produce datos más limpios, DAgger ofrece mayor robustez frente a escenarios fuera de distribución.