Week 75 - Burbuja vs DAgger(train, test offline y online)

2 minute read

Tabla resumen – Métricas OFFLINE

Modelos entrenados con volante (teleoperado) Comparación DAgger vs Burbuja

Estrategia	Steer MAE	Steer RMSE	Throttle MAE	Throttle RMSE
DAgger	0.0428	0.0883	0.0817	0.1546
Burbuja	0.0270	0.0456	0.0741	0.1327

** Resultados preliminares: DAgger vs. Burbuja**

En esta etapa del trabajo se esperaba que la estrategia DAgger superara al enfoque Burbuja, dado que, en teoría, DAgger permite corregir errores del modelo en estados fuera de la distribución original y construir un dataset más informativo. Sin embargo, los resultados obtenidos no reflejan aún esta ventaja esperada.

Una de las principales razones identificadas es la calidad del dataset generado durante la conducción teleoperada, particularmente asociada a la experiencia del conductor humano y al manejo del volante y los pedales (throttle y brake).

Tamaño de los datasets utilizados

Estrategia	Train + Val	Test
DAgger	31,747	5,603
Burbuja	58,925	10,399

Aunque el dataset Burbuja es significativamente más grande, su conducción fue más estable y continua, lo que se refleja en mejores métricas offline y un comportamiento online más suave.

En experimentos anteriores, utilizando configuraciones diferentes de entrenamiento y recolección de datos, se habían obtenido mejores métricas en ambos enfoques, lo que sugiere que los resultados actuales pueden mejorarse significativamente.

Actualmente se está trabajando en:

Reentrenamiento de modelos con ajustes en hiperparámetros para Burbuja y DAgger.
Refinamiento del control humano, buscando:
- Acciones más suaves y consistentes.
- Mejor coordinación entre steer, throttle y brake.
Construcción de datasets de mayor calidad, priorizando:
Menor ruido en las etiquetas.
Trayectorias más estables.
Mejor representación de escenarios críticos.

Se espera que, con una mayor experiencia en la conducción teleoperada y un proceso de recolección más controlado, ambas estrategias puedan recuperar y superar las métricas obtenidas en experimentos previos, permitiendo una comparación más justa y representativa.

Métricas OFFLINE – Evaluación con datasets cruzados

Evaluación cruzada

DAgger → Burbuja: modelo entrenado con DAgger, evaluado con datos Burbuja
Burbuja → DAgger: modelo entrenado con Burbuja, evaluado con datos DAgger

Resumen por modelo:

Modelo	Entrenado con	Dataset de validación	Steer MAE	Steer RMSE	Throttle MAE	Throttle RMSE
EfficientNet	DAgger	Burbuja	0.147	0.207	0.278	0.353
	Burbuja	DAgger	0.201	0.288	0.358	0.422
MobileNet	DAgger	Burbuja	0.159	0.215	0.271	0.338
	Burbuja	DAgger	0.204	0.290	0.363	0.430
PilotNet	DAgger	Burbuja	0.161	0.217	0.295	0.365
	Burbuja	DAgger	0.200	0.280	0.357	0.415
ResNet18	DAgger	Burbuja	0.159	0.213	0.279	0.344
	Burbuja	DAgger	0.205	0.290	0.362	0.425

Para analizar la capacidad de generalización, se realizó una evaluación cruzada utilizando datasets distintos al de entrenamiento. Los resultados muestran que los modelos entrenados con DAgger generalizan mejor cuando se evalúan sobre datos de Burbuja, mientras que los modelos entrenados con Burbuja presentan un deterioro notable al evaluarse sobre datos de DAgger. Este comportamiento evidencia un fuerte cambio de distribución entre ambos conjuntos y confirma que, aunque Burbuja produce datos más limpios, DAgger ofrece mayor robustez frente a escenarios fuera de distribución.

Share on

Twitter Facebook LinkedIn

Carlos Velásquez

Week 75 - Burbuja vs DAgger(train, test offline y online)

Tabla resumen – Métricas OFFLINE

Tamaño de los datasets utilizados

Métricas OFFLINE – Evaluación con datasets cruzados

Evaluación cruzada

Share on

You may also enjoy

Week 91 - Entrenamiento en caliente

Week 90 - Recorder/Replayer, muestreo temporal y revisión de augmentations en PilotNet

Week 89 - Robustez del piloto, Caso Canónico, 15 Casos y Pruebas de Velocidad

Week 88 - Actualización de métricas en BehaviorMetrics (CARLA), comparación contra ruta ideal