1 minute read

Caso Entrenamiento Distancia completada (m) Distancia efectiva (m) Desv. pos. media (m) Desv. pos. / km Colisiones Invasiones carril Suavidad ctrl / km
1 Burbuja 30.22 7.5 2.91 388.28 0 141 2.85
1 DAgger 31.52 6.5 1.83 280.87 0 146 2.00
2 Burbuja 192.26 44.0 2.33 52.96 303 497 0.31
2 DAgger 193.70 48.5 2.31 47.54 314 517 0.32
3 Burbuja 140.65 31.5 1.39 44.13 181 364 0.58
3 DAgger 193.70 48.5 2.31 47.54 314 517 0.32
4 Burbuja 51.60 17.0 2.35 138.39 0 202 1.16
4 DAgger 51.84 19.5 2.31 118.25 0 208 1.28

1. Robustez frente al estado inicial

  • DAgger es más consistente entre puntos de lanzamiento:
  • Menor desviación media en 3/4 casos.
  • Menor desviación por km en todos los casos comparables.
  • Burbuja colapsa antes en el Caso 1 y muestra mayor sensibilidad al punto inicial.

2. Distancia recorrida

  • DAgger ≥ Burbuja en todos los casos (ligera o claramente).
  • En escenarios largos (Casos 2 y 3), DAgger mantiene el avance donde Burbuja se degrada antes.

3. Seguridad (colisiones e invasiones)

Ambos modelos no son seguros en escenarios complejos (Casos 2 y 3).

DAgger no reduce colisiones en estos casos → confirma que más datos ≠ política segura, sino mejor cobertura de estados.

4. Suavidad del control

DAgger tiende a menor suddenness por km, especialmente en trayectorias largas.

Confirma mejor adaptación a estados fuera de la distribución inicial (recovery behavior).

Conclusión

Bajo un protocolo de evaluación controlado con múltiples puntos de lanzamiento, el modelo monolítico entrenado con DAgger muestra una mayor robustez frente a cambios en el estado inicial que el entrenado con conducción tipo burbuja. Aunque ambos modelos presentan fallos de seguridad en escenarios complejos, DAgger logra trayectorias más estables y consistentes, reduciendo la desviación lateral y manteniendo el progreso incluso en situaciones fuera de distribución.

Limitaciones

Los modelos evaluados no alcanzaron un entrenamiento óptimo debido a un desbalance en el dataset, especialmente en las clases de giro fuerte. Esto generó políticas excesivamente suavizadas, con bajo desempeño en curvas cerradas. Actualmente se están construyendo nuevos datasets para corregir esta limitación y habilitar evaluaciones más completas.