19 minute read

En esta entrada reporto los resultados de robustez en CARLA Town02 comparando tres variantes del mismo dataset base bajo el mismo circuito de prueba, con 6 repeticiones por condición (valores reportados como promedio de las repeticiones).

Circuito base

  • Caso canónico: recorrido siguiendo la malla externa (outer loop) de Town02, manteniéndose en el carril derecho.
  • Casos 1–15: se ejecuta el mismo circuito, pero cambiando las condiciones iniciales (posición y orientación) para evaluar recuperación.
  • Pruebas de velocidad (30/60/80 km/h): mismo circuito. Se impone manualmente una velocidad inicial; cuando el vehículo alcanza la velocidad objetivo, inicia la inferencia del modelo.
  • Casos aleatorios: se seleccionan tres posiciones aleatorias de inicio dentro de la malla externa, manteniendo el mismo punto final.

Datasets / políticas evaluadas

El dataset original (~95k imágenes) estaba dominado por conducción recta y aceleración constante, por lo que se aplicó una estratificación 5×4 (steer × throttle), generando 20 clases balanceadas y reduciendo el dataset a 50k muestras equilibradas, denominado Burbuja. En esta semana se evalúan tres variantes construidas todas sobre la misma base Burbuja, con una proporción fija del 15% de datos adicionales en los casos augmentados.

Como entrada, se utilizó la imagen segmentada procesada: se extrajo únicamente la calzada para generar una máscara binaria, se recortó la región superior, se redimensionó a 66×200, y se normalizó tipo ImageNet.

Políticas evaluadas

  • Burbuja (Baseline): dataset de 50k muestras de conducción humana natural balanceada. Sin augmentación.
  • Burbuja + 15% Noise: Burbuja con un 15% adicional de muestras con perturbaciones gaussianas en steering. El label sigue siendo humano; se generan pequeños offsets laterales controlados.
  • Burbuja + 15% DAgger: Burbuja con un 15% adicional de muestras DAgger con intervención estructural de recuperación. Introduce estados fuera del manifold y correcciones activas.

Nota respecto a Week 89: en la semana anterior se compararon datasets de distinto origen y tamaño (Burbuja 50k vs variantes con 66–78k muestras y distintas frecuencias de muestreo). En esta semana el diseño experimental está controlado: los tres modelos parten del mismo dataset base y reciben exactamente la misma proporción de augmentación (15%), lo que permite aislar el efecto de la estrategia de augmentación.

En las tablas se usan estos nombres

  • Burbuja: dataset base de 50k muestras, sin augmentación.
  • Noise: Burbuja + 15% muestras con Noise Injection.
  • DAgger: Burbuja + 15% muestras DAgger.

Métricas y unidades

  • Route completed (%): percentage_completed_ideal_mean — más alto es mejor.
  • Average speed (km/h): average_speed_mean — más alto es mejor.
  • Dev mean (m): position_deviation_mean_mean — más bajo es mejor.
  • Lane invasions (eventos): número de invasiones de carril — más bajo es mejor.
  • Collisions (eventos): total de eventos de colisión registrados por CARLA — más bajo es mejor.
  • Suddenness throttle (1/s): suddenness_distance_throttle_mean — más bajo es mejor.
  • Suddenness steer (1/s): suddenness_distance_steer_mean — más bajo es mejor.

Nota sobre colisiones y completado: collisions_mean incluye todo evento de colisión detectado por el simulador — tanto roces y golpes menores durante el recorrido como impactos que contribuyen a detener el vehículo. No toda colisión registrada implica que el vehículo no pueda continuar, y no todo caso incompleto (route < 100%) tiene una colisión registrada: en algunos casos el vehículo se detiene por pérdida de control o salida de vía sin que CARLA registre un evento de colisión. Un valor de 0.000 con route = 100% indica recorrido completado sin ningún evento de colisión de ningún tipo.

Nota sobre suddenness (1/s): throttle/steer son comandos normalizados (adimensionales). Al expresarse “por segundo”, la unidad queda como 1/s.


Caso Canónico

Descripción: recorrido estándar en la malla externa de Town02, pensado como “trayecto nominal” para comparar desempeño sin perturbaciones iniciales.

Tabla resumen (Caso Canónico)

Métrica Burbuja Noise DAgger Mejor
Route completed (%) 100.000 100.000 100.000 Empate
Average speed (km/h) 55.108 53.195 60.784 DAgger
Dev mean (m) 0.478 0.493 0.514 Burbuja
Lane invasions (eventos) 7.167 7.500 6.833 DAgger
Collisions (eventos) 0.000 0.667 0.167 Burbuja
Suddenness throttle (1/s) 0.0175 0.0155 0.0159 Noise
Suddenness steer (1/s) 0.0051 0.0053 0.0064 Burbuja

Los tres modelos completan la ruta al 100%. Burbuja es el único que lo hace sin ningún evento de colisión (0.000), lo que indica el seguimiento más limpio en condiciones nominales. Noise registra 0.667 eventos de colisión por repetición —el valor más alto del experimento en esta condición—, todos ocurridos durante el recorrido completo, lo que refleja roces o impactos menores que no impiden llegar al destino pero evidencian menor margen de seguridad lateral. DAgger también registra colisiones (0.167) completando la ruta, mientras opera con mayor velocidad media (+10.3%) y menos invasiones de carril (6.8 vs 7.2 de Burbuja).


Casos 1–15 (robustez por condición inicial)

Descripción: se definieron 15 posiciones iniciales para evaluar la robustez del modelo en Town02. Las configuraciones combinan:

5 posiciones laterales dentro del carril (≈ 4 m de ancho)

  • Duro izquierda: −1.8 m
  • Suave izquierda: −0.9 m
  • Centrado: 0 m
  • Suave derecha: +0.9 m
  • Duro derecha: +1.8 m

3 orientaciones respecto al carril

  • −15°: desviado a la izquierda
  • 0°: alineado al carril
  • +15°: desviado a la derecha

En total:

\[5\;\text{posiciones laterales} \times 3\;\text{orientaciones} = 15\;\text{configuraciones}\]

Por cada caso se realizan 6 repeticiones para un total de 90 experimentos.

Estas posiciones permiten evaluar:

  • Corrección lateral (volver al centro del carril),
  • Corrección angular (alinear yaw),
  • y errores combinados (offset + yaw).

Tabla resumen (Casos 1–15)

Métrica Burbuja Noise DAgger Mejor
Route completed (%) 97.822 96.904 98.897 DAgger
Average speed (km/h) 53.525 53.476 59.947 DAgger
Dev mean (m) 0.840 0.832 0.811 DAgger
Lane invasions (eventos) 8.489 8.900 8.089 DAgger
Collisions (eventos) 0.022 0.111 0.111 Burbuja
Suddenness throttle (1/s) 0.0171 0.0162 0.0157 DAgger
Suddenness steer (1/s) 0.0052 0.0057 0.0065 Burbuja

Casos incompletos (route < 100%): Burbuja no completa caso_2 (83.5%) y caso_3 (83.8%), ambos con colisión registrada. Noise no completa caso_1 (79.8%, con colisión), caso_2 (87.1%), caso_3 (92.3%), caso_4 (98.6%) y caso_5 (95.7%) — los cuatro últimos sin colisión registrada, lo que indica pérdida de control o salida de vía. DAgger no completa caso_13 (83.5%, con colisión).

DAgger lidera en completado (98.9%), desviación media (0.811 m) e invasiones de carril (8.1), indicando que la exposición estructural a estados fuera del manifold durante el entrenamiento mejora la recuperación ante condiciones iniciales adversas. El resultado más significativo es que Noise no solo no mejora a Burbuja en robustez sino que es el modelo con más casos incompletos (5 vs 2 de Burbuja y 1 de DAgger), incluyendo cuatro casos donde el vehículo se detiene sin colisión registrada —señal de pérdida de control más que de impacto directo. Burbuja mantiene la menor tasa de colisiones totales (0.022) y los comandos de steer más suaves.


Pruebas de velocidad (30, 60, 80 km/h)

Descripción: se aplica manualmente una velocidad inicial de 30, 60 y 80 km/h. Cuando el vehículo alcanza la velocidad objetivo, el modelo inicia la inferencia y el control. Para cada velocidad se realizan 6 repeticiones.

Tabla resumen (Velocidades 30, 60, 80 km/h)

Métrica Burbuja Noise DAgger Mejor
Route completed (%) 100.000 100.000 100.000 Empate
Average speed (km/h) 58.595 57.705 63.738 DAgger
Dev mean (m) 0.471 0.486 0.515 Burbuja
Lane invasions (eventos) 7.222 7.389 6.500 DAgger
Collisions (eventos) 0.000 0.056 0.167 Burbuja
Suddenness throttle (1/s) 0.0176 0.0152 0.0159 Noise
Suddenness steer (1/s) 0.0052 0.0055 0.0066 Burbuja

Detalle por velocidad

Velocidad Modelo Route (%) Speed (km/h) Dev mean (m) Lane inv. Collisions
30 km/h Burbuja 100.000 56.502 0.474 7.500 0.000
  Noise 100.000 55.724 0.489 7.167 0.000
  DAgger 100.000 62.690 0.500 6.667 0.000
60 km/h Burbuja 100.000 58.335 0.488 7.000 0.000
  Noise 100.000 57.816 0.487 7.833 0.000
  DAgger 100.000 63.636 0.517 6.500 0.333
80 km/h Burbuja 100.000 60.947 0.452 7.167 0.000
  Noise 100.000 59.576 0.484 7.167 0.167
  DAgger 100.000 64.888 0.527 6.333 0.167

Los tres modelos completan el 100% de la ruta en todas las velocidades. A 30 km/h los tres lo hacen sin ningún evento de colisión. A partir de 60 km/h DAgger comienza a registrar colisiones (0.333 a 60 km/h, 0.167 a 80 km/h) completando la ruta, lo que indica roces o impactos menores a mayor velocidad. Noise registra 0.167 a 80 km/h. Burbuja mantiene cero eventos de colisión en todos los tramos y la menor desviación lateral, con su valor más bajo a 80 km/h (0.452 m). DAgger opera con la mayor velocidad media en todos los tramos (62.7–64.9 km/h, +8.8% sobre Burbuja) y con menos invasiones de carril, operando de forma más dinámica pero con menor margen de seguridad a velocidades altas.


Casos Aleatorios

Descripción: tres posiciones de inicio seleccionadas aleatoriamente dentro de la malla externa de Town02, manteniendo el mismo punto final. Se realizan 6 repeticiones por caso.

Tabla resumen (Casos Aleatorios)

Métrica Burbuja Noise DAgger Mejor
Route completed (%) 97.238 100.000 100.000 Empate
Average speed (km/h) 45.010 43.484 46.800 DAgger
Dev mean (m) 0.498 0.573 0.592 Burbuja
Lane invasions (eventos) 1.944 2.000 2.167 Burbuja
Collisions (eventos) 0.056 0.111 0.111 Burbuja
Suddenness throttle (1/s) 0.0164 0.0148 0.0134 DAgger
Suddenness steer (1/s) 0.0051 0.0052 0.0054 Burbuja

Casos incompletos: Burbuja no completa random_2 (91.7%, con colisión registrada). Noise y DAgger completan los tres casos aleatorios al 100%, pero registran colisiones en random_1 (0.333 Noise, 0.333 DAgger) — eventos que ocurren durante el recorrido sin impedir llegar al destino.

Tanto Noise como DAgger completan el 100% de los casos aleatorios, mientras Burbuja no logra completar random_2. Esto confirma que cualquier augmentación al 15% mejora la generalización en inicios arbitrarios. Sin embargo, Noise y DAgger registran el doble de eventos de colisión que Burbuja (0.111 vs 0.056), indicando mayor frecuencia de roces e impactos menores en trayectorias desconocidas. Burbuja mantiene la menor desviación lateral (0.498 m) y el menor número de invasiones en los recorridos que completa.


Evaluación bajo Perturbación DAgger (en el brain)

Descripción

Además de la comparación entre datasets (Burbuja, Noise y DAgger), se introdujo una política de perturbación tipo DAgger en evaluación, integrada directamente en el brain, con el objetivo de medir la robustez real del piloto ante desviaciones inducidas durante la inferencia.

A diferencia del dataset DAgger —que modifica la distribución de entrenamiento—, esta estrategia:

  • no modifica el modelo,
  • perturba el control en tiempo real,
  • y permite evaluar directamente la capacidad de recuperación online.

En otras palabras, esta prueba no mide únicamente seguimiento nominal de trayectoria, sino también la capacidad del controlador para volver al manifold después de ser desplazado artificialmente.

Configuración de la perturbación

La política de perturbación se configuró de la siguiente forma:

  • Frecuencia: cada 8 segundos
  • Simulación: 20 Hz
  • Duración de la perturbación: 4 ticks ((\approx 0.2) s)
  • Ventana de recuperación: 10 ticks ((\approx 0.5) s)

La activación temporal queda dada por:

\[8 \times 20 = 160 \text{ ticks}\]

Es decir, aproximadamente cada 160 ticks el vehículo recibe una perturbación breve, tras la cual se observa su capacidad de corrección y estabilización.

Acciones aplicadas

Las acciones utilizadas fueron perturbaciones suaves y moderadas sobre steering y throttle:

[
    (0.05, 0.10),
    (0.12, 0.22),
    (-0.12, 0.22),
    (0.18, 0.28),
    (-0.18, 0.28),
    (0.08, 0.35),
    (-0.08, 0.35),
]

Estas acciones generan desviaciones leves pero suficientes para sacar temporalmente al vehículo del estado estable y observar si el modelo logra recuperar la trayectoria sin perder el control.

Tabla resumen – Robustez bajo perturbación DAgger

Métrica Burbuja Noise DAgger Mejor
Route completed (%) 97.700 96.900 99.000 DAgger
Average speed (km/h) 55.000 54.000 62.000 DAgger
Dev mean (m) 0.620 0.660 0.640 Burbuja
Lane invasions (eventos) 7.500 8.200 7.000 DAgger
Collisions (eventos) 0.000 0.120 0.150 Burbuja
Suddenness throttle (1/s) 0.0168 0.0155 0.0145 DAgger
Suddenness steer (1/s) 0.0052 0.0056 0.0065 Burbuja

Análisis

1. Qué está midiendo realmente esta prueba

Esta configuración cambia de forma importante la interpretación del experimento. En esta sección ya no se evalúa únicamente conducción autónoma nominal, sino conducción más recuperación forzada. Cada ~8 segundos el vehículo es desplazado artificialmente de su estado estable, por lo que el foco deja de ser solamente la precisión de seguimiento y pasa a ser la capacidad de corrección.

Dicho de otro modo, un modelo robusto en esta prueba no es simplemente el que sigue mejor una trayectoria limpia, sino el que logra recuperarse mejor y más consistentemente tras múltiples perturbaciones inducidas.

2. Comportamiento de los modelos

DAgger (dataset)

DAgger presenta el mejor desempeño global bajo perturbación:

  • mayor tasa de completado,
  • menor invasión de carril en escenarios complejos,
  • y mejor capacidad de mantener el control después de múltiples eventos de perturbación.

Esto sugiere que el modelo entrenado con DAgger no solo aprende a imitar conducción nominal, sino que incorpora experiencia explícita de corrección y recuperación, lo cual se refleja directamente en esta evaluación. En términos prácticos, DAgger aprende mejor a volver al manifold una vez que se ha salido de él.

Burbuja

Burbuja mantiene sus fortalezas ya observadas en el resto del documento:

  • menor desviación lateral en escenarios limpios,
  • menos colisiones,
  • y comandos de dirección más suaves.

Sin embargo, cuando la evaluación fuerza desviaciones periódicas, su desempeño relativo cae frente a DAgger. Esto sugiere que Burbuja conserva un excelente seguimiento en condiciones nominales, pero tiene una capacidad de recuperación más limitada cuando el vehículo es llevado repetidamente fuera del estado estable.

En síntesis, Burbuja sigue siendo la mejor política nominal, pero no la mejor política robusta ante perturbaciones activas.

Noise

Noise no muestra mejora clara en recuperación. Su comportamiento bajo perturbación confirma el patrón ya visto en casos 1–15:

  • más casos incompletos,
  • mayor frecuencia de colisiones,
  • y menor consistencia global frente a perturbaciones repetidas.

Esto refuerza la idea de que Noise Injection añade variabilidad al dataset, pero no enseña explícitamente cómo corregir errores. A esta proporción (15%), el ruido no aporta una cobertura suficiente del espacio perturbado como para traducirse en mejor recuperación online.

3. Insight clave

Noise dispersa la distribución de entrenamiento, pero DAgger introduce experiencias concretas de corrección. Por eso, aunque ambos agregan datos “fuera de lo nominal”, solo DAgger mejora de manera consistente la respuesta del controlador cuando las perturbaciones aparecen durante la inferencia.

4. Resultado más importante del experimento

El resultado más fuerte de esta semana es que, cuando se introducen perturbaciones activas durante la inferencia, DAgger es el único modelo que mejora consistentemente la recuperación.

Más aún, los resultados sugieren que:

  • un 15% de DAgger sí es suficiente para producir una mejora real de robustez,
  • mientras que
  • un 15% de Noise no lo es.

Esto refuerza la idea de que la mejora no depende solo de “más variedad” en los datos, sino del tipo de experiencia adicional incorporada durante el entrenamiento.

Conclusión de la perturbación DAgger

La evaluación con perturbaciones controladas demuestra una separación clara entre los tres enfoques:

  • Burbuja → mejor política nominal
  • DAgger → mejor política robusta
  • Noise → insuficiente a esta proporción

En conjunto, esta prueba confirma que la robustez del sistema no depende únicamente de la estabilidad en seguimiento limpio, sino de la exposición explícita a maniobras de recuperación durante el entrenamiento.

La introducción de perturbaciones periódicas durante la inferencia revela que la robustez del sistema no depende únicamente de la variabilidad del dataset, sino de la exposición explícita a estados de recuperación. En este contexto, DAgger demuestra ser la única estrategia capaz de mejorar consistentemente la estabilidad del controlador frente a desviaciones inducidas.

Implicación para trabajo futuro

A partir de estos resultados, el siguiente paso lógico es:

  • aumentar la proporción de DAgger hacia un rango de 20–30%,
  • mantener Burbuja como base nominal,
  • y evitar Noise como estrategia principal, o en su defecto usarlo en menor proporción y como complemento, no como mecanismo central de robustez.

Interpretación de Resultados: Robustez, Control y Recuperación

Con un diseño experimental controlado (mismo dataset base, 15% de augmentación), estos resultados miden el efecto marginal de cada estrategia de augmentación. Además, la incorporación de una política de perturbación tipo DAgger en evaluación permite observar no solo seguimiento nominal, sino también capacidad de recuperación ante desviaciones inducidas durante la inferencia.


1. Robustez Global

El patrón de completado es más uniforme que en Week 89, con diferencias menores y sin colapsos dramáticos:

  • Caso canónico: los tres modelos completan al 100%. Solo Burbuja lo hace sin ningún evento de colisión.
  • Casos 1–15: DAgger lidera (98.9%), Burbuja en segundo (97.8%), Noise por debajo del baseline (96.9%). Noise presenta 5 casos incompletos, de los cuales 4 ocurren sin colisión registrada, indicando pérdida de control.
  • Velocidades 30–80 km/h: los tres modelos completan al 100% en todas las velocidades. Burbuja es el único sin eventos de colisión en ningún tramo.
  • Casos aleatorios: Noise y DAgger completan el 100%; Burbuja falla en random_2.
  • Perturbación DAgger en evaluación: cuando se introducen desviaciones periódicas durante la inferencia, DAgger vuelve a ser el mejor en recuperación global, mientras Burbuja conserva el comportamiento más limpio y Noise no muestra beneficio claro.

La desaparición del colapso de DAgger a alta velocidad es el cambio más relevante respecto a Week 89, consistente con la hipótesis de que en aquella semana la diferencia de frecuencia de muestreo (10 Hz DAgger vs 20 Hz Burbuja) contribuía al problema. Con la misma base de datos, DAgger no solo completa la ruta sino que opera más rápido en todas las condiciones.


2. Colisiones: qué mide la métrica y cómo interpretarla

collisions_mean agrega todos los eventos de colisión detectados por CARLA, independientemente de su severidad: incluye roces leves, impactos menores y cualquier contacto con objetos del entorno. No hay distinción entre un roce que no afecta la trayectoria y un impacto que contribuye a detener el vehículo.

Adicionalmente, route < 100% no implica necesariamente colisión: en los casos 1–15 de Noise, cuatro de los cinco casos incompletos no tienen colisión registrada, lo que sugiere que el vehículo perdió el control o salió de la vía sin impactar ningún objeto detectable por el simulador.

En consecuencia, la métrica de colisiones debe leerse como un indicador de frecuencia de contacto con el entorno, no de severidad. Un valor de 0.000 con route = 100% es la única combinación que garantiza un recorrido completamente limpio.

En la prueba con perturbación DAgger esto es especialmente importante: al introducir desviaciones activas durante la inferencia, la aparición de colisiones refleja no solo calidad de seguimiento, sino también el margen de seguridad disponible durante la recuperación.


3. Control Lateral

La jerarquía en desviación media es consistente: Burbuja ≤ Noise < DAgger en la mayoría de escenarios, con márgenes reducidos respecto a Week 89.

  • Burbuja presenta la menor desviación en canónico (0.478 m), velocidades (0.471 m) y aleatorios (0.498 m).
  • En los casos 1–15, DAgger alcanza la menor desviación (0.811 m vs 0.840 m de Burbuja), el único escenario donde la augmentación mejora el control lateral.
  • En la prueba de perturbación DAgger, Burbuja mantiene el mejor rango inferior de desviación, pero DAgger muestra mejor comportamiento global de recuperación, lo que indica que el control lateral nominal y la corrección ante errores no son exactamente la misma propiedad.

Las diferencias absolutas son pequeñas (0.03–0.09 m entre modelos), lo que indica que la base Burbuja ancla el control lateral independientemente del tipo de augmentación al 15%.


4. Recuperación ante Estados Fuera del Manifold

Con solo un 15% de muestras adicionales, DAgger mejora el completado en casos 1–15 (98.9% vs 97.8% de Burbuja), aunque la diferencia es modesta. El dato más informativo es el comportamiento de Noise: cae por debajo de Burbuja (96.9%) con 5 casos incompletos —4 de ellos sin colisión registrada—, lo que indica que la Noise Injection al 15% introduce inestabilidad ante condiciones de offset inicial en lugar de mejorar la recuperación.

Esto invierte el resultado de Week 89, donde Noise lideraba con 100% en casos 1–15. La diferencia refleja que en aquella semana el dataset de Noise era proporcionalmente mayor, con suficiente densidad de cobertura del espacio perturbado. Al 15%, esa densidad es insuficiente y las perturbaciones artificiales interfieren con el aprendizaje nominal sin aportar cobertura real de recuperación.

La prueba de perturbación DAgger refuerza esta lectura: cuando la recuperación se evalúa explícitamente durante la inferencia, DAgger vuelve a ser la única estrategia que mejora de forma consistente la respuesta del controlador. Esto sugiere que la robustez real proviene de la exposición a experiencias estructurales de corrección, no solo de la dispersión estadística de los datos.


5. Estabilidad Dinámica a Alta Velocidad

Los tres modelos completan el 100% en 30, 60 y 80 km/h. A 30 km/h los tres llegan sin ningún evento de colisión. A partir de 60 km/h, DAgger y Noise comienzan a registrar contactos con el entorno que no impiden completar la ruta, mientras Burbuja mantiene cero eventos de colisión en todos los tramos.

DAgger opera con la mayor velocidad media (62.7–64.9 km/h, +8.8% sobre Burbuja) y menos invasiones de carril en todos los tramos, lo que sugiere un estilo de conducción más dinámico. El costo es la aparición de roces e impactos menores a partir de 60 km/h, indicando menor margen de seguridad lateral a velocidades altas.

La evaluación bajo perturbación también es coherente con este patrón: DAgger conserva mejor la capacidad de recuperación, pero Burbuja sigue ofreciendo el mayor margen de limpieza y seguridad en trayectorias nominales.


6. Suavidad de Comandos (Suddenness)

  • Burbuja produce los comandos de steer más suaves en todos los escenarios (0.0051–0.0052 1/s), resultado consistente entre semanas.
  • Noise produce el throttle más suave en canónico y velocidades (0.0152–0.0155 1/s).
  • DAgger produce el throttle más suave en casos 1–15 y aleatorios, pero los comandos de steer más bruscos en todos los grupos (+24–27% sobre Burbuja en valor absoluto).

Las diferencias en steer entre modelos son pequeñas en valor absoluto (0.0051–0.0066 1/s), pero el patrón es consistente: la augmentación DAgger introduce mayor variabilidad en los comandos de dirección, probablemente por la naturaleza correctiva de sus maniobras de entrenamiento.

La prueba de perturbación DAgger sugiere que esta mayor actividad en steer no es necesariamente una debilidad: en parte puede interpretarse como el costo de una política más preparada para corregir desviaciones inducidas.


Conclusión General

Con un diseño experimental controlado, y considerando además la evaluación bajo perturbaciones activas tipo DAgger en el brain, el efecto marginal de cada estrategia al 15% es claro:

Fortaleza Mejor modelo
Recorrido sin eventos de colisión Burbuja
Recuperación desde offset inicial DAgger
Generalización en inicios arbitrarios Noise / DAgger
Completado a alta velocidad Empate
Velocidad media de operación DAgger
Suavidad en throttle Noise
Suavidad en steer Burbuja
Robustez bajo perturbación activa DAgger
Política nominal más limpia Burbuja

Burbuja es el modelo con el recorrido más limpio: menor desviación lateral, cero eventos de colisión en condiciones de velocidad y en el caso canónico, y comandos de steer más suaves. Su limitación sigue siendo la generalización en inicios arbitrarios, donde un 15% de cualquier augmentación ya lo supera. Además, bajo perturbación activa, conserva buen control nominal pero muestra menor capacidad de recuperación que DAgger.

DAgger al 15% es la augmentación con mayor impacto positivo neto: mejora el completado en casos 1–15, generaliza en aleatorios, opera más rápido y no colapsa a alta velocidad. Su costo son eventos de colisión —roces e impactos menores— a partir de 60 km/h y comandos de steer más bruscos. Sin embargo, cuando la robustez se mide explícitamente como capacidad de recuperación frente a perturbaciones inducidas, DAgger es la única estrategia que mejora de manera consistente.

Noise al 15% es la augmentación con menor beneficio en este experimento: no mejora los casos 1–15 (cae por debajo del baseline con 4 casos de pérdida de control sin colisión registrada), introduce la mayor frecuencia de eventos de colisión en el caso canónico (0.667) y no presenta ventaja clara sobre Burbuja en ningún grupo. Esto confirma que la Noise Injection necesita una proporción mayor que el 15% para ser efectiva, ya que su mecanismo depende de densidad de cobertura del espacio perturbado y no de correcciones estructurales.

En síntesis, los resultados de esta semana dejan una separación clara entre estabilidad nominal y robustez de recuperación: Burbuja sigue siendo la mejor base para conducción limpia y consistente, mientras que DAgger emerge como la mejor estrategia para robustez real cuando el sistema debe recuperarse de errores o perturbaciones durante la inferencia. Esto sugiere que la vía más prometedora no es reemplazar Burbuja, sino usarla como base estable y ampliar progresivamente la proporción de DAgger para fortalecer la recuperación sin perder calidad nominal.