6 minute read

Actualmente se continúa ampliando la cantidad de muestras utilizadas en los experimentos de robustez. Las métricas presentadas en esta actualización se calculan únicamente sobre las ejecuciones exitosas, es decir, aquellas en las que el vehículo alcanza correctamente la meta.

Configuración experimental

Test 1 – Robustez bajo condiciones iniciales

Se evalúan 15 condiciones iniciales diferentes. Cada condición se ejecuta 15 veces para un total de:

\[15 \times 15 = 225\]

ejecuciones por configuración experimental.

Test 4 – Perturbación online durante inferencia

Se realizan igualmente 225 ejecuciones por configuración experimental. Durante la ejecución del vehículo se introducen perturbaciones online que modifican temporalmente la observación utilizada por la política de conducción.


Definición de las mezclas de entrenamiento

Sea $\alpha \in [0,1]$ la proporción de muestras augmentadas utilizadas dentro del dataset final.

Las mezclas basadas en DAgger se definen como:

\[D_{\alpha}^{B}=(1-\alpha)A'+\alpha B'\]

Las mezclas basadas en Noise Injection se definen como:

\[D_{\alpha}^{C}=(1-\alpha)A'+\alpha C'\]

donde:

  • $A’$: Dataset Burbuja
  • $B’$: Dataset DAgger
  • $C’$: Dataset Noise Injection

Además, se evalúa una mezcla híbrida:

\[D^{M}=0.70A'+0.20B'+0.10C'\]

denominada Magic Mix.

Ejemplos de interpretación

Configuración Composición
$D^{A}$ 100% Burbuja
$D_{0.50}^{B}$ 50% Burbuja + 50% DAgger
$D_{0.75}^{B}$ 25% Burbuja + 75% DAgger
$D_{0.50}^{C}$ 50% Burbuja + 50% Noise Injection
$D_{0.75}^{C}$ 25% Burbuja + 75% Noise Injection
$D^{M}$ 70% Burbuja + 20% DAgger + 10% Noise Injection

Test 1 – Robustez bajo condiciones iniciales

Burbuja

Métrica $D^{A}$
Successful runs 100.0% (225/225)
Collisions 0.000
Average speed (km/h) 54.71
Dev mean (m) 0.767

DAgger

Métrica $D_{0.50}^{B}$ $D_{0.75}^{B}$
Successful runs 97.3% (219/225) 40.4% (91/225)
Collisions 0.013 1.121
Average speed (km/h) 55.96 38.20
Dev mean (m) 0.843 1.469

Noise Injection

Métrica $D_{0.50}^{C}$ $D_{0.75}^{C}$
Successful runs 74.2% (167/225) 45.3% (101/225)
Collisions 0.004 0.583
Average speed (km/h) 56.27 52.99
Dev mean (m) 0.775 0.853

Comparación general

Modelo Success (%) Collisions Speed (km/h) Dev Mean (m)
$D^{A}$ 100.0 0.000 54.71 0.767
$D_{0.50}^{B}$ 97.3 0.013 55.96 0.843
$D_{0.75}^{B}$ 40.4 1.121 38.20 1.469
$D_{0.50}^{C}$ 74.2 0.004 56.27 0.775
$D_{0.75}^{C}$ 45.3 0.583 52.99 0.853

Análisis del Test 1

Los resultados muestran que las configuraciones más cercanas al dataset original continúan obteniendo el mejor desempeño bajo condiciones nominales.

El modelo base $D^{A}$ alcanza un 100% de successful runs, sin colisiones y con la menor desviación lateral media observada. Esto indica que el dataset Burbuja contiene suficiente diversidad para resolver correctamente las condiciones iniciales consideradas en este conjunto de pruebas.

La configuración $D_{0.50}^{B}$ mantiene un comportamiento muy cercano al modelo base, alcanzando un 97.3% de successful runs. Sin embargo, al incrementar la proporción de muestras DAgger hasta el 75%, el desempeño disminuye considerablemente, observándose un aumento importante en colisiones y desviación lateral.

Las configuraciones basadas en Noise Injection muestran una tendencia similar. Aunque $D_{0.50}^{C}$ mantiene una velocidad elevada y una desviación lateral comparable a la observada en Burbuja, la tasa de éxito disminuye hasta el 74.2%. La configuración $D_{0.75}^{C}$ presenta una degradación adicional, aunque menos pronunciada que la observada en DAgger.

En conjunto, estos resultados sugieren que el Test 1 favorece principalmente a las configuraciones que conservan una alta proporción de muestras originales del dataset Burbuja.


Test 4 – Perturbación online durante inferencia

DAgger

Métrica $D_{0.30}^{B}$ $D_{0.50}^{B}$ $D_{0.75}^{B}$
Successful runs 71.1% (160/225) 62.2% (140/225) 20.0% (45/225)
Collisions 0.994 0.129 0.978
Average speed (km/h) 53.9 54.5 47.6
Dev mean (m) 0.641 0.702 0.817

Noise Injection

Métrica $D_{0.30}^{C}$ $D_{0.50}^{C}$ $D_{0.75}^{C}$
Successful runs 79.6% (179/225) 91.1% (205/225) 47.1% (106/225)
Collisions 0.179 0.054 0.509
Average speed (km/h) 56.2 54.6 52.2
Dev mean (m) 0.554 0.466 0.828

Burbuja y Magic Mix

Modelo Successful Runs Collisions Avg Speed Dev Mean
$D^{A}$ 58.2% (131/225) 0.519 43.3 1.048
$D^{M}$ 88.9% (200/225) 0.085 55.1 0.512

Análisis del Test 4

A diferencia de lo observado en el Test 1, las configuraciones basadas en Noise Injection dominan claramente el escenario de perturbación online.

La mejor configuración corresponde a $D_{0.50}^{C}$, que alcanza un 91.1% de successful runs, acompañado por la menor desviación lateral media y el menor número de colisiones entre todas las mezclas evaluadas.

Las configuraciones basadas en DAgger muestran una tendencia opuesta. Aunque $D_{0.30}^{B}$ mantiene un desempeño razonable, el incremento de la proporción de muestras DAgger provoca una degradación progresiva del rendimiento, alcanzando únicamente un 20.0% de successful runs para $D_{0.75}^{B}$.

La mezcla híbrida $D^{M}$ presenta un resultado particularmente interesante. Con un 88.9% de successful runs, se aproxima al desempeño observado en $D_{0.50}^{C}$ y supera ampliamente al modelo base Burbuja. Esto sugiere que una combinación moderada de muestras DAgger y Noise Injection puede aportar beneficios complementarios sin llegar a degradar la estabilidad global de la política.


Comparación entre Test 1 y Test 4

La comparación entre ambos experimentos muestra que los distintos datasets fortalecen propiedades diferentes de la política aprendida.

En el Test 1, las configuraciones más cercanas al dataset original ($D^{A}$ y $D_{0.50}^{B}$) obtienen los mejores resultados. Sin embargo, en el Test 4 las configuraciones basadas en Noise Injection dominan claramente el escenario de perturbación online.

De forma preliminar, los resultados sugieren que:

  • Burbuja ($D^{A}$) favorece el desempeño nominal bajo condiciones conocidas.
  • DAgger ($D^{B}$) puede mejorar la recuperación en determinadas situaciones, aunque proporciones elevadas de muestras DAgger terminan degradando el rendimiento general.
  • Noise Injection ($D^{C}$) favorece la estabilidad local de la política frente a perturbaciones continuas durante la inferencia.
  • Magic Mix ($D^{M}$) representa actualmente el mejor compromiso entre estabilidad y robustez frente a perturbaciones.

Aunque los resultados muestran tendencias consistentes, la ampliación de las ejecuciones continúa en curso. Como trabajo futuro se contempla la evaluación de nuevas configuraciones híbridas y nuevas proporciones de mezcla entre Burbuja, DAgger y Noise Injection para identificar regiones de entrenamiento capaces de maximizar simultáneamente la robustez ante condiciones iniciales adversas y la resistencia frente a perturbaciones online durante la conducción autónoma.


Análisis adicional: diferencia entre la generación del dataset DAgger y el Test 4

Al revisar en detalle la configuración utilizada para generar el dataset DAgger y la configuración empleada posteriormente durante el Test 4, se observó que ambas no son equivalentes.

La siguiente tabla resume las principales diferencias:

Parámetro Dataset DAgger Test 4
Frecuencia de perturbación 12 s 6 s
Duración de la perturbación (hold) 0.40 s 0.30 s
Duración del recovery 0.50 s 0.60 s
Steer máximo aplicado ±0.40 ±0.18

La principal diferencia aparece en la magnitud de las perturbaciones. Durante la generación del dataset DAgger se utilizaron acciones con amplitudes de hasta:

\[steer = \pm 0.40\]

mientras que en el Test 4 las perturbaciones máximas fueron:

\[steer = \pm 0.18\]

Sin embargo, las perturbaciones del Test 4 se aplican con una frecuencia aproximadamente dos veces mayor, pasando de una perturbación cada 12 segundos a una perturbación cada 6 segundos.

Desde una perspectiva conceptual, el dataset DAgger fue generado mediante episodios de recuperación relativamente severos y poco frecuentes:

Perturbación fuerte
↓
Recuperación humana
↓
Conducción normal durante varios segundos
↓
Nueva perturbación

Por el contrario, el Test 4 introduce perturbaciones más suaves pero mucho más frecuentes:

Perturbación suave
↓
Recuperación
↓
Pocos segundos de conducción
↓
Nueva perturbación

Esto implica que el Test 4 podría estar evaluando principalmente la estabilidad continua de la política frente a pequeñas perturbaciones repetidas, más que la capacidad de recuperación frente a estados claramente fuera de distribución.

Esta diferencia resulta especialmente relevante al interpretar los resultados obtenidos. Mientras que Noise Injection fue diseñado precisamente para exponer al modelo a pequeñas perturbaciones alrededor de la trayectoria nominal, DAgger fue concebido para incorporar ejemplos de recuperación desde estados potencialmente más alejados de la distribución original.

Por tanto, una posible explicación de la superioridad observada de $D_{0.50}^{C}$ en el Test 4 es que el escenario de evaluación se asemeja más al proceso utilizado para generar el dataset Noise Injection que al procedimiento empleado para construir el dataset DAgger.

Como trabajo futuro se plantea repetir el Test 4 utilizando exactamente las mismas perturbaciones empleadas durante la generación del dataset DAgger. Esto permitirá determinar si las ventajas teóricas de DAgger aparecen con mayor claridad cuando las condiciones de evaluación coinciden con las condiciones bajo las cuales fueron recolectadas las muestras de recuperación.