Week 100 - Análisis de robustez - Resultados parciales

3 minute read

Actualmente se está ampliando la cantidad de muestras utilizadas en los Test de Robustez 1 y 4.
En el Test 1 se realizan 15 ejecuciones por cada una de las 15 condiciones iniciales evaluadas, para un total de 225 ejecuciones por configuración experimental. En el Test 4 se realizan igualmente 225 ejecuciones por configuración experimental bajo perturbaciones online durante la inferencia. Debido al tiempo requerido para ejecutar y validar cada experimento, hasta el momento solo se dispone de los siguientes resultados parciales.

Definición de las mezclas de entrenamiento

Todos los experimentos se realizan utilizando datasets de tamaño fijo de aproximadamente 65k muestras. Sea $\alpha \in [0,1]$ la proporción de muestras augmentadas dentro del dataset final.

Las mezclas evaluadas se definen como:

\[D_{\alpha}^{B} = (1-\alpha)A' + \alpha B'\]

para las mezclas con DAgger, y

\[D_{\alpha}^{C} = (1-\alpha)A' + \alpha C'\]

para las mezclas con Noise Injection.

Donde:

$A’$: dataset Burbuja (conducción humana base)
$B’$: dataset DAgger
$C’$: dataset Noise Injection
$\alpha$: proporción de muestras augmentadas en el dataset final

Ejemplos de interpretación

Configuración	Composición real del dataset
$D_{0.50}^{B}$	50% Burbuja + 50% DAgger
$D_{0.75}^{B}$	25% Burbuja + 75% DAgger
$D_{0.50}^{C}$	50% Burbuja + 50% Noise Injection
$D_{0.75}^{C}$	25% Burbuja + 75% Noise Injection

Test 1 – Robustez bajo condiciones iniciales

225 ejecuciones por configuración experimental.

Métrica	$D_{0.50}^{B}$	$D_{0.50}^{C}$	$D_{0.75}^{B}$	$D_{0.75}^{C}$	$D_{1.00}^{B}$
Successful runs	97.3% (219/225)	74.2% (167/225)	40.4% (91/225)	45.3% (102/225)	0.0% (0/226)
Average speed (km/h)	55.3	56.1	29.2	52.5	16.3
Dev mean (m)	0.860	0.785	1.992	0.901	2.747
Collisions	0.03	0.00	1.22	0.60	1.08

Test 4 – Perturbación online durante inferencia

225 ejecuciones por configuración experimental.

Métrica	$D_{0.30}^{B}$	$D_{0.30}^{C}$	$D_{0.50}^{B}$	$D_{0.50}^{C}$	$D_{0.75}^{B}$	$D_{0.75}^{C}$	$D^{M}$
Successful runs	71.1% (160/225)	79.6% (179/225)	62.2% (140/225)	91.1% (205/225)	20.0% (45/225)	47.1% (106/225)	58.2% (131/225)
Average speed (km/h)	45.6	49.7	42.6	51.6	23.1	45.7	36.3
Dev mean (m)	0.895	0.808	1.118	0.567	2.253	1.117	1.416
Collisions	1.07	0.37	0.64	0.16	1.44	0.76	0.68

Donde:

\[D^{M}=0.70A' + 0.20B' + 0.10C'\]

corresponde a la mezcla híbrida Magic Mix compuesta por:

70% Burbuja ($A’$)
20% DAgger ($B’$)
10% Noise Injection ($C’$)

Comparación entre Test 1 y Test 4

Al comparar los resultados de ambos experimentos aparece un comportamiento interesante. Mientras que las mezclas basadas en DAgger muestran un mejor desempeño en el Test 1, donde se evalúa la capacidad de recuperación desde condiciones iniciales adversas, las mezclas basadas en Noise Injection obtienen los mejores resultados en el Test 4, donde el vehículo es sometido a perturbaciones online durante la inferencia.

Una posible explicación es que ambas estrategias estén fortaleciendo propiedades diferentes de la política de conducción. DAgger incorpora ejemplos de recuperación desde estados fuera de distribución, por lo que favorece la capacidad de regresar a la trayectoria cuando el vehículo ya se encuentra en una situación desfavorable. Por el contrario, Noise Injection introduce pequeñas perturbaciones y correcciones continuas alrededor de la trayectoria nominal, favoreciendo una conducción más estable y resistente a perturbaciones durante la ejecución.

Desde esta perspectiva, DAgger parece mejorar principalmente la capacidad de recuperación (recoverability), mientras que Noise Injection mejora la estabilidad local (stability) de la política aprendida.

Evaluación de la mezcla híbrida (Magic Mix)

Con el objetivo de combinar las ventajas observadas en ambas estrategias, se evaluó una mezcla híbrida:

\[D^{M}=0.70A' + 0.20B' + 0.10C'\]

compuesta por un 70% de muestras Burbuja, 20% DAgger y 10% Noise Injection.

En el Test 4, esta configuración alcanzó un 58.2% de successful runs (131/225), con una velocidad media de 36.3 km/h, una desviación lateral media de 1.416 m y 0.68 colisiones por ejecución.

Aunque Magic Mix mejora respecto a algunas configuraciones con altas proporciones de DAgger, no logra alcanzar el desempeño observado en las mejores mezclas basadas exclusivamente en Noise Injection. Esto sugiere que la simple combinación de datasets no garantiza una combinación equivalente de sus beneficios. Los patrones de recuperación aprendidos mediante DAgger y los patrones de estabilización aprendidos mediante Noise Injection podrían estar compitiendo entre sí durante el entrenamiento, limitando el desempeño final de la política.

De forma preliminar, los resultados sugieren que:

DAgger favorece la recuperación desde estados fuera de distribución.
Noise Injection favorece la estabilidad frente a perturbaciones online.
Las mezclas híbridas requieren una exploración más profunda para determinar si existe una proporción capaz de combinar simultáneamente ambas ventajas.

Actualmente se continúa ampliando la cantidad de ejecuciones y muestras evaluadas con el objetivo de aumentar la validez estadística de los resultados y obtener conclusiones más sólidas sobre el comportamiento y la robustez de los diferentes datasets comparados. Como trabajo futuro, se contempla la evaluación de nuevas configuraciones híbridas, explorando distintas proporciones entre Burbuja, DAgger y Noise Injection para determinar si existe una región de mezcla capaz de maximizar simultáneamente la capacidad de recuperación ante estados fuera de distribución y la estabilidad frente a perturbaciones online durante la conducción autónoma.

Share on

Twitter Facebook LinkedIn

Carlos Velásquez

Week 100 - Análisis de robustez - Resultados parciales

Definición de las mezclas de entrenamiento

Ejemplos de interpretación

Test 1 – Robustez bajo condiciones iniciales

Test 4 – Perturbación online durante inferencia

Comparación entre Test 1 y Test 4

Evaluación de la mezcla híbrida (Magic Mix)

Share on

You may also enjoy

Week 101 - Análisis de robustez - Resultados parciales

Week 99 - Análisis de robustez mediante mezclas A’–B’ y A’–C’ en conducción autónoma

Week 98 - (Actualización) Búsqueda de la proporción óptima, mezcla A’–B’ vs A’–C’ en conducción autónoma

Week 97 - Busqueda de la proporcion optima, mezcla Burbuja–DAgger vs Burbuja–Noise en conduccion autonoma