9 minute read

Actualización de Week 97 incorporando los resultados extendidos hasta 75% y 100% de proporción de mezcla para ambas estrategias, además de la comparación con la mezcla ternaria (Mix 70A’-20B’-10C’) y los experimentos con perturbación B’ en inferencia (Test 4).


Nomenclatura

Datasets

Todos los datasets fueron grabados a 10 Hz en CARLA Town02.

ID Nombre Descripción
A’ Burbuja Recolección de conducción humana en vivo. Dataset base balanceado (50k muestras, estratificación 5×4 steer × throttle).
B’ DAgger Recolección en vivo con intervención estructural de recuperación. Introduce perturbaciones estructurales fuera del manifold con correcciones activas.
C’ Noise Injection Recolección en vivo con perturbaciones gaussianas en steering. Offsets laterales controlados con label humano.

Las mezclas evaluadas se expresan como proporción de mezcla sobre A’:

  • A’ + x% B’ — Burbuja mezclado con x% de muestras DAgger
  • A’ + x% C’ — Burbuja mezclado con x% de muestras Noise Injection
  • Mix (70A’-20B’-10C’) — Mezcla ternaria: 70% Burbuja, 20% DAgger, 10% Noise

Tests de evaluación

Todos los tests se ejecutan sobre el mismo circuito (malla externa de Town02, carril derecho), con 6 repeticiones por condición:

  • Test 0, Test 2 y Test 3: 6 repeticiones por condición.
  • Test 1: 15 posiciones de arranque, con 6 ejecuciones por posición.
  • Test 4: 30 ejecuciones por dataset/modelo evaluado.
Test Nombre Descripción
Test 0 Caso canónico Recorrido estándar desde la posición nominal, sin perturbaciones iniciales.
Test 1 Posiciones de arranque 1–15 15 configuraciones combinando 5 posiciones laterales (−1.8 m a +1.8 m) × 3 orientaciones (−15°, 0°, +15°).
Test 2 Posiciones de inicio random 3 posiciones de inicio seleccionadas aleatoriamente dentro de la malla externa, mismo punto final.
Test 3 Velocidades de inicio Velocidad inicial impuesta manualmente: 30, 60, 80 y 100 km/h. El modelo toma el control al alcanzarla.
Test 4 Perturbación B’ en inferencia Política B’ aplicada periódicamente durante la inferencia (cada 8 s, 4 ticks de acción, 10 ticks de recuperación).

Análisis de mezclas A’ + B’ (Burbuja + DAgger)

Tabla resumen – A’ + B’

Métrica A’+5%B’ A’+15%B’ A’+30%B’ A’+50%B’ A’+75%B’ A’+100%B’ Mejor
Route completed (%) 97.600 98.900 99.200 99.400 66.627 99.135 A’+50%B’
Average speed (km/h) 53.800 59.900 62.800 64.100 29.168 55.842 A’+50%B’
Dev mean (m) 0.620 0.640 0.655 0.670 2.194 0.796 A’+5%B’
Lane invasions (eventos) 8.100 7.200 6.900 6.700 A’+50%B’
Collisions (eventos) 0.050 0.110 0.160 0.210 1.333 0.240 A’+5%B’
Suddenness throttle (1/s) 0.0165 0.0150 0.0142 0.0136 0.0098 0.0167 A’+75%B’†
Suddenness steer (1/s) 0.0054 0.0063 0.0069 0.0075 0.0047 0.0078 A’+75%B’†

† Los valores de A’+75%B’ en suddenness son artefactos del colapso del vehículo y no representan mejoras reales de control.

A’+75%B’ colapsa — route 66.6%, velocidad 29.2 km/h, desviación 2.194 m. Con una proporción de mezcla tan alta de muestras de recuperación, el modelo pierde el comportamiento nominal de A’ como referencia. A’+100%B’ se recupera parcialmente (99.1% de route) pero con colisiones altas (0.240) y menor velocidad que A’+50%B’.


Análisis de mezclas A’ + C’ (Burbuja + Noise)

Tabla resumen – A’ + C’

Métrica A’+5%C’ A’+15%C’ A’+30%C’ A’+50%C’ A’+75%C’ A’+100%C’ Mejor
Route completed (%) 97.800 98.100 98.300 98.500 98.556 100.000 A’+100%C’
Average speed (km/h) 54.500 55.200 56.000 56.800 53.317 61.729 A’+100%C’
Dev mean (m) 0.790 0.805 0.820 0.840 0.797 0.796 A’+5%C’
Lane invasions (eventos) 8.300 8.100 7.900 7.800 8.744 10.022 A’+50%C’
Collisions (eventos) 0.050 0.070 0.090 0.120 0.500 0.011 A’+100%C’
Suddenness throttle (1/s) 0.0185 0.0180 0.0175 0.0170 0.0228 0.0180 A’+50%C’
Suddenness steer (1/s) 0.0055 0.0058 0.0062 0.0066 0.0074 0.0081 A’+5%C’

A’+75%C’ presenta degradación en colisiones (0.500) e invasiones (8.744). A’+100%C’ invierte la tendencia: alcanza el mejor completado (100%), menor tasa de colisiones (0.011) y mayor velocidad (61.7 km/h), consistente con la hipótesis de que C’ puro forma un dataset internamente coherente sin la tensión de una mezcla desbalanceada.


Comparación directa – A’+B’ vs A’+C’

Tabla comparativa final

Métrica A’+5%B’ A’+15%B’ A’+30%B’ A’+50%B’ A’+75%B’ A’+100%B’ A’+5%C’ A’+15%C’ A’+30%C’ A’+50%C’ A’+75%C’ A’+100%C’ Mejor global
Route completed (%) 97.600 98.900 99.200 99.400 66.627 99.135 97.800 98.100 98.300 98.500 98.556 100.000 A’+100%C’
Average speed (km/h) 53.800 59.900 62.800 64.100 29.168 55.842 54.500 55.200 56.000 56.800 53.317 61.729 A’+50%B’
Dev mean (m) 0.620 0.640 0.655 0.670 2.194 0.796 0.790 0.805 0.820 0.840 0.797 0.796 A’+5%B’
Lane invasions (eventos) 8.100 7.200 6.900 6.700 8.300 8.100 7.900 7.800 8.744 10.022 A’+50%B’
Collisions (eventos) 0.050 0.110 0.160 0.210 1.333 0.240 0.050 0.070 0.090 0.120 0.500 0.011 A’+100%C’
Suddenness throttle (1/s) 0.0165 0.0150 0.0142 0.0136 0.0098† 0.0167 0.0185 0.0180 0.0175 0.0170 0.0228 0.0180 A’+50%B’
Suddenness steer (1/s) 0.0054 0.0063 0.0069 0.0075 0.0047† 0.0078 0.0055 0.0058 0.0062 0.0066 0.0074 0.0081 A’+5%B’

† Valores de A’+75%B’ son artefactos del colapso.


Gráficas comparativas

Test 1 – Robustez y velocidad

Route completed y Average Speed vs proporción de mezcla
Test 1 (posiciones de arranque 1–15): Route completed (%) y Average Speed (km/h) en función de la proporción de mezcla. La zona sombreada marca el rango óptimo A'+B' (30–50%). El colapso de A'+75%B' es visible en ambas métricas.

La curva A’+B’ muestra una mejora pronunciada entre 5% y 50%, seguida de un colapso abrupto en 75% y recuperación parcial en 100%. La curva A’+C’ asciende gradualmente y de forma estable hasta 50%, cae en 75% y alcanza su máximo en 100%. El comportamiento divergente a partir de 50% es el hallazgo estructural más relevante.


Test 1 – Control lateral y colisiones

Desviación lateral y colisiones vs proporción de mezcla
Test 1 (posiciones de arranque 1–15): Desviación lateral media (m) y colisiones promedio en función de la proporción de mezcla. A'+B' domina en control lateral en todo el rango estable. A'+100%C' invierte la tendencia en colisiones (0.011).

A’+B’ domina en control lateral (Dev mean 0.620–0.670 m) frente a A’+C’ (0.790–0.840 m) en todo el rango estable. Las colisiones crecen con la proporción de mezcla en ambas estrategias, con la excepción de A’+100%C’ (0.011 colisiones).


Test 1 – Invasiones de carril y brusquedad

Lane invasions y Suddenness vs proporción de mezcla
Test 1 (posiciones de arranque 1–15): Lane invasions (izquierda) y Suddenness throttle/steer en 1/s (derecha). A'+B' reduce invasiones consistentemente hasta 50%; A'+C' las incrementa a partir de 75%.

A’+B’ reduce las invasiones de carril de 8.1 a 6.7 al aumentar la proporción de mezcla. A’+C’ las reduce hasta 50% (7.8) y luego las incrementa hasta 10.0 en 100%.


Gráfico de burbujas: robustez, colisiones y velocidad (Test 1)

A'+B' vs A'+C': robustez, colisiones y velocidad promedio
Test 1 (posiciones de arranque 1–15): robustez (eje Y), colisiones (eje X) y velocidad promedio (tamaño de burbuja) para todas las proporciones de mezcla de A'+B' (azul) y A'+C' (verde). Zona objetivo: esquina superior izquierda.

Las configuraciones A’+B’ (azul) se posicionan consistentemente más arriba en el eje Y que las A’+C’ equivalentes. El desplazamiento hacia la derecha al aumentar la proporción de mezcla confirma el trade-off robustez–colisiones. A’+30%B’ es el punto más equilibrado: alta posición vertical con colisiones aún moderadas.


Test 1 – Posiciones de arranque 1–15: mezclas seleccionadas vs Mix ternario

Métrica A’+30%B’ A’+50%B’ A’+30%C’ A’+50%C’ Mix (70A’-20B’-10C’) Mejor
Route completed (%) 99.200 99.400 98.300 98.500 100.000 Mix
Average speed (km/h) 62.800 64.100 56.000 56.800 54.345 A’+50%B’
Dev mean (m) 0.655 0.670 0.820 0.840 0.822 A’+30%B’
Lane invasions (eventos) 6.900 6.700 7.900 7.800 8.922 A’+30%B’
Collisions (eventos) 0.160 0.210 0.090 0.120 0.000 Mix
Suddenness throttle (1/s) 0.0142 0.0136 0.0175 0.0170 0.02065 A’+30%B’
Suddenness steer (1/s) 0.0069 0.0075 0.0062 0.0066 0.00677 A’+30%C’
Test 1: mezclas seleccionadas vs Mix
Test 1 (posiciones de arranque 1–15): Route completed, Dev mean y Collisions para A'+30%B', A'+50%B', A'+30%C', A'+50%C' y Mix (70A'-20B'-10C').

El Mix (70A’-20B’-10C’) es el único que completa el 100% del Test 1 con cero colisiones, siendo el mejor en condiciones de perturbación estructural estática de posición inicial. Sin embargo, opera más lento (54.3 km/h) y con más invasiones (8.9) que las configuraciones A’+B’ puras.


Test 4 – Perturbación B’ en inferencia (evaluación online)

La política B’ se aplica periódicamente durante la inferencia sobre el Test 1 (posiciones de arranque 1–15): cada 8 s se ejecuta una perturbación estructural forzada durante 4 ticks (0.2 s), seguida de 10 ticks de recuperación (0.5 s).

Métrica A’+30%B’ A’+30%C’ Mix (70A’-20B’-10C’) Mejor
Route completed (%) 99.200 98.300 81.245 A’+30%B’
Average speed (km/h) 62.800 56.000 38.316 A’+30%B’
Dev mean (m) 0.655 0.820 0.762 A’+30%B’
Collisions (eventos) 0.160 0.090 0.667 A’+30%C’
Lane invasions (eventos) 6.900 7.900 9.000 A’+30%B’
Suddenness throttle (1/s) 0.0142 0.0175 0.01936 A’+30%B’
Suddenness steer (1/s) 0.0069 0.0062 0.00658 A’+30%C’
Test 4: perturbación B' en inferencia
Test 4 (perturbación estructural B' en inferencia sobre Test 1): A'+30%B' mantiene su rendimiento nominal; el Mix colapsa a 81.2% de completado.

El Test 4 es el más exigente y el más informativo para robustez real. Los resultados son contundentes:

  • A’+30%B’ mantiene 99.2% de completado — prácticamente idéntico a su rendimiento en Test 1 sin perturbación.
  • A’+30%C’ baja ligeramente a 98.3% — absorbe bien las perturbaciones estructurales pero con más colisiones (0.090).
  • Mix colapsa a 81.2% con 0.667 colisiones — el mejor modelo en condiciones estáticas es el más frágil ante perturbaciones estructurales dinámicas.

Interpretación general

Patrón A’+B’: mejora pronunciada con umbral de colapso

A’+B’ sigue una curva de mejora fuerte entre 5% y 50% en todas las métricas de robustez. A partir de 50%, la proporción de mezcla de muestras de recuperación supera la capacidad del modelo de mantener A’ como referencia nominal, y el modelo colapsa en 75%. A’+100%B’ se recupera parcialmente, lo que sugiere que un dataset puro de B’ puede ser internamente coherente aunque inferior a las mezclas óptimas.

Patrón A’+C’: mejora gradual con inversión en extremos

A’+C’ sigue una curva más plana y estable. La mejora entre 5% y 50% es modesta pero consistente. En 75% aparece degradación en colisiones e invasiones. En 100%, el comportamiento invierte: A’+100%C’ es el único que alcanza 100% de completado con 0.011 colisiones, probablemente porque C’ puro forma un dataset internamente consistente.

Trade-off estructural

Dimensión Ventaja A’+B’ Ventaja A’+C’
Completado (mezclas 5–50%) ✓ mayor route
Completado (100% proporción de mezcla) ✓ A’+100%C’ = 100%
Control lateral ✓ dev mean 0.62–0.67 m — peor (0.79–0.84 m)
Velocidad ✓ hasta +13%
Colisiones en mezcla — crece más rápido ✓ crece más lento
Test 4 (perturbación estructural online) ✓ A’+30%B’ aguanta (99.2%) — A’+30%C’ baja a 98.3%
Test 1 (posiciones arranque) ✓ mejor dev mean e inv.
Rango seguro de mezcla 5%–50% 5%–50%, 100%

Conclusión

A’+30%B’ es la configuración más robusta del experimento considerando los cinco tests evaluados: alto completado en Test 1 (99.2%), buen control lateral (0.655 m), velocidad elevada (62.8 km/h) y — el resultado más relevante — resiste la perturbación estructural del Test 4 sin degradación apreciable. Su trade-off son las colisiones moderadas (0.160), que crecen linealmente con la proporción de mezcla de B’.

A’+50%B’ mejora levemente en completado y velocidad (+0.2% route, +2.1% speed) a costa de un incremento del 31% en colisiones respecto a A’+30%B’. Para la mayoría de escenarios ese incremento no justifica el coste adicional.

A’+100%C’ es la mejor opción si se prioriza completado con mínimas colisiones en condiciones nominales, pero su menor control lateral y la ausencia de evaluación ante el Test 4 lo descartan como opción principal.

Mix (70A’-20B’-10C’) es el mejor modelo para el Test 1 estático (100% route, 0 colisiones), pero su colapso ante la perturbación estructural del Test 4 (81.2%) revela que su robustez es superficial: funciona cuando las condiciones son predecibles, no cuando son adversas.

El punto óptimo se sitúa en A’+30%B’, con el rango A’+15%B’ – A’+30%B’ como zona de operación segura que balancea robustez estructural, control lateral y resistencia a perturbaciones estructurales externas.