Week 73 - Prueba dataset Daniel
Comparación de Métricas: ResNet-18 (30 épocas) vs MobileNet
Se probaron ambos modelos utilizando el dataset de Daniel dentro de mi propio pipeline de entrenamiento. Las métricas mejoran de manera significativa respecto a ejecuciones anteriores, lo que indica que el flujo de entrenamiento está funcionando correctamente.
Sin embargo, en pruebas online el comportamiento todavía no es totalmente satisfactorio. Esto sugiere que, aunque el modelo generaliza bien offline (métricas bajas).
1. STEER — Comparación
| Métrica | ResNet-18 | MobileNet | Diferencia | % Peor MobileNet |
|---|---|---|---|---|
| MSE | 0.000448 | 0.020493 | +0.020045 | +4473% |
| MAE | 0.017188 | 0.113721 | +0.096533 | +561% |
| RMSE | 0.021163 | 0.143155 | +0.121992 | +576% |
MobileNet es entre 5× y 45× peor que ResNet-18 en Steer.
2. THROTTLE — Comparación
| Métrica | ResNet-18 | MobileNet | Diferencia | % Peor MobileNet |
|---|---|---|---|---|
| MSE | 0.000362 | 0.027791 | +0.027429 | +7573% |
| MAE | 0.011870 | 0.130896 | +0.119026 | +1002% |
| RMSE | 0.019034 | 0.166705 | +0.147671 | +775% |
MobileNet rinde ~8–10× peor en Throttle.
3. BRAKE — Comparación
| Métrica | ResNet-18 | MobileNet | Diferencia | % Peor MobileNet |
|---|---|---|---|---|
| MSE | 0.000080 | 0.002160 | +0.002080 | +2600% |
| MAE | 0.007482 | 0.036568 | +0.029086 | +389% |
| RMSE | 0.008952 | 0.046473 | +0.037521 | +419% |
MobileNet también es 4–6× peor en Brake.
4. Global — Comparación
| Métrica | ResNet-18 | MobileNet | Diferencia | % Peor MobileNet |
|---|---|---|---|---|
| MSE Global | ≈0.000963* | 0.016815 | +0.015852 | +1645% |
| MAE Global | — | 0.093728 | — | — |
| RMSE Global | — | 0.118778 | — | — |
- Promedio simple de los 3 MSE de ResNet.
MobileNet es ~17× peor globalmente.
Mejora del Dataset
Durante esta semana se completó un nuevo pipeline de entrenamiento basado en ResNet-18 utilizando únicamente imágenes segmentadas, aplicando una máscara binaria sobre la calzada y replicando la imagen en tres canales (grises) para aprovechar pesos preentrenados tipo ImageNet.
La novedad es que esta vez se usó un dataset balanceado (mezcla del dataset normal + dataset exclusivo de curvas), lo que permitió mejorar la distribución de steer y obtener un modelo más estable en curvas.
Además, se integró un piloto online que reproduce exactamente el mismo pipeline de preprocesamiento usado en entrenamiento (recorte, máscara, resize 66×200, normalización). Esto resolvió los problemas de inconsistencia entre offline y online observados en semanas anteriores.
Como se muestra en el video adjunto, el piloto online funciona perfectamente en Town02, logrando mantener la trayectoria y respondiendo adecuadamente en curvas, incluso en zonas estrechas del mapa.
Evaluación del Entrenamiento
Dataset: combinado + balanceado Modelo: ResNet-18 monolítico (steer + throttle) Épocas: 30 Entrada: Segmentación binaria (66×200, 3 canales en gris) Salida: Steer, throttle (brake fijo en piloto)
Los resultados muestran una mejora significativa respecto a MobileNet, confirmando que:
-
El pipeline de segmentación con ResNet-18 es más robusto.
-
El balanceo estratificado del dataset contribuye a un aprendizaje estable, especialmente en curvas.
-
Las métricas offline son muy bajas y consistentes → ahora sí se refleja apropiadamente en la prueba online.
| Variable | MSE | RMSE | MAE |
|---|---|---|---|
| STEER | 0.058400 | 0.241660 | 0.152389 |
| THROTTLE | 0.152795 | 0.390890 | 0.337371 |
Comparado con los entrenamientos anteriores:
-
El MSE/RMSE de steer y throttle aumentaron.
-
Esto indica que el modelo perdió precisión en la evaluación offline.
-
La causa principal parece ser el nuevo dataset combinado, que aunque balanceado, puede tener más ruido, más variabilidad, y un preprocesamiento distinto al usado previamente.
Resumen Comparativo de Modelos — Evaluación Offline
A continuación se presentan las métricas globales de cada modelo usando el mismo pipeline de preprocesado (segmentación binaria).
| Modelo | Steer MSE | Steer RMSE | Steer MAE | Throttle MSE | Throttle RMSE | Throttle MAE |
|---|---|---|---|---|---|---|
| ResNet18 | 0.008252 | 0.090838 | 0.066260 | 0.009632 | 0.098146 | 0.070521 |
| EfficientNet V2-S | 0.104006 | 0.322500 | 0.249124 | 0.152539 | 0.390563 | 0.345736 |
| MobileNetV3-Small | 0.152539 | 0.390563 | 0.345736 | 0.152539 | 0.390563 | 0.345736 |
| PilotNet | 0.074976 | 0.273818 | 0.196874 | 0.161633 | 0.402036 | 0.349883 |
Test Online
| Métrica | EfficientNet (pth) | MobileNet (pth) | ResNet18 (pth) |
|---|---|---|---|
| Distancia completada (m) | 299.76 | 347.78 | 237.73 |
| Effective completed distance (m) | 181.50 | 88.50 | 191.00 |
| Position deviation mean (m) | 0.9090 | 1.4182 | 0.6327 |
| Position deviation / km | 5.01 | 16.02 | 3.31 |
| Collisions | 16 | 48 | 68 |
| Collisions per km | 88.15 | 542.37 | 356.02 |
| Lane invasions | 760 | 958 | 672 |
| Lane invasions per km | 4187.33 | 10824.86 | 3518.32 |
| Avg speed (km/h) | 36.74 | 36.92 | 37.91 |
| Max speed (km/h) | 57.32 | 56.01 | 51.49 |
| Suddenness steer per km | 0.2967 | 0.6016 | 0.2624 |
| Suddenness throttle per km | 0.3120 | 0.4480 | 0.2411 |
Resumen:
- MobileNet → Mayor avance, pero peor estabilidad y precisión.
- EfficientNet → Buen balance entre avance y seguridad.
- ResNet18 → Más estable y preciso, pero menos agresivo y avanza menos.