El camino hacia una precisión >99%: Superar los retos de la precisión en la detección de teléfonos móviles
Utilizar el móvil al volante aumenta casi cuatro veces la probabilidad de accidente. Ahora, detectar el uso del teléfono móvil no es sólo una característica "agradable de tener", sino esencial. Las flotas están buscando activamente soluciones para frenar este comportamiento de riesgo, y las alertas en tiempo real de RideView son la respuesta. Nuestro equipo de IA en LightMetrics ha descifrado el código con un algoritmo de distracción que cuenta con más del 99% de precisión. ¿Falsas alertas? Rarísimas. Hemos afrontado retos como la iluminación complicada y las distintas posiciones de las manos, todo ello para garantizar una precisión casi perfecta sin concesiones. Así es como hacemos las carreteras más seguras, alerta a alerta.

Imagínese que circula por una autopista. El sol brilla con fuerza y el horizonte se vislumbra como un resplandor. El potente coche que conduce va a toda velocidad por la carretera. De repente, suena su teléfono móvil: es su oficina. Tienes la opción de apartarte a un lado y atender la llamada o, por el contrario, seguir conduciendo y atender la llamada. Muchas personas eligen esta última opción para ahorrarse unos minutos. Sin embargo, esta decisión multiplica casi por cuatro el riesgo de accidente. Cuando se utiliza el móvil mientras se conduce, disminuye la atención en la carretera y aumenta el tiempo de reacción necesario ante imprevistos. Hablar por el móvil mientras se conduce es una de las principales causas de mortalidad en carretera, como indican varios informes de la NHTSA.
La detección del uso del móvil mediante la plataforma RideView se ha convertido en una función importante para la mayoría de nuestros socios. Hace un año, muchos de los que consideraban que se trataba de una función interesante ahora se han dado cuenta de que llamar y enviar mensajes de texto mientras se conduce es peligroso y no tienen ninguna visibilidad al respecto. Las flotas buscan activamente reducir el riesgo del uso del teléfono móvil con alertas en tiempo real cuando los conductores utilizan el teléfono mientras conducen. La detección de teléfonos móviles de la plataforma RideView consigue precisamente eso. Proporciona alertas en tiempo real al conductor para que éste sea consciente del comportamiento de riesgo, y la repetición del comportamiento se comunica a los propietarios y gestores de la flota, lo que les permite iniciar sesiones de formación con el conductor para abordar este comportamiento de riesgo.
El equipo de IA de LightMetrics ha conseguido superar el listón en el desarrollo del algoritmo de distracción por teléfono móvil, con una precisión >99%. Nos hemos asegurado de que las falsas alertas sean muy, muy raras, lo que ha llevado a una confianza muy alta de todas las partes interesadas: conductores y gestores de flotas. Conseguir una precisión superior al 99% ha sido todo un reto, sobre todo para mantener una tasa de falsos positivos excepcionalmente baja y, al mismo tiempo, lograr una tasa de verdaderos positivos excepcional. Algunos de los retos a los que se enfrentó el equipo a la hora de desarrollar una solución que funcionara a escala fueron los siguientes
- Manos que parecen sostener un teléfono
- Una iluminación difícil en el vehículo provoca falsos positivos
- Datos reales a escala de las distintas esquinas
A continuación explicamos brevemente cómo conseguimos una precisión casi perfecta sin sacrificar la recuperación:
Formas de la mano que se parecen mucho a los casos de llamadas
Fíjese en las siguientes fotos, a primera vista parece que la persona está hablando por teléfono, pero en realidad sólo está manteniendo las manos en posiciones muy parecidas a las de llamar, pero no tiene ningún teléfono en la mano.

Los verdaderos casos de llamada con un teléfono en la mano son los siguientes

Como puede observarse, el objeto en la mano suele ser negro y a veces apenas es visible debido a que se mezcla con el fondo. Por defecto, el modelo de red neuronal empieza a centrarse en la posición de la mano y los dedos como característica dominante y, en muchos casos, empieza a emitir alertas de móvil incluso cuando no hay ningún objeto en la mano. Enseñar a la red neuronal a centrarse en el objeto de la mano fue uno de los principales objetivos a la hora de diseñar nuestros experimentos de entrenamiento.
Por último, una variación innovadora de las populares técnicas de pérdida contrastiva ayudó a la red neuronal a dar menos peso a las características de la mano y más al objeto del móvil en la mano.
Diferentes condiciones de iluminación que dan lugar a falsos positivos
El modelo de red neuronal se habría entrenado con un conjunto de datos de entrenamiento, pero sobre el terreno puede encontrarse con un tipo de datos completamente distintos, basados en reflejos o fuentes de luz diferentes. Esto puede hacer que el modelo ofrezca predicciones erróneas. A continuación se muestran algunos ejemplos.
.png)
Para ello, se cuantificó el grado de desviación de los datos y, por tanto, la probabilidad de que salieran mal. Aprovechando la investigación bayesiana y otras técnicas de cuantificación de la incertidumbre, el equipo pudo señalar con precisión los casos en los que la red neuronal tenía probabilidades de equivocarse, sin afectar a los casos normales.
Obtener datos suficientes que abarquen todo tipo de casos
Cuando la solución es utilizada por cientos de miles de usuarios, las variaciones en el montaje, las apariencias, etc. van a ser enormes. Es importante que el modelo generalice entre todas esas variaciones y funcione de forma óptima. Cuando el equipo de LM empezó a trabajar en este proyecto, nos basamos en un conjunto de datos externo para la tarea, pero quedó claro que el cambio de dominio entre esos datos y los capturados por nuestras cámaras era significativo. Probamos distintas técnicas de adaptación de dominio que nos ayudaron a mejorar el rendimiento de los modelos, pero la verdadera mejora se produjo cuando cambiamos el entrenamiento del modelo y dejamos de utilizar el conjunto de datos externo y pasamos a utilizar únicamente los datos de nuestras cámaras. Al principio pensamos que esto afectaría a la generalizabilidad del modelo, pero el hecho de centrarlo en grandes variaciones de los datos de la misma cámara nos ayudó a superar los límites de precisión/recuperación. Disponer de este gran corpus de datos ayudó a ampliar todas las técnicas anteriores que se utilizaron en relación con la arquitectura, la función de pérdida y la estimación de la incertidumbre.
En conclusión, detectar objetos pequeños, como teléfonos móviles, no es una tarea fácil de lograr con una precisión excepcional. Para lograr una IA de vanguardia en hardware asequible, es fundamental que la inferencia sea eficiente, lo que complica aún más esta tarea ya de por sí difícil. Entrenar las redes neuronales de forma que se centren sólo en lo absolutamente esencial es crucial para tener éxito en aplicaciones con limitaciones computacionales.