O caminho para >99% de precisão: Superando os desafios na precisão da detecção de telefones celulares
Usar o celular enquanto dirige aumenta em quase quatro vezes a probabilidade de acidentes. Agora, detectar o uso do celular não é apenas um recurso "bom de se ter", mas um recurso essencial. As frotas estão buscando ativamente soluções para reduzir esse comportamento arriscado, e os alertas em tempo real do RideView são a resposta. Nossa equipe de IA da LightMetrics decifrou o código com um algoritmo de distração que ostenta mais de 99% de precisão. Alertas falsos? Raros. Enfrentamos desafios como iluminação complicada e posições variadas das mãos, tudo para garantir uma precisão quase perfeita, sem concessões. É assim que estamos tornando as estradas mais seguras, um alerta de cada vez.

Imagine que você está dirigindo em uma rodovia. O sol está brilhando bem e o horizonte distante é visível como um brilho. O carro potente que você está dirigindo está se destacando na estrada. De repente, seu celular toca - é do seu escritório. Você tem a opção de encostar no acostamento e atender a chamada ou, em vez disso, continuar dirigindo e atender a chamada. Muitas pessoas escolhem a última opção para economizar alguns minutos. Entretanto, essa decisão aumenta drasticamente o risco de acidentes, quase quatro vezes. Ao usar o celular enquanto dirige, sua atenção na estrada diminui e o tempo de reação necessário para eventos inesperados aumenta. Falar ao celular enquanto dirige é um dos principais fatores que contribuem para as mortes nas estradas, conforme indicado por vários relatórios da NHTSA.
Detectar o uso do celular usando a plataforma RideView agora se tornou um recurso importante para a maioria dos nossos parceiros. Há um ano, muitas pessoas que consideravam esse recurso algo interessante, agora percebem que telefonar e enviar mensagens de texto enquanto dirigem é perigoso e não têm visibilidade disso. As frotas estão buscando ativamente reduzir o risco do uso do celular com alertas em tempo real quando os motoristas usam o telefone enquanto dirigem. A detecção de telefone celular na plataforma RideView faz exatamente isso. Ela emite alertas em tempo real ao motorista para conscientizá-lo sobre o comportamento de risco, e o comportamento repetido é escalado para os proprietários e gerentes de frota, o que permite que eles iniciem sessões de treinamento com o motorista para tratar desse comportamento de risco.
A equipe de IA da LightMetrics conseguiu superar os limites no desenvolvimento do algoritmo de distração por telefone celular, com precisão >99%. Asseguramos que os alertas falsos sejam muito, muito raros, o que leva a uma confiança muito alta de todas as partes interessadas - motoristas e gerentes de frota. O caminho para alcançar mais de 99% de precisão tem sido desafiador, principalmente no que diz respeito à manutenção de uma taxa excepcionalmente baixa de falsos positivos e, ao mesmo tempo, à obtenção de uma taxa excepcional de verdadeiros positivos. Alguns dos desafios que a equipe enfrentou ao desenvolver uma solução que funciona em escala foram
- Mãos que parecem estar segurando um telefone
- A iluminação desafiadora no veículo causa falsos positivos
- Dados do mundo real em escala para os diferentes cantos
Aqui está um breve relato de como conseguimos uma precisão quase perfeita sem sacrificar a recuperação:
Formas de mão que se assemelham muito a caixas de chamadas
Observe o conjunto de fotos a seguir. À primeira vista, parece que a pessoa está falando ao telefone, mas, na verdade, ela está apenas mantendo as mãos em posições muito semelhantes às de uma chamada, mas não está segurando o telefone.

Os casos de chamadas reais com um telefone na mão estão abaixo

Como pode ser observado, o objeto na mão geralmente é preto e, às vezes, é pouco visível por se misturar ao fundo. Por padrão, o modelo de rede neural começa a se concentrar nas posições da mão/dedo como um recurso dominante e, em muitos casos, começa a emitir alertas de celular mesmo quando não há nenhum objeto na mão. Ensinar a rede neural a começar a se concentrar no objeto na mão tornou-se um dos principais focos ao projetar nossos experimentos de treinamento.
Por fim, uma variação inovadora das técnicas populares de perda contrastiva ajudou a rede neural a dar menos peso aos recursos da mão e mais peso ao objeto do celular na mão.
Diferentes condições de iluminação que resultam em falsos positivos
O modelo de rede neural teria sido treinado com um conjunto de dados de treinamento, mas, no campo, ele pode encontrar um tipo de dados completamente diferente com base em reflexos ou fontes de luz diferentes. Isso pode fazer com que o modelo forneça previsões erradas. Alguns exemplos disso podem ser vistos abaixo.
.png)
Isso foi resolvido quantificando o quanto os dados estão fora da distribuição e, portanto, com probabilidade de dar errado. Aproveitando a pesquisa sobre técnicas bayesianas e outras técnicas de quantificação da incerteza, a equipe conseguiu sinalizar com precisão os casos em que a rede neural provavelmente daria errado, sem afetar os casos normais.
Obter dados suficientes que abranjam todos os tipos de casos
Quando a solução é usada por centenas de milhares de usuários, a variação na montagem, na aparência etc. será enorme. É importante que o modelo generalize todas essas variações e tenha um desempenho ideal. Quando a equipe da LM começou a trabalhar nesse projeto, contamos com um conjunto de dados externo para a tarefa, mas ficou claro que a mudança de domínio entre esses dados e os dados capturados por nossas câmeras era significativa. Experimentar diferentes técnicas de adaptação de domínio nos ajudou a melhorar o desempenho dos modelos, mas o verdadeiro aprimoramento do desempenho finalmente ocorreu quando mudamos o treinamento do modelo do conjunto de dados externo para o conjunto de treinamento composto apenas por dados das nossas câmeras. Inicialmente, achamos que isso afetaria a generalização do modelo, mas fazer com que o modelo se concentrasse em grandes variações dos mesmos dados de câmera ajudou a ultrapassar os limites de precisão/recuperação. Ter esse grande conjunto de dados ajudou a ampliar todas as técnicas anteriores que foram usadas em relação à arquitetura, à função de perda e à estimativa de incerteza.
Concluindo, a detecção de objetos pequenos, como telefones celulares, não é uma tarefa muito fácil de ser realizada com precisão excepcional. Para a IA de ponta em hardware acessível, a inferência eficiente é fundamental, o que torna essa tarefa já desafiadora ainda mais difícil. O treinamento de redes neurais de uma forma que se concentre apenas no essencial absoluto é fundamental para o sucesso em aplicativos com restrições computacionais.