“Safer City” grazie alla Video Analysis

“Safer City” grazie alla Video Analysis

La video analysis, anche se meglio sarebbe parlare di video content analysis o video content analytics (VCA), intesa come la capacità di analizzare automaticamente flussi video provenienti da impianti di videosorveglianza per individuare determinati eventi spaziali e temporali, può essere un potente strumento di prevenzione nel campo della sicurezza urbana, rendendo così più sicure le nostre città.

Molti degli eventi criminosi, anche mortali, che funestano le città italiane in questi ultimi tempi vedono la presenza di armi da taglio, tipologia di arma che in Europa è ormai responsabile per più omicidi rispetto alle armi da fuoco.

La cosa è confermata dalle statistiche ISTAT dalle quali si può rilevare fra l’altro come le donne vengano prevalentemente assassinate con armi da taglio, mentre gli uomini prevalentemente con armi da fuoco (ISTAT 2022 – VITTIME DI OMICIDIO | ANNO-2022 (24 novembre 2023)).

Verso le “Safer City”

Ci si deve allora chiedere: è possibile agire sul fronte preventivo anziché intervenire solamente a posteriori per l’individuazione dei responsabili?

In sintesi, è possibile che le smart city divengano “safer-city” utilizzando in modo più intelligente la videosorveglianza urbana esistente?

Oggigiorno il numero di punti di ripresa di un qualsiasi sistema di videosorveglianza cittadino è talmente grande che è impossibile per uno o più operatori umani tenere sotto controllo quanto le telecamere riprendono.

Esistono da tempo software di video analysis capaci di quella che si può definire knife detection (e più in generale weapon detection), che utilizzano intelligenza artificiale e consentono di rispondere immediatamente a situazioni critiche nelle quali vengono branditi coltelli, software che possono essere integrati su qualsivoglia sistema di videosorveglianza cittadina essendo totalmente indipendenti dall’hardware.

Più in generale si tratta di software che riescono a identificare una specifica azione all’interno di un flusso video sia registrato che real-time; questi software individuano i frame dove è presente l’azione o l’elemento ricercato e, quando in real-time, generano alert automatici che consentono all’organo di polizia che ha la supervisione del sistema di videosorveglianza di intervenire immediatamente.

Situazione in Europa e in Italia

Una delle prime città in Europa a utilizzare questo tipo di sistemi capaci di intercettare in modo automatico situazioni di pericolo e per questo chiamati anche smart monitoring system è stata Cracovia nel 2014, ma già precedentemente altre città polacche (Wroclaw, Poznan, Bydgoszcz) si erano messe su questa strada con lo scopo di prevenire essenzialmente vandalismi, ottenendo però risultati significativi anche su risse, scippi e spaccio di sostanze stupefacenti.

Al momento in Italia l’adozione di questo tipo di tecnologie va ancora rilento per vari motivi: alcuni tecnologici, legati all’interfacciamento del software di analisi con i software di gestione del sistema di videosorveglianza, altri correlati al tema, sempre controverso e farraginoso, della privacy.

Nessun problema con la privacy

Alla maggior parte dei Comuni (e dei Comandi di Polizia Locale che gestiscono i sistemi di videosorveglianza cittadini) sembra non essere chiaro che l’utilizzazione di software di video analysis non è assolutamente in contrasto con la normativa relativa alla privacy.

Infatti i software di video analysis non recuperano e/o registrano dati antropometrici che possono identificare la persona, né forniscono informazioni sulle sue caratteristiche; semplicemente individuano oggetti o pattern comportamentali specifici generando un alert in relazione a quanto preimpostato dall’utente.

Sarà solo successivamente all’alert generato automaticamente che l’organo di polizia che sta visionando le immagini porrà in essere tutte quelle attività sia di prevenzione che di polizia giudiziaria, eventualmente e se necessario atte a identificare compiutamente il soggetto.

Come funziona tecnicamente

Dal punto di vista tecnico esistono due principali categorie di object detector comprese nei software di video analysis: single-stage e two-stage, ambedue capaci di risultati notevoli pur differenziandosi per alcune caratteristiche.

I single-stage detector sono più rapidi dal momento che si basano su una singola rete neurale che produce i dati che serviranno per le successive elaborazioni.

I two-stage detector utilizzano due reti neurali, dove la prima estrae dai flussi video le regioni maggiormente interessanti, mentre la seconda identifica all’interno di queste i pattern di rilievo; in questo senso risultano quindi più precisi anche se più lenti.

Uno dei single-stage detector maggiormente utilizzato è YOLO (You Only Look Once) che con un singolo passaggio sulle immagini è capace di generare le annotazioni relative a quanto interessa; questo software, sviluppato inizialmente nel 2016, è ormai arrivato alla settima versione riuscendo ad essere abbastanza efficiente anche in quei casi dove risulta difficile distinguere l’offender (la persona che brandisce il coltello o altra arma) dal defender (la persona offesa) perché magari si trovano a distanza molto ravvicinata l’uno dall’altro.

YOLO si basa su una Cutting Edge Convolutional Neural Network, un tipo particolare di rete feed-forward, sviluppato utiizzando Darknet, un framework di rete neurale open-source, scritto in C e in CUDA, linguaggio di programmazione capace di utilizzare architetture informatiche parallele.

YOLO esamina l’immagine una sola volta, segmentandola in regioni e provvedendo poi per ogni regione all’individuazione del pattern ricercato, il tutto a una velocità che è centinaia di volte superiore a sistemi two-stage come Fast R-CNN.

Città più sicure grazie alla Video Analysis

In questo senso, tenuto conto dell’aumento dei reati che vedono l’utilizzo di coltelli come arma, come mostrano i recenti fatti di cronaca, l’implementazione di software di video analysis a bordo dei sistemi di videosorveglianza urbana potrebbe costituire un utilissimo sistema di prevenzione e di supporto che consentirebbe un intervento rapido, unica azione capace di scongiurare esiti peggiori.

Rimane sicuramente anche l’utilità a posteriori: i software di video analysis, grazie alla rapidità di individuazione di determinati pattern comportamentali all’interno dei flussi video sono sempre di enorme aiuto nelle indagini, quanto meno per evitare ore e ore di visione manuale di flussi video consentendo quindi agli organi di polizia di avere a disposizione in tempi rapidissimi gli elementi chiave per l’indagine.

Bibliografia

Ingle, P.Y., Kim, Y.-G., Real-Time Abnormal Object Detection for Video Surveillance, in Smart Cities. Sensors 2022, 22, 3862. https://doi.org/10.3390/s22103862

Grega M., Matiolanski A., Guzik P, Leszczuk M., Automated Detection of Firearms and Knives in a CCTV Image, 1 January 2016, AGH University of Science and Technology, al. Mickiewicza 30, Krakow 30-059, Poland

Chen B., Shvetsova N., Rouditchenko A., Kondermann D., Thomas S, Chang S., Feris R., Glass J., Kuehne H., What, when, and where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions, Computer Vision Foundation, 2023

Knife Detection using Indoor Surveillance Camera, Maggio 2021, Conference: 2021 IEEE World AI IoT Congress, https://ieeexplore.ieee.org/document/9454246

Santos T., Oliveira H., Cunha A., Systematic review on weapon detection in surveillance footage through deep learning, Computer Science Review, Volume 51, 2024, 100612, ISSN 1574-0137, https://doi.org/10.1016/j.cosrev.2023.100612.