LipNet AI della Oxford University per leggere il labiale

La lettura del labiale è un compito molto difficile soprattutto se effettuato a velocità naturale. Ad oggi i migliori risultati ottenuti si aggirano tra il 20% e il 60% di precisione utilizzando tool professionali. I ricercatori della Oxford University hanno, però, sviluppato LipNet che promette un’accuratezza del 93.4%.

Ecco il video dimostrativo di LipNet:

LipNet un nuovo modo di interpretare il labiale

Il miglior sistema sperimentale, antecedente a questo, garantisce un’accuratezza massima del 79.6% e utilizza un sistema di analisi parola per parola.
I ricercatori della Oxford University hanno pubblicato un articolo in cui viene presentato un nuovo sistema chiamato LipNet. Questo sistema affronta il problema in maniera differente e, invece di analizzare con il criterio parola per parola i movimenti della bocca, allena l’intelligenza artificiale ad apprendere intere frasi. In questo modo l’AI di LipNet imparerà da sola quale lettere corrispondono a determinati movimenti della bocca.
L’addestramento di LipNet è stato fatto mostrando all’AI circa 29.000 video ognuno dei quali lungo tre secondi e avente come etichetta il testo pronunciato nella frase. Inoltre, per ottenere un riscontro di come questo tipo di riconoscimento viene svolto dagli umani, i ricercatori hanno reclutato 3 persone dall’Oxford Students’ Disability Community mostrandogli circa 300 video simili a quelli usati per testare l’AI: alla fine le tre persone scelte hanno ottenuto un errore medio del 47.7% contro l’errore medio di LipNet che è stato del 6.6%.
Nonostante gli ottimi risultati ottenuti da LipNet, è importante sottolineare come un sistema di questo tipo è stato allenato e progettato utilizzando video ben definiti in cui il labiale veniva ripreso in maniera chiara da una posizione frontale e in cui tutte le frasi avevano una struttura nota e sempre uguale.
Quindi, è abbastanza improbabile che questo sistema applicato a un generico video possa ottenere gli stessi risultati di accuratezza. Nonostante questo l’autore dell’articolo, Nando de Freitas, ha difeso il proprio operato dicendo che generici video sarebbero stati troppo differenti l’uno dall’altro per effettuare un buon training e che con le opportune modifiche, e abbastanza video per una nuova fase di training, LipNet otterrebbe gli stessi risultati anche per video generici.
Questo tipo di tecnologia può avere riscontri molto positivi soprattutto nell’aiuto di persone con disabilità uditive, ma può anche avere risvolti negativi se utilizzata magari per effettuare video-sorveglianza di massa captando conversazioni a distanza.