Applicazioni di Pattern Recognition: scopriamo cosa accomuna il riconoscimento dei caratteri, il riconoscimento facciale, la diagnosi medica e le traduzioni.

L’ applicazione più semplice di Pattern Recognition consiste nel riconoscimento ottico dei caratteri partendo dalle loro immagini.

In questo esempio vi sono più classi, e precisamente tanti quanti sono i caratteri che vorremmo riconoscere.

Particolarmente interessante è il caso in cui i caratteri sono scritti a mano, in quanto le persone hanno stili di scrittura diversi: i caratteri possono essere scritti piccoli o grandi, inclinati, con una penna o una matita, e ci sono molte possibili immagini corrispondenti allo stesso carattere.

Sebbene la scrittura sia un’invenzione umana, non disponiamo di alcun sistema affidabile quanto un lettore umano, e non abbiamo una descrizione formale, ad esempio, di “A” che copra tutte le lettere “A” e nessuna delle non “A”.

In questo scenario, prendiamo campioni dagli scrittori (set di addestramento) e impariamo una definizione (regola) di “A” e delle “non A” da questi esempi. Anche se non sappiamo cosa rende un’immagine una “A”, siamo certi che tutte quelle “A” distinte hanno qualcosa in comune, che è ciò che vogliamo estrarre dagli esempi. Sappiamo che l’immagine di un carattere non è solo una raccolta di punti casuali, è una raccolta di tratti con una regolarità che possiamo catturare con un programma di Machine Learning.

Se stiamo leggendo un testo, un fattore di cui possiamo avvalerci è la ridondanza nei linguaggi umani. Una parola è una sequenza di caratteri e i caratteri successivi non sono indipendenti ma sono vincolati dalle parole della lingua. Questo ha il vantaggio che anche se non siamo in grado di riconoscere un carattere, possiamo comunque leggere la parola. Tali dipendenze contestuali possono verificarsi anche a livelli superiori, tra parole e frasi, attraverso la sintassi e la semantica della lingua. Esistono algoritmi di apprendimento automatico per apprendere sequenze e modellare tali dipendenze.

Riconoscimento Facciale

Il riconoscimento facciale è un problema più complesso rispetto al riconoscimento dei caratteri, in questo caso l’input è un’immagine e le classi sono persone da riconoscere, e il programma di apprendimento dovrebbe imparare ad associare le immagini dei volti alle identità.

Ma perché il riconoscimento facciale è più difficile rispetto al riconoscimento dei caratteri?

  • Nel riconoscimento facciale ci sono più classi, l’immagine in ingresso è più grande e un viso è tridimensionale, le differenze di posa e illuminazione causano cambiamenti significativi nell’immagine. Inoltre, potrebbe anche esserci l’eliminazione o la modifica di alcuni dettagli del volto; ad esempio, gli occhiali possono nascondere gli occhi e le sopracciglia e la barba può nascondere il mento.

Diagnosi Medica

Nella diagnosi medica, gli input sono le informazioni rilevanti che abbiamo sul paziente e le classi sono le malattie. Gli input contengono l’età, il sesso, l’anamnesi del paziente e i sintomi attuali.

Alcuni test potrebbero non essere stati applicati al paziente, e quindi questi input mancherebbero. I test richiedono tempo, possono essere costosi e possono disturbare il paziente; quindi, potrebbero non essere applicati a meno che non forniscano informazioni preziose. Nel caso di una diagnosi medica, un errore di decisione può portare a un trattamento sbagliato o nullo, e in caso di dubbio è preferibile che il classificatore rifiuti e rimandi la decisione a un esperto umano.

Riconoscimento vocale

Nel riconoscimento vocale, l’input è acustico e le classi sono parole che possono essere pronunciate, questa volta l’associazione da apprendere è da un segnale acustico a una parola di una lingua.

Persone diverse, a causa delle differenze di età, sesso o accento, pronunciano la stessa parola in modo diverso, il che rende il riconoscimento vocale piuttosto difficile, e alcune parole sono più lunghe di altre. Le informazioni acustiche aiutano solo fino a un certo punto e, come nel riconoscimento ottico dei caratteri, l’integrazione di un “modello linguistico” è fondamentale nel riconoscimento vocale e il modo migliore per elaborare un modello linguistico è di nuovo imparandolo da un ampio set di dati di esempio.

Traduzione

Dopo decenni di ricerca sulle regole di traduzione codificate a mano, è diventato evidente di recente che la tecnica più promettente consiste nel fornire un numero molto elevato di coppie di esempio di testi tradotti e fare in modo che un programma individui automaticamente le regole per mappare una stringa di caratteri su un’altra.

Biometria

La biometria è il riconoscimento o l’autenticazione di persone utilizzando le loro caratteristiche fisiologiche e/o comportamentali che richiede un’integrazione di input provenienti da diverse modalità. Esempi di caratteristiche fisiologiche sono le immagini del viso, delle impronte digitali, dell’iride e del palmo; esempi di caratteristiche comportamentali sono le dinamiche di firma, voce, andatura e colpo di chiave.

A differenza delle consuete procedure di identificazione – foto, firma stampata o password – quando ci sono molti input diversi (non correlati), le falsificazioni (spoofing) sarebbero più difficili e il sistema sarebbe più accurato, si spera senza troppi inconvenienti per gli utenti.

Il Machine Learning viene utilizzato sia nei riconoscitori separati per queste diverse modalità sia nella combinazione delle loro decisioni per ottenere una decisione generale di accettazione/rifiuto, tenendo conto dell’affidabilità di queste diverse fonti. L’apprendimento di una regola dai dati consente anche l’estrazione della conoscenza.

Conclusioni

La regola è un semplice modello che spiega i dati e una volta appreso il discriminante che identifica una specifica classe, abbiamo la conoscenza delle proprietà di quella specifica classe che ci permette di distinguerla dalle altre.

L’apprendimento della regola consente anche la compressione in quanto adattando una regola ai dati, otteniamo una spiegazione più semplice dei dati, che richiede meno memoria e meno calcoli. Una volta che hai le regole di addizione, non è necessario ricordare la somma di ogni possibile coppia di numeri.