Tecniche di Apprendimento non supervisionato con clustering. - Esplorando il Futuro della Tecnologia e dello Sviluppo

Nell’apprendimento supervisionato, l’obiettivo è apprendere un collegamento tra input e output grazie ai valori corretti (Training Set o dati di addestramento) forniti da un supervisore.

Nell’apprendimento non supervisionato, non esiste tale supervisore per cui abbiamo solo dati di input e l’obiettivo è quello di trovare una regolarità nell’input.

C’è una struttura nello spazio di input tale che alcuni pattern (o gruppi) si verificano più spesso di altri e vogliamo identificarli al fine di vedere cosa succede generalmente e cosa no in determinate circostanze.

In statistica, questo si chiama stima della densità.

Un metodo per la stima della densità si chiama clustering il cui obiettivo è appunto quello di trovare cluster o raggruppamenti di input.

Vediamo un esempio di applicazione di clustering per l’apprendimento non supervisionato:

Nel caso di un’azienda i dati dei clienti contengono sia le informazioni demografiche che le transazioni, e si potrebbe voler vedere la distribuzione del profilo dei clienti, per identificare il tipo di clienti che è maggiormente presente. In tal caso, un modello di clustering raggruppa clienti simili in base ai loro attributi nello stesso gruppo, fornendo all’azienda raggruppamenti naturali dei suoi clienti, questo è chiamato segmentazione dei clienti. Una volta trovati tali gruppi, l’azienda può decidere strategie, ad esempio, servizi e prodotti, specifici per diversi gruppi, questo è noto come gestione delle relazioni con i clienti. Tale raggruppamento consente anche di identificare quelli che sono “outlier”, cioè quelli che sono diversi dagli altri clienti, il che può implicare una nicchia di mercato che può essere ulteriormente sfruttata dall’azienda.

Nel clustering di documenti, lo scopo è raggruppare documenti simili. Ad esempio, le notizie possono essere suddivise in quelle relative a politica, sport, moda, arte e così via. Comunemente, un documento è rappresentato come un insieme di parole, ovvero, predefiniamo un lessico di N parole e ogni documento è un vettore binario N-dimensionale il cui elemento i è 1 se la parola i appare nel documento parole come “Di”, “e” e così via, che non sono informativi, non vengono utilizzati. I documenti vengono quindi raggruppati in base al numero di parole condivise. Ovviamente qui è fondamentale come viene scelto il lessico.

Cookie	Durata	Descrizione
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Lascia un commento Annulla risposta